GPT-5.5 a un taux d’hallucination 3 fois plus élevé que GLM-5.2 sous licence MIT

(arrowtsx.dev)

1 points par GN⁺ 4 시간 전 | 1 commentaires | Partager sur WhatsApp

Alors que le scepticisme grandit parmi les grands laboratoires d’IA autour de la stratégie d’expansion infinie, un nouvel exemple montre que la taille d’un modèle ne garantit pas l’exactitude dans le monde réel
GLM-5.2, un modèle open weight sous licence MIT, avec 753B de paramètres et environ 40B de paramètres actifs, se rapproche à seulement 4 points de GPT-5.5
Sur le benchmark AA-Omniscience, le taux d’hallucination ressort à 28% pour GLM-5.2, 86% pour GPT-5.5 et 94% pour DeepSeek V4 Pro, montrant que l’écart en calibrage de l’incertitude devient aussi important que le score de performance
Lors d’un test Python, DeepSeek V4 Pro a donné une mauvaise réponse malgré 3 min 52 s et 7.7k reasoning tokens utilisés, tandis que GLM-5.2 a identifié une impossibilité technique en 12 secondes et avec environ 800 tokens
Le choix d’un modèle ne peut pas se fonder uniquement sur le nombre de paramètres ou les performances théoriques : il faut aussi évaluer la capacité brute, le taux d’hallucination et l’efficacité de calcul

Doutes sur la stratégie d’expansion des modèles

Parmi les principaux laboratoires d’IA, le scepticisme grandit face à l’idée que l’on puisse continuer à améliorer les performances uniquement en augmentant le nombre de paramètres et le volume des données d’entraînement
Claude Fable 5 a été restreint par le gouvernement américain trois jours après son lancement, et a été présenté comme le premier cas d’interdiction d’une IA américaine pour des raisons de sécurité nationale
- Le fait qu’un des plus grands modèles au monde ait été interdit à cause d’un seul risque de jailbreak est utilisé comme exemple des limites du paradigme d’expansion
Les grands modèles continuent d’obtenir des scores élevés dans l’Artificial Analysis Intelligence Index, mais les modèles open weight ont eux aussi fortement réduit l’écart
- GLM-5.2 de Z.ai est un LLM open weight sous licence MIT avec 753B de paramètres et environ 40B de paramètres actifs
- GLM-5.2 se situe à seulement 4 points de GPT-5.5 et 9 points de Fable 5 dans l’Artificial Analysis Intelligence Index
- Alors que les modèles fermés sont estimés entre 1,5 et 2 fois plus grands que GLM-5.2, cette réduction de l’écart alimente l’hypothèse d’un plateau de l’intelligence réelle

Le taux d’hallucination met en lumière un problème de calibrage de l’incertitude

Les modèles entraînés sur de grandes quantités de données factuelles et non théoriques peuvent être renforcés dans une direction où ils produisent quand même une réponse même lorsqu’ils ne savent pas
Le taux d’hallucination du benchmark AA-Omniscience varie fortement selon les modèles
- Comparaison des taux d’hallucination : {b:94,28,36,48,86}
- DeepSeek V4 Pro : 1.6T de paramètres, 49B de paramètres actifs, score de 44 dans l’AA Intelligence Index, taux d’hallucination de 94%
- GLM-5.2 : taux d’hallucination de 28%
- Opus 4.8 : taux d’hallucination de 36%
- Fable 5 : taux d’hallucination de 48%
- GPT-5.5 : taux d’hallucination de 86%
Le taux d’hallucination de 94% de DeepSeek V4 Pro signifie que, sur les questions auxquelles il ne trouvait pas de réponse, il n’a dit « je ne sais pas » que dans environ 6% des cas, et a fourni dans le reste des cas des réponses fausses avec assurance

L’efficacité de calcul a fait la différence dans le test Python

Le test comparatif a été mené sur une question Python relativement complexe présentant un défaut d’architecture clair
- Les deux modèles ont été testés sur OpenRouter avec high reasoning effort et une temperature de 1
- Le prompt système était : “You respond professionally. You are a highly capable coding assistant well-versed in Python.”
- GLM-5.2 était proposé par Z.ai en précision FP8, et DeepSeek V4 Pro par Baidu Qianfan, également en précision FP8
DeepSeek V4 Pro a généré une réponse fausse avec assurance après avoir utilisé 7.7k reasoning tokens pendant 3 min 52 s
GLM-5.2 a conclu en 12 secondes et avec environ 800 reasoning tokens seulement qu’il était techniquement impossible pour une tâche single-threaded d’effectuer des multiplexed I/O sans yielding ni system polling
Augmenter aveuglément le budget de reasoning, la taille du corpus et le nombre de paramètres risque de ne faire que gaspiller du calcul tout en produisant des mauvaises réponses plausibles
Même des modèles très grands peuvent être incapables de dire « je ne sais pas » ou de reconnaître des erreurs logiques et techniques subtiles ; il faut donc évaluer ensemble la raw capability, l’uncertainty calibration / taux d’hallucination et l’efficacité de calcul

1 commentaires

GN⁺ 4 시간 전

Avis sur Hacker News

Affirmer que l’intelligence réelle a fortement stagné, et qu’en continuant à entraîner des modèles encore plus grands l’intelligence va non seulement stagner mais empirer, c’est une affirmation assez audacieuse
Je ne vois pas pourquoi on conclurait que des modèles plus grands et davantage de données mènent automatiquement à plus d’hallucinations. En pratique, ces dernières années, c’était plutôt l’inverse, et même si certains modèles peuvent encore halluciner davantage, les modèles actuels hallucinent bien moins que le ChatGPT initial à 175B, entraîné avec des modèles plus petits et beaucoup moins de données
J’ai mentionné les données à cause des citations disant que les grands laboratoires d’IA deviennent sceptiques face à l’augmentation sans fin du nombre de paramètres et des données d’entraînement. La situation actuelle donne plutôt l’impression que l’industrie a vu qu’il restait encore beaucoup à tirer de modèles à moins de 1T, mais qu’il faut davantage de données de haute qualité dans cette distribution pour débloquer les capacités recherchées
- Pour rendre les modèles plus intelligents qu’aujourd’hui, il faut des cas et des exemples à apprendre, mais plus on se rapproche du percentile supérieur du raisonnement humain, plus ces matériaux deviennent extrêmement rares
  On peut fabriquer de force des problèmes de logique, mais l’anglais n’est pas de la logique formelle, donc cela devient souvent un jeu de langage. Les problèmes de type « Monty Hall » ressemblent aussi davantage à des jeux de langage, intéressants seulement pour les humains, et qui deviennent évidents si on les formule autrement
  En fin de compte, les entraîneurs de modèles luttent contre l’écrasante banalité du corpus d’entraînement, c’est-à-dire l’ensemble de la production humaine enregistrée dans l’histoire. À mesure que les modèles s’améliorent, l’étape suivante sera probablement des modèles co-conçus avec les humains pour dépasser ces limites. Notre manière d’utiliser le langage, notre processus de résolution de problèmes, et même ce qu’on appelle aujourd’hui l’« orchestration » évolueront ensemble
  Si l’on peut gérer un contexte immense et qu’on n’a pas besoin des mêmes contraintes, les métaphores du monde réel correspondent mal. Cela soulève aussi des questions comme : à quel point les hallucinations diffèrent-elles vraiment de l’extrapolation ?
  Une grande partie du scepticisme et de la confusion autour des LLM n’est pas si différente du cas où une personne d’intelligence moyenne écoute l’explication d’une personne très intelligente, la prend pour du non-sens, puis l’accuse avec arrogance d’être désagréable
  De la même manière que le loup a été domestiqué en chien pour développer des traits adaptés à la proximité humaine, les LLM évolueront eux aussi autour de nos limites, de notre arrogance, de nos biais esthétiques et de nos préjugés. Ce que la plupart des humains attendent des LLM n’est fondamentalement pas l’intelligence et la rationalité
- La citation ne disait pas « modèles plus grands et plus de données = plus d’hallucinations ». Elle disait que les modèles plus grands connaissent une stagnation de l’intelligence, pas qu’il y a plus de données ni une hausse des hallucinations
  La citation liée est plutôt le passage disant que « lorsqu’un modèle est entraîné sur une énorme quantité de données très factuelles et non théoriques, il apprend à toujours produire une réponse »
  Il y a donc en réalité deux affirmations distinctes. 1) Les modèles plus grands plafonnent en performance 2) Les modèles entraînés sur davantage de données factuelles ont un taux d’hallucination plus élevé
  Le point 1 est assez proche d’un constat bien connu. De mémoire, les recherches d’OpenAI sur les lois d’échelle montraient déjà depuis quelques années des rendements décroissants en fonction du nombre de paramètres et du volume de données d’entraînement. Pour le point 2, je ne sais pas s’il existe d’autres éléments que le texte d’origine
- Les hallucinations ne dépendent-elles pas aussi fortement de la puissance de calcul et de la capacité mémoire ? Les entreprises peuvent consacrer plus de temps à la vérification des résultats dans des architectures de type agent, utiliser davantage de tokens de raisonnement et moins quantifier. Tout cela dépend fortement du calcul et de la mémoire, et il a été montré que cela réduit les hallucinations
  Peut-être que GPT-5.5 est en réalité fortement limité par un manque de calcul, de mémoire ou d’énergie
  Je suis d’accord pour dire qu’il semble exagéré d’en conclure que les modèles plus grands stagnent
- Si les grands laboratoires d’IA deviennent sceptiques face à l’expansion infinie du nombre de paramètres et des données d’entraînement, c’est probablement en grande partie à cause de la qualité des données d’entraînement. Je ne sais pas pourquoi ce point est si peu mentionné dans ce type de débat
  Comme c’était évident dès le départ, les lois d’échelle n’ont fait que rendre possibles certaines capacités décrites dans les données sous-jacentes, et permettre aux réseaux de neurones artificiels de les abstraire dans l’espace latent
- N’est-ce pas simplement du surapprentissage ? Il y a plus de données, mais si on demande quelque chose qui n’y figure pas, des hallucinations apparaissent
Je me demande si c’est à cela que ressemble un « minimum viable LLM ». Je me demande souvent quelle taille un LLM doit atteindre avant qu’il devienne plus utile d’augmenter la fenêtre de contexte et d’y injecter du contenu de connaissance dynamique comme des PDF ou des fichiers Markdown, afin de lui fournir des connaissances hors de ses données d’entraînement
J’ai l’impression que les LLM n’ont pas besoin de plus de données, mais d’un meilleur processus de raffinement
Les hallucinations semblent, à première vue, être un problème facile à cibler avec le RLVR. On génère déjà une énorme quantité de traces de raisonnement vérifiables par la bonne réponse, donc il suffirait d’ajouter « je ne sais pas » comme réponse valide, puis, pour les problèmes où aucune des milliers de traces de raisonnement n’atteint la bonne réponse, de promouvoir en données d’entraînement les traces qui aboutissent à « je ne sais pas »
En substance, il s’agit d’enseigner au modèle que « je ne sais pas » est une réponse valide
Il me semble que Sam Altman avait aussi laissé entendre cette idée dans un billet de blog il y a quelque temps, donc cela doit paraître évident à tout le monde. Si c’est le cas, il faut sans doute en conclure que ce n’est pas aussi simple qu’on pourrait le croire en pratique
- Presque tous les benchmarks mesurent l’exactitude avec 1 point si la réponse est juste, 0 sinon. Si on répond « je ne sais pas » à 100 questions pour lesquelles on n’a que 10 % de certitude, on obtient 0 point, alors qu’en répondant avec assurance à toutes, l’espérance est de 10 points. C’est ainsi que la plupart des IA sont entraînées
  À ma connaissance, le seul benchmark IA où une supposition aléatoire obtient en moyenne un score inférieur au fait de répondre « je ne sais pas » à toutes les questions est AA-Omniscience
- Je pense que le problème vient de la sortie du LLM et de la manière dont les outils l’interprètent. La sortie est une distribution de probabilité sur tous les prochains tokens possibles. Même si la probabilité de chaque token est très faible, l’ensemble est normalisé pour que la somme totale fasse 1. Après cette étape, il devient difficile de distinguer si le modèle préfère vraiment un token donné, ou si l’on observe simplement du bruit amplifié
  Entraîner un token distinct pour « je ne sais pas » signifie qu’il faut creuser un fossé entre lui et tous les autres tokens. Au lieu d’une zone de bruit floue entre « oui » et « non », où les deux ont une probabilité relativement élevée, il faut un nouveau pic plus élevé pour « je ne sais pas ». Mais cela crée alors de nouvelles zones floues entre « oui » et « je ne sais pas », puis entre « je ne sais pas » et « non ». Si l’on veut encore apprendre une autre réponse entre les deux, il faut être bien plus précis
  En revanche, on peut vérifier si plusieurs choix ont presque la même probabilité. Mais il faut alors déterminer si les deux premiers choix sont en pratique des synonymes, comme « Genève » et « Geneva », ce qui serait un bon signe que le modèle connaît la réponse, ou bien s’il s’agit de « oui » et « non »
- Le problème central est que la suppression des hallucinations ne se généralise pas. On peut pénaliser des réponses incorrectes sur des questions variées, mais cela ne mène pas à l’émergence d’une vision du monde cohérente. Seule une vision du monde cohérente, combinée à des capacités de raisonnement, constitue une véritable solution aux hallucinations
  Avec l’architecture actuelle, il est fort possible que les hallucinations persistent indéfiniment sur les tâches en domaine ouvert
- Ce n’est pas si simple. Comme la question m’intéressait, j’ai déjà essayé d’entraîner un LLM précisément dans ce but
  La tâche était simple. J’ai créé un ensemble d’entraînement à partir du dataset MS-MARCO[0], qui contient requêtes, résultats de recherche et réponses. 1) des questions accompagnées de vrais résultats de preuve, de quelques résultats non pertinents, et de la bonne réponse ; 2) des questions accompagnées uniquement de résultats non pertinents, avec comme réponse « No answer present »
  Le dataset était volumineux, près d’un million d’échantillons, et j’ai testé plusieurs méthodes : de l’imitation simple du dataset à la manière du SFT, jusqu’au DPO qui oppose bonnes et mauvaises réponses à une même requête utilisateur, ainsi que du GRPO qui vérifie les annotations sur la présence ou non d’une réponse
  Au final, les hallucinations n’ont pas diminué, elles sont même devenues bien pires. Le modèle a commencé à affirmer « No answer present » même quand la réponse existait réellement, ou même pour des questions simples qui n’avaient pas besoin de résultats de recherche au départ, comme X+Y
  Bien sûr, on peut dire que mon entraînement était rudimentaire par rapport à ce que peuvent faire les laboratoires de pointe. Mais je pense malgré tout que cela suggère une limite plus fondamentale. Les LLM sont capricieux et ne comprennent pas proprement, à partir des premiers principes, des choses du type : « regarder une liste de résultats de recherche, vérifier leur pertinence par rapport à la requête de l’utilisateur, et ne pas les utiliser dans la réponse si leur pertinence pour la réponse est inférieure à un certain seuil »
  En résumé, ce n’est pas aussi simple qu’on pourrait le penser, et c’est peut-être même impossible à atteindre
  0: https://huggingface.co/datasets/microsoft/ms_marco
- Si l’on pouvait utiliser une telle fonction de récompense, il n’y aurait pas besoin de LLM : il suffirait d’interroger cette fonction pour répondre à n’importe quelle question. On peut créer des benchmarks et automatiser la vérification, mais dans le cas général ce n’est pas soluble. Un modèle peut bien réussir sur les benchmarks tout en continuant à donner des réponses trop confiantes hors du périmètre couvert par ces benchmarks
  On peut régler le modèle pour qu’il dise plus souvent « je ne sais pas », mais cela a un coût en performance. Il finira aussi par refuser certaines questions auxquelles il pourrait répondre de manière utile. Dans les cas dégénérés, le modèle peut même s’effondrer au point de prédire toujours, ou presque toujours, cette phrase
Le score de taux d’hallucination est un peu délicat à interpréter. Il s’agit d’une valeur conditionnée au cas où le modèle ne connaît pas la réponse. Il ne mesure donc pas directement la probabilité de rencontrer une hallucination en usage quotidien. Cette probabilité dépend aussi de la probabilité que le modèle ne connaisse pas la réponse, et du degré de correspondance entre la distribution des tâches des utilisateurs et la distribution d’évaluation
Il faut aussi être prudent avant d’attribuer cet écart de taux d’hallucination uniquement à la taille du modèle. GLM-5.2 hallucine bien moins que DeepSeek-V4 Pro, qui a deux fois plus de paramètres, alors que DeepSeek-V4 Flash fait moins de la moitié de la taille de GLM-5.2 mais arrive premier sur l’indice d’hallucination AA-Omniscience
Opus 4.8 est probablement plus grand que DeepSeek-V4 Pro, et affiche dans cet indice un taux d’hallucination de 36 %, supérieur aux 28 % de GLM-5.2, mais bien inférieur aux chiffres de DeepSeek. En revanche, la précision d’Opus est de 47 % contre 25 % pour GLM-5.2. Si l’on calcule à partir de ces chiffres le taux d’hallucination absolu, c’est-à-dire le nombre de réponses hallucinées divisé par le nombre total de réponses, on obtient 19 % pour Opus et 21 % pour GLM-5.2
Donc, toutes choses égales par ailleurs, les grands modèles peuvent être plus vulnérables aux hallucinations lorsqu’ils ne connaissent pas la réponse, mais beaucoup d’autres facteurs influencent ce taux, et il n’est même pas totalement clair que ce soit l’indicateur clé à suivre
- Je ne suis pas en désaccord, mais en même temps un modèle ne “connaît” pas quelque chose dans ce sens binaire. Cela semble être une explication simple, mais en réalité c’est extrêmement subtil
  Qu’est-ce qu’un modèle sait selon qu’un fait est apparu une fois dans les données d’entraînement, jamais, dix fois ou mille fois ? Les faits ne sont pas stockés tels quels, ils sont décomposés en composants puis compressés dans les poids
  Les faits “similaires” qui n’apparaissent pas en quantité écrasante sont regroupés ensemble et finissent par se confondre. Mais qu’est-ce qu’un fait similaire ? Certains faits ont-ils été complètement éliminés, tandis que d’autres ont été regroupés avec le reste, contaminant le pool tout en apportant une capacité de raisonnement ? Le modèle ne sait rien, et ne peut jamais savoir ce qu’il sait ou ne sait pas
- Il est peut-être plus facile pour le modèle de réaliser qu’il ne connaît pas la réponse quand la question est facile
  Si Opus répond correctement à tout sauf aux questions les plus difficiles, alors les questions sur lesquelles il se trompe sont aussi celles où la vérification ou la détection d’hallucination est la plus difficile, ce qui peut faire monter le taux d’hallucination
- Cela semble testable avec des questions hypothétiques. Il suffit de demander des choses qui ne se sont pas produites après la date limite de connaissance, ou des choses réellement impossibles à résoudre
- Il faudrait appeler l’hallucination un “échec d’ancrage aux sources”
  Dans la structure de coûts des modèles américains de pointe, il semble y avoir quelque chose qui leur administre un choc électrique chaque fois qu’ils hésitent entre chercher ou non alors qu’ils sont incertains. La réaction d’évitement de la recherche correspond à presque toutes les hallucinations
  Je n’attends même pas mon tour avec le modèle. S’il existe une page de manuel ou un résultat Hoogle, je l’injecte au dernier point de coupure du cache de préfixe. C’est plus rentable ainsi
- Il manque ici un mode d’échec courant : les informations postérieures à la date limite de connaissance. Si l’information nécessaire est postérieure à cette date, le modèle échouera quelle que soit sa taille, donc le taux d’hallucination peut être important indépendamment de la base de connaissances
  Si tous les cas d’usage présentaient un risque égal de sortir du périmètre couvert, le raisonnement précédent serait juste, mais il arrive souvent qu’on sache avec certitude qu’un point de données est hors périmètre, donc la capacité absolue à le reconnaître est importante
Dire que GPT-5.5 et DeepSeek V4 Pro sont énormes tout en étant les leaders les plus marqués en hallucination semble suggérer que plus le modèle est grand, plus il est susceptible d’halluciner. Cela ne correspond pas à mon expérience
- Cela semble vouloir dire qu’ils ont plus tendance à halluciner lorsqu’ils ne connaissent pas la réponse. Les grands modèles donneront la bonne réponse plus souvent que les petits, mais lorsqu’ils se trompent, ils sont plus susceptibles d’inventer au lieu de dire “je ne sais pas”
Le passage disant que “si un modèle est entraîné sur d’énormes volumes de données très factuelles et non théoriques, il apprend à toujours produire une réponse”, ainsi que les chiffres de taux d’hallucination AA-Omniscience de 94 % pour DeepSeek V4 Pro, 28 % pour GLM-5.2, 36 % pour Opus 4.8, 48 % pour Fable 5 et 86 % pour GPT-5.5, est frappant
On savait déjà, à partir de travaux antérieurs, que l’hallucination était probablement un problème fondamental des LLM, difficile à corriger comme l’injection de prompt, mais je ne pensais pas que les taux étaient à ce point mauvais
Tout le monde s’est comporté comme si les meilleurs modèles n’hallucinaient que dans des cas limites, mais ici même GLM-5.2, pourtant le meilleur du lot, hallucine à 28 % lorsqu’il “ne sait pas” quelque chose
Cela dit, je pense que le titre du billet, “Bigger models are not the way”, est plus approprié et touche au vrai point qui devrait faire davantage de bruit. Si des modèles plus grands et des jeux d’entraînement plus vastes ne produisent déjà plus de rendements proportionnels, il est très possible que nous approchions déjà du haut de la courbe en S. Étant donné que la valorisation d’entreprises comme OpenAI ou xAI repose fortement sur l’idée absurde d’une extension sans fin de ces modèles, c’est une énorme nouvelle
- Les LLM n’ont pas de notion de connaissance au sens de Wikipedia
  Les tokens de la question ne font que définir les tokens de la réponse. L’essentiel est dans le regroupement des poids pertinents
- D’accord sur le titre, c’était mon erreur. J’ai vécu des choses vraiment horribles en utilisant ces modèles “de pointe”, en particulier dans des agents de codage, où ils inventaient des faits sur la base de code
Si l’objectif est seulement de maximiser les scores de benchmark, alors plus gros n’est pas forcément toujours mieux, mais pour l’intelligence générale et cette qualité propre aux grands modèles, c’est loin d’être vrai
Les modèles open source sont impressionnants, mais par rapport à Opus ou 5.5, il est assez clair à quelle vitesse ils s’effondrent dès qu’on sort du petit ensemble de problèmes étroits bien couverts par les benchmarks
On estime que le taux d’hallucination ne dépend pas de la taille du modèle, mais de la manière dont il est entraîné. Les modèles ont été entraînés sur d’énormes corpus composés en très grande majorité de questions bien formulées et de réponses bien organisées et correctes. C’est particulièrement vrai pour les livres, qui sont des matériaux fortement curatés par des experts du domaine
Dans les livres, on voit très rarement des questions sans réponse, suivies d’un raisonnement et d’une explication sur pourquoi et comment il n’y a pas de réponse. On trouve aussi très peu de livres qui posent une bonne question puis expliquent honnêtement qu’ils ne connaissent pas la réponse. Lors du processus de curation, les auteurs écartent de la discussion les questions auxquelles ils n’ont pas de réponse
De plus, pendant le RLHF, les laboratoires seraient biaisés vers des questions qui ont une solution et produisent des réponses intéressantes, tandis que les « mauvaises » questions sans bonne réponse sont sous-représentées. Il est aussi très probable que moins d’efforts RLHF aient été consacrés aux questions pour lesquelles le modèle devrait reconnaître qu’il ne sait pas
Les humains ont appris toute leur vie en étant confrontés, dans le monde réel, à des questions auxquelles ils n’avaient pas immédiatement de réponse, et ils ont appris à évaluer très vite qu’ils ne savent pas ou qu’ils ne sont pas sûrs
Les humains possèdent aussi quelque chose que les LLM n’ont pas : la peur. Dans le cerveau humain, l’amygdale, distincte de la partie dédiée au raisonnement logique, envoie des signaux de peur, ce qui nous rend beaucoup plus prudents dans ce que nous disons. À l’inverse, les LLM n’ont pas d’organe de la peur comparable à l’amygdale et apprennent seulement à répondre selon les motifs présents dans leur corpus d’entraînement. Comme ils n’ont pas « peur » de perdre la face ou d’être licenciés à cause d’une mauvaise réponse, ils peuvent donner avec enthousiasme des réponses totalement fausses
Ainsi, le taux d’hallucination peut être amélioré par l’entraînement, mais les laboratoires actuels ne l’optimisent pas dans cette direction à cause de la compétition à haut risque pour produire les modèles les plus intelligents et les plus performants
Une alternative serait de créer pour les LLM un organe séparé, analogue à une amygdale. Cet organe pourrait envoyer des signaux de manière asynchrone à partir du prompt utilisateur et de la trace de raisonnement du LLM, afin d’injecter un signal de peur dans l’inférence du modèle et de le réorienter vers des réponses plus sûres
- Je suis tout à fait d’accord sur le fait que la taille du modèle n’est pas la cause directe. Cela dit, les modèles avec davantage de paramètres ont besoin de beaucoup de données d’entraînement pour éviter le surapprentissage ou le sous-apprentissage
  C’est pourquoi j’estime que la course vers la « taille maximale des données d’entraînement » a involontairement conduit à un surapprentissage. Ce n’est pas critique, mais suffisant pour déclencher dans le modèle une perception qui ressemble à de l’omniscience
- Skinner aurait sans doute dit qu’il ne s’agit pas d’émotions comme la peur ou la cupidité, mais de conséquences

GPT-5.5 a un taux d’hallucination 3 fois plus élevé que GLM-5.2 sous licence MIT

Doutes sur la stratégie d’expansion des modèles

Le taux d’hallucination met en lumière un problème de calibrage de l’incertitude

L’efficacité de calcul a fait la différence dans le test Python

À lire aussi

1 commentaires

Avis sur Hacker News