Détecter les hallucinations des grands modèles de langage avec l’entropie sémantique

(nature.com)

1 points par GN⁺ 2024-06-25 | 1 commentaires | Partager sur WhatsApp

Pour détecter les confabulations des LLM, c’est-à-dire des réponses fausses mais plausibles et arbitraires, les auteurs proposent de calculer l’incertitude non pas sur des suites de mots, mais sur la distribution sémantique des réponses
Plusieurs réponses sont échantillonnées pour une même question, puis celles qui s’impliquent mutuellement sont regroupées dans un même cluster sémantique, dont on calcule ensuite l’entropie
Sur TriviaQA, SQuAD 1.1, BioASQ, NQ-Open et SVAMP, l’évaluation de LLaMA 2 Chat, Falcon Instruct et Mistral Instruct donne un AUROC moyen de 0,790, supérieur à naive entropy 0,691, P(True) 0,698 et embedding regression 0,687
Sur FactualBio, un jeu de données biographiques généré automatiquement à partir de GPT-4, 45 des 150 affirmations factuelles extraites de biographies de 21 personnes étaient erronées, et l’entropie sémantique discrète, qui fonctionne même sans probabilités de sortie, obtient un AUROC et un AURAC supérieurs à self-check et aux variantes de P(True)
L’entropie sémantique se généralise à de nouvelles tâches sans connaissance préalable du domaine ni labels spécifiques à une tâche, mais elle ne garantit pas la factualité de réponses systématiquement fausses, par exemple en cas d’erreurs dans les données d’entraînement, d’échecs de raisonnement systématiques ou de sorties trompeuses

Cible de détection : pas toutes les hallucinations, mais les confabulations

Les LLM comme ChatGPT ou Gemini montrent des capacités de raisonnement et de question-réponse, mais leur adoption réelle reste difficile à cause de risques comme l’invention de jurisprudence, la diffusion de fausses informations et les dangers dans des domaines médicaux comme la radiologie
L’objet étudié ici n’est pas l’ensemble des hallucinations au sens large, mais bien la confabulation
- Le LLM s’exprime avec fluidité, mais la réponse est fausse et arbitraire
- Pour une même consigne, la réponse peut varier selon des détails sans rapport, comme la seed aléatoire
- Par exemple, à la question « Quelle est la cible de Sotorasib ? », il peut parfois répondre correctement KRASG12 ‘C’, et parfois répondre à tort KRASG12 ‘D’
Les types d’échec suivants sont distingués de la confabulation
- les cas où le modèle se trompe de façon systématique à cause de données d’entraînement erronées ou d’idées reçues
- les cas où le modèle ment dans le cadre d’une optimisation de récompense
- les échecs de raisonnement systématiques ou de généralisation
Cette méthode vise à détecter des réponses arbitrairement fausses mais plausibles même pour un humain, et ne fournit pas de garantie de factualité sur les sorties du LLM

Idée centrale de l’entropie sémantique

Le calcul d’entropie classique utilise la distribution de probabilité des séquences de tokens générées par le modèle
- Une même bonne réponse peut être formulée de plusieurs façons, donc l’entropie peut être élevée même si le sens est identique
- naive entropy ne distingue pas la diversité d’expression des différences de sens
L’entropie sémantique estime l’incertitude après avoir regroupé les réponses générées librement en unités de sens
- Les réponses ayant le même sens sont regroupées dans un cluster sémantique
- Les probabilités sont additionnées par cluster pour calculer l’entropie au niveau sémantique
Si plusieurs réponses à une même question diffèrent seulement dans la formulation mais pas dans le sens, l’incertitude est considérée comme faible ; si plusieurs sens différents se mélangent, elle est considérée comme élevée
Pour les modèles dont les probabilités de sortie ne sont pas accessibles, on peut utiliser une entropie sémantique discrète
- Au lieu des probabilités de tokens, elle utilise la proportion d’échantillons appartenant à chaque cluster sémantique
- Dans les expériences avec GPT-4, cette variante a été utilisée car les probabilités de sortie et l’accès aux hidden states n’étaient pas disponibles à l’époque
- Cette variante discrète affiche des performances comparables à l’estimateur standard

Algorithme : échantillonnage, clustering sémantique, calcul de l’entropie

La procédure comporte trois étapes
- Génération : plusieurs réponses sont échantillonnées pour une même entrée
- Clustering : les réponses sont regroupées par sens
- Estimation de l’entropie : les probabilités des séquences appartenant au même cluster sémantique sont additionnées pour calculer l’entropie
L’équivalence sémantique est approchée par l’implication bidirectionnelle
- Si la phrase A implique la phrase B, et que la phrase B implique aussi la phrase A, elles sont considérées comme ayant le même sens
- “The capital of France is Paris” et “Paris is the capital of France” s’impliquent mutuellement et sont donc traitées comme équivalentes
- Une réponse courte comme “Paris” peut n’avoir le même sens qu’une réponse plus longue qu’à l’intérieur du contexte de la question
Le jugement d’implication s’appuie sur des LLM généralistes et des outils NLI
- Dans les expériences QA et mathématiques, GPT-3.5 a été retenu car il concordait bien avec l’évaluation humaine et améliorait la détection des confabulations
- Des modèles NLI comme DeBERTa-Large-MNLI ont aussi été examinés
Pour l’échantillonnage, les auteurs utilisent temperature 1, nucleus sampling P=0.9 et top-K sampling K=50
- Pour l’évaluation de la précision du modèle, une génération unique avec une temperature basse de 0.1 est utilisée
Comme le produit des probabilités de tokens devient très petit pour les phrases longues, une normalisation par la longueur est utilisée dans la comparaison des log-probabilités

Évaluation sur QA et problèmes de mathématiques

L’évaluation porte sur des jeux de données nécessitant des réponses générées librement
- TriviaQA : connaissances de type quiz
- SQuAD 1.1 : compréhension de texte basée sur Wikipedia
- BioASQ : questions-réponses en sciences de la vie
- NQ-Open : questions ouvertes issues de requêtes réelles sur Google Search
- SVAMP : problèmes de maths textuels de niveau primaire
Pour chaque jeu de données, 400 exemples de train et 400 exemples de test sont échantillonnés aléatoirement
- L’entropie sémantique elle-même n’utilise pas les données de train
- Afin de rendre les problèmes plus difficiles et de provoquer des confabulations, les passages de contexte d’origine ne sont pas fournis
Les modèles utilisés sont les suivants
- LLaMA 2 Chat 7B, 13B, 70B
- Falcon Instruct 7B, 40B
- Mistral Instruct 7B
La longueur moyenne des réponses de type phrase était de 96±70 caractères, et sur 30 combinaisons tâche-modèle, l’entropie sémantique obtient le meilleur AUROC moyen
- semantic entropy : 0,790
- naive entropy : 0,691
- P(True) : 0,698
- embedding regression : 0,687
Les performances de l’entropie sémantique restent stables selon la famille et la taille des modèles
- Sur LLaMA, Falcon et Mistral, l’AUROC se situe globalement entre 0,78 et 0,81
- De 7B à 70B, elle reste supérieure aux baselines
P(True) tend à s’améliorer avec la taille du modèle, et peut donc devenir plus compétitif dans des contextes où le modèle est très capable et honnête
L’évaluation de la détection des erreurs inclut non seulement des confabulations, mais aussi des erreurs systématiques que l’entropie sémantique ne vise pas directement
- Malgré cela, sa supériorité sur les autres méthodes suggère que les confabulations constituent une catégorie majeure des erreurs de génération en pratique

Précision avec refus et métriques d’évaluation

L’AUROC est utilisé pour distinguer, de façon binaire, si une réponse donnée est correcte ou incorrecte
- La valeur est comprise entre 0 et 1, où 1 correspond à un classificateur parfait et 0,5 à un classificateur sans information
L’AURAC est l’aire sous la courbe de précision avec refus
- Lorsqu’on refuse de répondre aux questions jugées les plus susceptibles de produire une confabulation, on mesure la précision du modèle sur les questions restantes
- Cela résume l’amélioration de précision perçue par l’utilisateur selon différents seuils
L’entropie sémantique peut être utilisée dans les situations suivantes
- ne pas répondre aux questions susceptibles de provoquer une confabulation
- signaler à l’utilisateur qu’une réponse donnée est peu fiable
- renforcer des procédures plus fondées comme la recherche ou des approches de type retrieval
La vérification automatique de la justesse des réponses de type phrase a été effectuée avec GPT-4, en jugeant la concordance sémantique entre une reference answer et une proposed answer
- Des documents complémentaires comparent cette évaluation automatique au jugement humain

Génération de longues biographies : expérience FactualBio

Dans les longs paragraphes, plusieurs propositions sont mélangées, ce qui rend difficile de juger directement l’équivalence sémantique du paragraphe entier
- En régénérant un même paragraphe, on peut observer non pas l’incertitude sur les faits eux-mêmes, mais des différences d’ordre des faits ou de structure du paragraphe
FactualBio est un jeu de données biographiques généré par GPT-4 v.0613
- Il porte sur 21 personnes assez connues pour avoir une page Wikipedia, mais avec peu de biographies détaillées disponibles en ligne
- 150 propositions factuelles sont automatiquement extraites des biographies générées
- Parmi elles, 45 ont été annotées manuellement comme fausses
Pour les générations longues, la procédure suivante est appliquée
- le paragraphe est décomposé en affirmations factuelles individuelles
- une question susceptible d’avoir chaque affirmation comme réponse est générée automatiquement
- le LLM d’origine génère de nouvelles réponses à chacune de ces questions
- l’entropie sémantique est calculée en utilisant ensemble les nouvelles réponses et l’affirmation factuelle d’origine
- la moyenne des entropies sémantiques sur plusieurs questions donne un score d’incertitude pour l’affirmation concernée
Pour chaque fait, 6 questions sont créées, et 3 nouvelles réponses sont générées pour chaque question
- Inclure l’affirmation d’origine dans le calcul de l’entropie permet de conserver un ancrage sur la claim initiale
- Si plus de la moitié des réponses sont des refus comme “not available”, “not provided”, “unknown” ou “unclear”, l’incertitude sémantique est fixée à son maximum
Sur FactualBio, l’entropie sémantique discrète obtient un AUROC et un AURAC supérieurs à la baseline self-check et à une variante de P(True) pour les paragraphes longs
- En précision avec refus, l’entropie sémantique discrète est meilleure jusqu’à ce que 20 % des questions soient refusées, puis P(True) passe légèrement devant à ce point

Limites et applicabilité

L’entropie sémantique peut être appliquée aux LLM et à des foundation models similaires sans modification de l’architecture
Même dans des environnements d’accès limité sans probabilités de sortie, la variante discrète peut être utilisée
Contrairement aux approches supervisées, elle ne nécessite pas d’exemples de confabulation annotés et se généralise à de nouvelles tâches sans connaissance préalable du domaine
- Les approches supervisées comme embedding regression se dégradent lorsque la distribution des données de déploiement diffère de celle des données d’entraînement
Cette méthode ne résout pas directement les situations où le LLM se trompe avec assurance
- objectifs d’entraînement conduisant systématiquement à des comportements dangereux
- erreurs de raisonnement systématiques
- sorties qui trompent systématiquement l’utilisateur
- ces cas peuvent ressembler à des confabulations, mais demandent un traitement distinct
Cette approche adapte aux générations libres en langage naturel des outils d’estimation de l’incertitude issus du machine learning probabiliste au niveau du sens, se généralise à de nouvelles tâches sans données spécifiques, et aide à identifier les situations où l’utilisateur doit faire preuve de plus de prudence

Données et code

Les expériences sur des générations courtes et de type phrase utilisent des jeux de données publics, et la méthode d’accès est incluse dans le code publié
La version publique de FactualBio est fournie dans la base de code de reproduction des expériences sur les paragraphes longs
Emplacements du code publié
- github.com/jlko/semantic_uncertainty : code des expériences short-phrase et sentence-length
- github.com/jlko/long_hallucinations : code des expériences paragraph-length
- Zenodo DOI: https://doi.org/10.5281/zenodo.10964366

1 commentaires

GN⁺ 2024-06-25

Avis sur Hacker News

Les commentaires semblent se disputer sur le sens des mots ou sur l’anthropomorphisation des LLM, mais cette approche pose un vrai problème d’ordre mathématique
Pour tout texte d’entrée, il existe une distribution de textes de sortie correspondante, et la méthode consistant à tirer plusieurs échantillons pour évaluer l’entropie ou les divergences semble reposer sur l’hypothèse que l’on connaît déjà les propriétés de cette distribution de sortie
Par exemple, à la question « Pourquoi Tom Cruise est-il connu ? », des réponses comme « movie star », « katie holmes », « topgun » ou « scientology », très éloignées dans l’espace vectoriel, peuvent toutes être correctes
À l’inverse, si à « Pourquoi Taylor Swift est-elle connue ? » on obtient des réponses sémantiquement proches comme « standup comedy », « comedian » ou « comedy actress », elles peuvent toutes être des hallucinations
Si connaître la distribution correcte des suites de mots pour une entrée donnée est précisément le problème que les LLM doivent résoudre, il n’existe pas de moyen de juger si une réponse est correcte en n’évaluant que la distribution de sortie
Il existe des modèles statistiques pour évaluer l’incertitude des sorties de réseaux de neurones artificiels, mais ils ne semblent pas réalistes à l’échelle des LLM, et les estimations partielles qui n’utilisent que les 1 ou 2 dernières couches amputent fortement l’incertitude de l’ensemble du réseau
Les hallucinations que je rencontre sont souvent très plausibles et proches de la bonne réponse, comme renommer des variables ou inventer des clés de configuration, mais elles sont en réalité fausses
- Les réponses très incertaines ont, par définition, une faible probabilité ; donc si l’on pose la question plusieurs fois, il est plus probable d’obtenir des réponses sémantiquement différentes que de voir se répéter la même réponse rare selon laquelle Taylor Swift serait humoriste
  Si les données d’entraînement présentent Taylor Swift comme humoriste, ce n’est pas un problème d’hallucination
- Cela explique de façon bien plus technique ce que je pressentais avec mon cerveau d’informaticien sans maths
  Cela ressemble à une baisse de la température. On dirait que le modèle ne va pas chercher plus efficacement dans une vérité fondée, mais se déplace plutôt vers ce qui est plus probable dans l’espace vectoriel ; je me demande si je comprends bien
- La remarque est pertinente, mais dans l’exemple de Taylor Swift, un modèle bien ancré dans ses données aurait peu de chances de produire plusieurs fois de suite la réponse « humoriste », absente des données d’entraînement
  Dans l’exemple de Tom Cruise, toutes les réponses sont factuelles et fondées sur les données d’entraînement, donc cette technique pourrait à tort donner un faux positif d’hallucination
  Cela dit, les exemples de l’article sont des questions à réponse unique comme « Quel est le récepteur sur lequel agit ce médicament précis ? » ou « Où se trouve la tour Eiffel ? », et pour ce type d’application, cela peut sembler utile
- Autrement dit : « en échantillonnant et en évaluant la similarité entre échantillons, on peut connaître la dispersion de la distribution, mais pas savoir si cette distribution est correcte »
  On peut tirer des échantillons d’une distribution gaussienne et en donner l’écart-type, mais on ne peut pas savoir si cette distribution est exacte
  Il peut exister une distribution très précise d’une variable à forte entropie ; à l’inverse, une distribution dense à faible écart-type peut simplement être fausse. Si l’on ne sait pas à l’avance à quoi la sortie devrait ressembler, l’échantillonnage seul ne permet pas de le savoir
- La méthode de l’article ne consiste pas à « tirer plusieurs échantillons et évaluer seulement l’entropie ou les divergences »
  Elle échantillonne plusieurs réponses, les regroupe par similarité sémantique, puis additionne et normalise les probabilités des réponses regroupées
  Par exemple, on regroupe « music:0.8, musician:0.9, concert:0.7, actress:0.5, superbowl:0.6 » ainsi : [music, musician, concert] → MUSIC, [actress] → ACTING, [superbowl] → SPORTS, puis on calcule quelque chose comme MUSIC:0.686, SPORTS:0.171, ACTING:0.143
  L’article définit clairement la cible à empêcher comme de la confabulation : autrement dit, des affirmations fluides, fausses et arbitraires, qui changent de manière sensible selon des détails sans rapport comme une graine aléatoire
  Les idées reçues courantes seront fortement présentes dans le jeu de données, et cette méthode revient plutôt à pénaliser les réponses sémantiquement isolées des autres réponses possibles et dont la vraisemblance est ambiguë
  L’article se contente de comparer l’efficacité de la détection et ne propose pas de méthode d’échantillonnage améliorée exploitant cette détection. L’intégrer à la génération entraînerait aussi un coût important, de l’ordre de 10× plus de générations par le modèle
  Code : https://github.com/jlko/semantic_uncertainty
Les architectures actuelles de LLM se concentrent surtout sur la recherche, et les poids appris ne font que converger vers une bonne prédiction du token suivant.
Je pense que la capacité à placer ces données dans un système logique aurait aussi dû faire partie de l’objectif d’apprentissage.
Si l’on ajoutait à la prédiction du token suivant une validation formelle des connaissances pendant la phase d’entraînement, les LLM pourraient maintenir la cohérence de la génération de connaissances et produire de bonnes hallucinations, c’est-à-dire quelque chose de plus proche de l’imagination.
Le processus pourrait consister à utiliser des grands modèles existants pour transformer les données d’entraînement actuelles en relations de logique formelle, à leur faire produire plusieurs solutions, puis à entraîner sur ce jeu de données enrichi un nouveau LLM qui produise non seulement le token suivant, mais aussi les relations formelles entre les connaissances existantes et le nouveau texte généré.
Le réseau pourrait optimiser ses poids à la fois pour la précision de génération des tokens et pour que le code formel généré obtienne une grande exactitude dans un vérificateur de preuves.
Personnellement, j’ai l’impression que le langage n’est pas le fondement de l’intelligence, mais quelque chose de secondaire ; le fondement ressemble davantage à une simulation onirique faite d’objets mutuellement cohérents, et le langage à un outil pour la décrire.
- Cette proposition nous ramène au débat classique entre approche formelle descendante et approche informelle ascendante dans la construction de systèmes de gestion des connaissances sémantiques.
  L’approche descendante a été largement tentée avant le big data et avant les modèles probabilistes, mais elle nécessitait une énorme curation manuelle et les connaissances étaient insuffisantes.
  L’arrivée du big data n’a pas résolu le problème de la curation ; comme on ne peut pas l’automatiser, plus l’échelle augmente, pire c’est.
  Quand l’IA a basculé vers les probabilités, vers les années 1990, cela a rendu possibles les modèles probabilistes associatifs d’aujourd’hui, et je ne vois aucun espoir qu’une approche plus curatée et plus formelle les surpasse.
  Quelle que soit la façon dont on greffe aux LLM le raisonnement, la causalité ou d’autres formes de pensée de type 2, l’implémentation doit rester probabiliste, informelle et ascendante.
  Il est déjà apparu que la curation manuelle, par des humains, des relations logiques et sémantiques dans un modèle de connaissances n’est pas suffisante à l’échelle requise ni face à la fragilité.
- La logique a aussi beaucoup de problèmes qui lui sont propres.
  Il suffit de lire “Godel, Escher, Bach”, ou de se demander pourquoi OWL, après 20 ans d’existence, n’a presque aucune part de marché.
  C’est le même contexte qui explique pourquoi, pour gérer du code asynchrone, les gens ont essayé toutes sortes de solutions plutôt que RETE, pourquoi le “traitement d’événements complexes” est resté un domaine spécialisé plutôt qu’un concurrent d’exécuteurs de tâches comme Celery, et pourquoi Drools n’arrive pas à produire des messages d’erreur compréhensibles.
- Le problème apparaît avec des choses nouvelles que le modèle n’a pas vues et avec des questions auxquelles même les humains ne connaissent pas la réponse.
  Tout le problème des hallucinations ressemble simplement au problème de l’arrêt avec quelques étapes en plus. Il faudrait peut-être demander à ChatGPT si P=NP.
- Pour une première étape, CYC pourrait être une solution valable.
  D’après mon expérience, on peut l’appeler un schéma de relations significatif pour les DAG. Il existe aussi une version open source, mais l’entreprise ne la maintient plus directement.
  https://cyc.com
  https://github.com/asanchez75/opencyc
- Une validation formelle des connaissances ou des relations logiques, vraiment ? Comment valider formellement un roman de SF ou un poème ?
  Que fait-on des paradoxes qui existent dans la nature, ou des théories qui se contredisent mutuellement tout en étant chacune logiquement correcte ?
  C’est facile à dire, mais en pratique cela revient à proposer : “ça marchera si nous résolvons un problème NP-difficile que nous ne savons pas résoudre”.
On peut appeler cela des hallucinations, mais une autre façon de le dire est que ces systèmes sont orthogonaux à la vérité.
Autrement dit, ils n’ont aucun rapport avec le vrai ou le faux.
Cette idée est aussi exprimée dans cet article : https://link.springer.com/article/10.1007/s10676-024-09775-5
- C’est un peu comme demander si une distribution de probabilité est véridique ou menteuse.
  Parler d’un algorithme comme s’il avait des caractéristiques personnelles est une erreur de catégorie.
- L’article en lien cherche à détecter si un LLM choisit au hasard au niveau des faits, ou s’il choisit de manière cohérente.
  L’aléatoire généré procéduralement peut être excellent pour des tâches comme le brainstorming, et la cohérence signale qu’il répète quelque chose qui apparaissait de manière relativement cohérente dans les données d’entraînement.
  Cela peut donc être vrai ou faux, mais il est plus probable que cela vienne de quelque part.
  Savoir à quel point l’information est aléatoire ressemble à un petit progrès.
- Les LLM sont entraînés avec pour objectif de “répondre quoi qu’il arrive en au moins trois paragraphes”, et ce type de réponse est toujours préféré au silence ou à une réponse peu aimable du genre “de quoi parlez-vous ?”.
  Dans ce cas, on leur apprend en fait à produire des conneries plausibles.
  C’est un peu comme un cours d’improvisation où l’on apprend à garder la conversation intéressante et à ne pas dire “non” à son partenaire de scène.
- Je soupçonne que la réalité partagée va se plier aux LLM, et non l’inverse.
  Ce que dit l’ordinateur pourrait devenir la “vérité”.
- Ces LLM semblent plus proches de l’inconscient que de la conscience.
  Jung aurait probablement appelé cela une “antinomy”. L’objectif n’est pas de représenter la vérité, mais l’ensemble des réponses possibles.
Ce que font les LLM, au fond, n’est-ce pas entièrement de “l’hallucination” ?
Pour savoir s’ils ont halluciné, il faut déjà connaître la bonne réponse. Si l’on peut construire un système qui sait si la réponse est correcte, alors on n’a plus besoin de LLM.
- L’hallucination suggère à l’origine une défaillance d’un esprit sain.
  Ce que font les LLM actuels, il serait plus juste d’appeler cela raconter n’importe quoi. À mesure que ce n’importe quoi s’améliore, la proportion de réponses exactes par hasard augmente simplement.
- Je me demande s’il faut vraiment qu’à chaque fil sur ce sujet quelqu’un vienne chipoter sur le terme “hallucination”, alors que c’est déjà un terme établi et parfaitement compréhensible. Ça devient fatigant.
- Les humains aussi fabriquent tout.
  Parfois de façon cohérente, sur la base de dynamiques physiques et sociales ; parfois non.
  Un système manifestement toujours correct est impossible, donc il nous faut un système qui recherche la cohérence.
- Si vous aviez lu l’article, vous auriez vu que le processus de génération d’une réponse par un LLM constitue une partie importante du processus de vérification des faits.
Pour l’instant, les entreprises d’IA feraient peut-être mieux de présenter leurs chatbots simplement comme des outils de génération de texte légèrement orientés.
Les gens pourraient alors les utiliser en conséquence.
Il y a parfois quelque chose qui ressemble à un peu de compréhension, et on peut aussi leur faire imiter un peu le raisonnement étape par étape, mais 95 % de cette fonctionnalité boîte noire, c’est de la génération de texte.
En réalité, ce n’est même pas de la génération ni de la génération de connaissances ; c’est plus proche d’un partenaire d’improvisation que d’une encyclopédie, et les gens de la tech le savent tous.
Je ne sais pas s’il faut forcément une solution astucieuse fondée sur l’entropie des réponses pour traiter le problème des LLM qui induisent les gens en erreur. Cette solution est intéressante et apporterait sans doute une réelle amélioration, par exemple en associant des scores de confiance aux affirmations.
Mais ne pas marketer des générateurs de texte issus du machine learning comme s’ils étaient presque une AGI réduirait déjà la plupart des dégâts, et aiderait peut-être davantage.
- En ce moment, je travaille avec un LLM pour construire un frontend avec React et Redux, deux technologies que je connais à peine.
  Je lui posais des questions, et le LLM me donnait des réponses et du code JavaScript ; mon JavaScript était lui aussi pas mal rouillé.
  Tout le code compilait, et la plupart fonctionnait comme prévu. Il y avait aussi des erreurs, mais le LLM m’expliquait celles que je ne comprenais pas et me fournissait du code corrigé qui fonctionnait.
  Globalement, c’était une excellente expérience, comme travailler avec un mentor, et de mon point de vue de débutant cela m’a fait gagner beaucoup de temps. Bien sûr, il faut vérifier le résultat.
  D’où vient ce chiffre de 95 % ? Et qu’il s’agisse de génération de texte ou de génération de faits/connaissances n’a pas d’importance. C’est un outil vraiment précieux, de très loin supérieur à tout ce que j’ai pu utiliser.
La méthode consistant à « échantillonner plusieurs réponses possibles pour chaque question, puis à regrouper algorithmiquement les réponses de sens proche » est raisonnable pour les questions ayant une seule bonne réponse objective.
Elle peut être beaucoup moins utile lorsqu’il existe plusieurs réponses également valables.
Mais pour les applications de type moteur de recherche, c’est tout de même assez bon.
Le concept d’entropie sémantique me rappelle qu’après l’affaire Enron, une banque avait créé un « bullshitometer » pour mesurer le niveau de bullshit dans les communiqués de presse.
Je ne me souviens plus du nom de cette banque, mais il paraît qu’en l’appliquant aux communiqués d’Enron, ils avaient montré qu’on pouvait prédire l’effondrement de l’entreprise.
En statistique, il existe un concept appelé analyse de sensibilité.
Cette approche y ressemble dans une certaine mesure, mais une alternative intéressante pourrait consister à modifier l’entrée d’une manière censée préserver le sens, puis à observer comment le sens de la sortie change.
Bien sûr, modifier l’entrée sans en changer le sens est la partie difficile, mais cela ne semble pas totalement impossible.
À tout le moins, on peut demander à un LLM de modifier l’entrée sans en changer le sens. Cela dit, le modèle pourrait la modifier dans le sens de la mauvaise compréhension qu’il a de l’entrée, si bien qu’après modification, elle correspondrait encore mieux à la sortie hallucinée.
Je comprends que l’entropie sémantique, qui semble nécessiter un LLM entraîné à détecter l’équivalence sémantique, puisse mieux repérer les hallucinations.
Mais je ne vois pas très bien en quoi l’équivalence sémantique résout directement le problème des hallucinations.
Pour l’instant, je soupçonne que cela ressemble plutôt à une heuristique pour les détecter.
En outre, nécessiter un second LLM destiné à détecter l’équivalence sémantique pour repérer ce type d’incident me paraît inutilement complexe.
S’il existe un dataset d’équivalence sémantique, je serais plutôt tenté de l’intégrer directement à l’entraînement du LLM principal, au lieu d’entraîner un second LLM.
- Je n’ai pas encore assez bien compris cette étude pour la critiquer, mais on peut effectivement intégrer un dataset d’équivalence sémantique à l’entraînement.
  Cela dit, si l’on mélange plusieurs fonctions clairement définies, du type « obtenir une bonne AUC sur la sémantique », pour compenser les faiblesses d’un modèle complexe dont les objectifs perceptifs sont mal définis, cela reste étrange.
  On ne sait pas vraiment si le mélange est bien fait, ni si l’on introduit dans l’entraînement des résultats, des risques ou des biais difficiles à prévoir.
  Pour une tâche étroitement définie, comme « peut-on juger l’équivalence sémantique ? », on peut construire un bon modèle comportant moins de risques inconnus, et si on l’applique d’une façon relativement claire, on réduit aussi les risques inconnus.
  Il peut donc être beaucoup plus sûr et plus général de s’appuyer sur deux estimateurs légèrement biaisés pour arriver à une heuristique spécifique et raisonnable, plutôt que de mélanger ces données dans un mélange déjà complexe et d’espérer que leur contribution soit prévisible.
- Détecter les hallucinations est assez utile dans de nombreuses applications.
  Je travaille sur la réduction de l’impact des erreurs factuelles dans les réponses de LLM destinées à des organismes publics ; donner une réponse factuellement fausse peut être illégal.
  Si on peut les détecter avec une précision suffisante, le système peut refuser de répondre et demander à l’utilisateur de contacter l’organisme.
  Bien sûr, il vaudrait mieux entraîner le modèle à ne pas donner de mauvaises réponses dès le départ.
  La complexité inutile apparaît aussi quand on utilise, via API, des LLM boîte noire commerciaux préentraînés. Malheureusement, c’est ainsi que les LLM sont le plus souvent utilisés dans les applications.
  On pourrait aussi les fine-tuner via API, mais pour ce type de grands datasets synthétiques, c’est laborieux, limité et très coûteux.
  À la lecture de l’article seul, il était difficile de comprendre comment l’« entropie sémantique » est concrètement calculée. Si cela vous intéresse, le code est beaucoup plus facile à comprendre : https://github.com/jlko/semantic_uncertainty/blob/master/sem...
C’est une idée assez astucieuse : il s’agit de poser plusieurs fois la même question et de vérifier si le modèle répond différemment.
La « vérification » est effectuée par un autre modèle, et la « différence » est mesurée par l’entropie.

Détecter les hallucinations des grands modèles de langage avec l’entropie sémantique

Cible de détection : pas toutes les hallucinations, mais les confabulations

Idée centrale de l’entropie sémantique

Algorithme : échantillonnage, clustering sémantique, calcul de l’entropie

Évaluation sur QA et problèmes de mathématiques

Précision avec refus et métriques d’évaluation

Génération de longues biographies : expérience FactualBio

Limites et applicabilité

Données et code

À lire aussi

1 commentaires

Avis sur Hacker News