Détection des hallucinations dans les grands modèles de langage à l’aide de l’entropie sémantique
Résumé
- Grands modèles de langage (LLM) : les systèmes LLM comme ChatGPT ou Gemini montrent d’excellentes capacités de raisonnement et de réponse aux questions, mais ils présentent souvent un problème d’« hallucinations », en générant des sorties erronées ou des réponses sans fondement.
- Problème des hallucinations : cela peut entraîner divers problèmes, comme la fabrication de précédents juridiques, de fausses informations dans des articles de presse ou des risques dans le domaine médical.
- Limites des solutions existantes : l’orientation vers la véracité via l’apprentissage supervisé ou par renforcement n’a obtenu qu’un succès partiel.
- Nouvelle méthode : proposition d’un estimateur d’incertitude fondé sur l’entropie et sur des bases statistiques pour détecter les générations arbitraires et erronées (confabulations). L’incertitude est calculée au niveau du sens, et non selon un ordre particulier des mots.
- Applicabilité : la méthode fonctionne indépendamment du dataset et de la tâche, ne nécessite pas de connaissance préalable de la tâche et se généralise fortement à de nouvelles tâches.
Points clés
Importance du problème des hallucinations
- Définition des hallucinations : lorsqu’un LLM génère un contenu qui n’est pas fidèle à la source fournie ou qui manque de logique.
- Exemple de confabulation : lorsqu’il génère aléatoirement des réponses différentes à une même question.
- Problèmes existants : entraînement sur des données erronées, mensonge pour maximiser une récompense, ou échecs systématiques de raisonnement ou de généralisation.
Détection des confabulations à l’aide de l’entropie sémantique
- Vue d’ensemble de la méthode : elle mesure quantitativement les cas où une entrée a une forte probabilité de produire une réponse arbitraire et sans fondement.
- Entropie sémantique : l’entropie est calculée à partir du sens des phrases afin d’estimer l’incertitude. Une entropie élevée indique une forte incertitude.
- Clustering : les réponses de sens similaire sont regroupées en clusters pour calculer l’entropie.
Évaluation et résultats
- Datasets : évaluation sur divers datasets, dont TriviaQA, SQuAD, BioASQ, NQ-Open et SVAMP.
- Modèles : tests réalisés sur divers modèles, dont LLaMA 2 Chat, Falcon Instruct, Mistral Instruct et GPT-4.
- Performances : l’entropie sémantique obtient de meilleures performances que l’entropie simple classique ou les méthodes supervisées.
Performances globales
- AUROC : indicateur mesurant la capacité du modèle à prédire ses erreurs ; l’entropie sémantique obtient le meilleur score.
- AURAC : indicateur mesurant la précision sur les questions restantes après rejet de celles susceptibles de provoquer des confabulations ; l’entropie sémantique affiche les meilleures performances.
Avis de GN⁺
- Utilité pratique : l’entropie sémantique est très pratique car elle peut être appliquée à divers datasets et tâches. Elle se généralise particulièrement bien aux nouvelles tâches.
- Apport technique : elle dépasse les limites des approches classiques de calcul d’entropie simple et propose une nouvelle manière de mesurer l’incertitude au niveau sémantique.
- Potentiel futur : cette méthode pourrait aussi être appliquée par la suite à l’amélioration de la fiabilité des résumés abstraits ou des LLM conversationnels.
- Limites : elle ne résout pas les cas où le système a appris des données systématiquement erronées ni les erreurs de raisonnement systématiques. D’autres approches sont nécessaires pour cela.
- Technologies concurrentes : comparée à d’autres méthodes d’estimation de l’incertitude, l’entropie sémantique montre de meilleures performances, même si, dans certaines situations, d’autres méthodes peuvent être plus efficaces.
1 commentaires
Avis Hacker News