1 points par GN⁺ 2024-09-16 | 1 commentaires | Partager sur WhatsApp

LLMs Will Always Hallucinate, and We Need to Live With This

Introduction

  • À mesure que les grands modèles de langage (LLM) sont largement utilisés dans divers domaines, il est important d’examiner de manière critique leurs limites intrinsèques
  • Cette étude soutient que les hallucinations des modèles de langage ne sont pas de simples erreurs, mais une caractéristique inévitable de ces systèmes

La nature des hallucinations

  • Les hallucinations découlent de la structure mathématique et logique fondamentale des LLM
  • Il est impossible de les éliminer par des améliorations d’architecture, de meilleurs jeux de données ou des mécanismes de vérification des faits
  • En s’appuyant sur la théorie de la calculabilité et le premier théorème d’incomplétude de Gödel, l’étude fait référence à l’indécidabilité de problèmes comme le problème de l’arrêt, le problème du blanc et le problème d’acceptation

Les hallucinations à chaque étape du processus des LLM

  • Il existe une probabilité d’hallucination à toutes les étapes, de la collecte des données d’entraînement à la recherche de faits, à la classification des intentions et à la génération de texte
  • L’étude introduit le concept d’hallucination structurelle pour l’établir comme une caractéristique essentielle de ces systèmes

Conclusion

  • En établissant la certitude mathématique des hallucinations, l’étude remet en cause l’idée existante selon laquelle elles pourraient être entièrement atténuées

Résumé de GN⁺

  • Cette étude démontre mathématiquement que les hallucinations des LLM sont inévitables, en soulignant qu’elles ne peuvent pas être complètement éliminées
  • Elle explique la nature des hallucinations à travers la théorie de la calculabilité et le théorème d’incomplétude de Gödel
  • Elle montre que des hallucinations peuvent survenir à toutes les étapes des LLM
  • Cette étude suggère qu’il est important de comprendre les limites des LLM et de les accepter

1 commentaires

 
GN⁺ 2024-09-16
Avis Hacker News
  • En démontrant les hallucinations avec une certitude mathématique, cela remet en cause l’idée dominante selon laquelle elles pourraient être entièrement résolues

    • Le terme « hallucination » donne l’impression qu’il y a un problème dans le fonctionnement normal du modèle ; choisir un autre terme aurait peut-être permis d’éviter ce malentendu
    • L’hallucination n’est pas un dysfonctionnement du modèle, mais un jugement de valeur selon lequel le texte généré n’est pas adapté à l’objectif
    • Réduire les hallucinations et produire un « alignement » revient au même problème
  • Les hallucinations sont le résultat du fait de donner la première réponse possible à une question

    • Les humains ont déjà répondu à la plupart des questions auparavant, et se souviennent de leurs erreurs pour ne pas les répéter
    • Les humains réfléchissent avant de parler, et relient leur réaction initiale à d’autres connaissances
    • Il ne faut pas s’attendre à ce qu’un LLM génère immédiatement la bonne réponse
    • Le processus de pensée humain comporte divers rôles et personas
    • Ce n’est qu’après la formation d’une première réponse « brouillon » qu’un contexte supplémentaire est généré
    • Évaluer l’intelligence à partir de la première « réaction intuitive » d’un LLM est un mauvais jugement
  • L’architecture actuelle intègre fondamentalement des « hallucinations », ce qui limite son usage pratique

    • Cet article présente une limite impossible à atteindre de « l’absence d’hallucination »
    • Il réaffirme les limites fondamentales des systèmes formels et du calcul mécanique
    • Cette limite s’applique aussi aux humains
  • Les hallucinations des LLM sont liées à leur manière de représenter la connaissance

    • Même lorsqu’un modèle hallucine, il continue à générer un texte plausible conformément à son entraînement
    • Il s’appuie sur les schémas généraux des données d’entraînement, c’est-à-dire la grammaire et le choix des mots
    • Des modifications architecturales appropriées pourraient résoudre le problème des hallucinations
    • Mais on ignore encore si ces changements seraient compatibles avec un entraînement efficace des modèles
  • Des données d’entraînement incomplètes ne valent pas la peine d’être mesurées

    • Les données incomplètes sont au cœur même de l’apprentissage
    • Si l’on disposait de données complètes, l’apprentissage automatique ne serait pas nécessaire : il suffirait de créer une fonction qui mappe les entrées vers les sorties
    • Le machine learning consiste à combler les lacunes sur la base de prédictions
    • Cela s’applique de la même manière à l’intelligence et à l’apprentissage humains
    • Les LLM hallucineront toujours, mais les humains aussi hallucinent en permanence
    • Le vrai problème est de faire en sorte que les LLM hallucinent comme des humains
  • Les LLM deviendront comme des « systèmes experts »

    • Il est recommandé de ne pas se limiter en se définissant comme expert en IA
  • Pour travailler efficacement avec les LLM, il faut en pratique savoir utiliser une technologie intrinsèquement peu fiable et non déterministe

    • Beaucoup de gens ont du mal à surmonter cet obstacle
  • Il est maintenant temps que la bulle éclate

  • Nous n’avons pas besoin d’« accepter » les LLM

    • On peut ne pas les utiliser, les ignorer ou s’opposer à leur diffusion et à leur adoption
  • Cet article est mal rédigé, et il y a peu de raisons de croire qu’une théorie mathématique pertinente y ait été développée

    • Exemple : les dix premières pages sont dénuées de sens