1 points par GN⁺ 2024-10-27 | 1 commentaires | Partager sur WhatsApp

Détection de l’incertitude des LLM

Cet article explique une nouvelle technique d’inférence développée dans Entropix, un nouveau projet de XJDR. Entropix tente d’améliorer le raisonnement du modèle en rendant l’échantillonnage plus intelligent dans les moments d’incertitude. Cependant, aucune évaluation à grande échelle n’a encore été menée, il reste donc incertain de savoir dans quelle mesure cela aide réellement.

Vue d’ensemble de l’incertitude

  • L’échantillonnage est le processus par lequel un LLM choisit un token à partir de la distribution des tokens possibles (logits).
  • Le degré de confiance du modèle dans sa prédiction peut être compris à travers cette distribution.
  • Entropix utilise un échantillonnage adaptatif pour aider le modèle à prendre de meilleures décisions lorsqu’il est incertain.

Sens et importance de l’incertitude

  • L’incertitude des logits peut avoir plusieurs causes, et elles ne sont pas toutes négatives.
  • Parmi ces causes figurent les synonymes ou tokens équivalents, les chemins de branchement, ainsi que les cas où l’IA n’est pas sûre d’elle.
  • Entropix propose de sélectionner le token suivant différemment selon le degré d’incertitude.

Entropie et varentropie

  • Entropix utilise deux indicateurs pour mesurer l’incertitude : l’entropie et la varentropie.
  • L’entropie mesure à quel point les logits prédits diffèrent les uns des autres.
  • La varentropie représente la « forme » de l’incertitude ; une varentropie élevée indique que certaines valeurs diffèrent fortement des autres.

Explication mathématique

  • La surprise est un concept qui mesure l’imprévisibilité d’un événement.
  • L’entropie est l’espérance de la surprise sur l’ensemble des résultats possibles.
  • La varentropie se calcule comme la variance de la surprise.

Échantillonnage adaptatif fondé sur l’entropie et la varentropie

Faible entropie, faible varentropie

  • C’est le cas idéal où le modèle est confiant non seulement dans la première option, mais aussi dans les autres.
  • On utilise un échantillonnage argmax standard pour choisir le token à la probabilité la plus élevée.

Faible entropie, forte varentropie

  • C’est le cas où le modèle attribue une probabilité très élevée à quelques options.
  • Cela peut indiquer une nouvelle branche de sortie, et le branchement peut être implémenté de plusieurs façons.

Forte entropie, faible varentropie

  • Le modèle peut être face à quelque chose qu’il ne reconnaît pas, ou toutes les options peuvent être interchangeables.
  • On utilise un token de « réflexion » pour pousser le modèle à consacrer davantage de temps de calcul.

Forte entropie, forte varentropie

  • Le modèle n’a pas de préférence claire, mais il est plus confiant dans certaines sorties.
  • On peut choisir aléatoirement, créer une branche ou insérer un token de réflexion.

Branchement et tokens de réflexion

  • La prédiction par branchement consiste à suivre quelques logits pour voir à quels tokens différents ils mènent.
  • Les tokens de réflexion sont une manière d’effectuer davantage de calcul dans une situation d’incertitude.

Entropie de l’attention

  • Entropix s’appuie sur l’entropie de l’attention pour ajuster la température.
  • L’entropie de l’attention et l’alignement de l’attention peuvent fournir des signaux supplémentaires pour l’échantillonnage.

Est-ce important ?

  • Les intuitions d’Entropix sont faciles à comprendre et ne sont pas totalement nouvelles.
  • Même si les évaluations ne montrent pas de gains majeurs, ce type de technique d’inférence reste une piste facile à expérimenter.

Résumé GN⁺

  • Entropix propose une nouvelle approche pour traiter l’incertitude des LLM.
  • En utilisant l’entropie et la varentropie pour mesurer le niveau de confiance du modèle, il devient possible de prendre de meilleures décisions via un échantillonnage adaptatif.
  • Ces techniques offrent aux hackers open source la possibilité d’améliorer les capacités de raisonnement des modèles sans disposer d’un gros budget.
  • Parmi les projets offrant des fonctions similaires, Hugging Face Transformers est recommandé.

1 commentaires

 
GN⁺ 2024-10-27
Avis Hacker News
  • Charles Babbage était déconcerté par la question de savoir si une mauvaise entrée pouvait produire une bonne sortie

  • Les techniques basées sur l’échantillonnage utilisant du matériel grand public constituent une rare opportunité d’améliorer les modèles SOTA. Cependant, cela ne durera pas, et à terme il faudra probablement un échantillonneur entraînable

    • optillm est un projet qui met en œuvre ce type de techniques
    • Le calcul supplémentaire d’Entropics n’apporte pas de meilleurs résultats que le décodage CoT
  • De nombreux problèmes des LLM sont causés par des fuites sémantiques ou des informations non pertinentes. Il pourrait y avoir une marge d’amélioration du côté de l’attention

    • Billets de blog associés : fuite sémantique, LLM et raisonnement, machine de Turing à temps de raisonnement O(1)
  • Les GPT modernes produisent des logits à partir d’un grand classificateur sur le vocabulaire de tokens. Cela existe dans un espace où l’on peut calculer une variété présentant des propriétés de convexité anormales

  • Il faut une capacité permettant au modèle de détecter l’incertitude dans les situations à forte entropie et d’en avertir l’utilisateur

  • Il n’est pas certain qu’il existe une technique fiable pour évaluer l’incertitude des LLM. Des recherches récentes quantifient statistiquement le fait qu’un LLM soit en train de deviner en utilisant l’entropie sémantique

  • On se demande si quelqu’un a expérimenté la sortie quand le modèle n’est pas autorisé à tolérer l’incertitude. Le principe serait que l’échantillonneur revienne en arrière jusqu’à ce que tous les tokens dépassent un seuil minimal de certitude

  • Il y a des doutes sur le fait de faire confiance à un LLM pour accomplir des tâches avec une supervision minimale. Tout peut n’être que « hallucination » ou supposition

  • Le problème des LLM n’est pas simplement celui de « l’incertitude » ; il comporte plusieurs dimensions. Cela peut venir d’un manque de sens dans la question, d’un manque d’information, de l’absence de consensus entre experts, etc.

  • Il existe d’innombrables stratégies d’échantillonnage pour les modèles de langage. Il est difficile de démontrer empiriquement qu’une stratégie donnée est supérieure au top-k ou au top-p standard