AbsenceBench : les modèles de langage ne parviennent pas à identifier les informations manquantes

(arxiv.org)

1 points par GN⁺ 2025-06-22 | 1 commentaires | Partager sur WhatsApp

Les évaluations consistant à retrouver des informations « présentes » dans un long contexte se sont rapidement améliorées, mais AbsenceBench montre que la capacité à repérer les informations manquantes en comparant l’original et une version modifiée reste très faible
Le benchmark couvre 3 domaines — poésie, séquences numériques et diffs de PR GitHub — avec 44302 instances, un contexte moyen de 5K tokens et un taux d’omission par défaut de 10 %
Même après l’évaluation de 14 LLM, dont GPT-4, Claude-3.7-Sonnet, Gemini-2.5-flash, o3-mini, Grok-3-mini et DeepSeek-R1, les performances des modèles récents restent limitées ; Claude-3.7-Sonnet n’atteint que 69,6 % de F1-score sur un contexte moyen de 5K tokens
Le F1-score d’AbsenceBench chute en moyenne de 56,9 % par rapport à NIAH, et les modèles avec calcul à l’inférence n’obtiennent qu’un gain moyen de 7,9 % malgré 8K thinking tokens supplémentaires en moyenne
L’ajout d’un placeholder explicite à l’emplacement de l’omission améliore les performances de 35,7 % en moyenne, ce qui appuie l’idée que l’attention des Transformers a du mal à se focaliser sur les « gaps » dans un document

La question posée par AbsenceBench

Les LLM récents affichent de hautes performances sur les tâches à long contexte, et les tests Needle-in-a-Haystack (NIAH) montrent leur capacité à retrouver une petite information distinctive dans une entrée très longue
AbsenceBench évalue le problème inverse
- Au lieu de retrouver une information présente dans l’entrée, il faut identifier une information explicitement absente
- Le modèle reçoit à la fois le document original et un document modifié dans lequel certains éléments ont été supprimés
- La sortie attendue est l’ensemble exact des éléments manquants dans le document modifié
La tâche repose sur des règles simples et une réponse de référence claire, mais même les modèles fermés de pointe obtiennent de faibles résultats

Définition de la tâche et composition des données

AbsenceBench suit un format de génération contrôlée : on retire intentionnellement certains éléments Domit d’un document original Dorig pour produire un document modifié Dmodified, puis le modèle doit retrouver les éléments supprimés
« document length » désigne le nombre de tokens du document original, tandis que « context length » désigne le nombre total de tokens dans l’entrée du modèle
Le benchmark complet contient 44302 instances, avec une longueur de contexte moyenne de 5K tokens
Le dépôt de code est disponible sur harvey-fin/absence-bench
La mesure de la longueur en tokens utilise GPT-4 Tokenizer

Poésie, séquences numériques et diffs de PR GitHub

Poésie
- Utilise des poèmes issus du Gutenberg Poetry Corpus
- Les omissions sont appliquées ligne par ligne, avec le caractère newline comme séparateur de ligne
- Pour diversifier la longueur des documents, les poèmes sont tronqués de sorte que leur nombre de lignes soit uniformément réparti entre 100 et 1000
Séquences numériques
- Un total de 1200 séquences numériques synthétiques est généré
- Les nombres sont ordonnés soit par ordre croissant, soit décroissant, soit aléatoire
- Le step size entre deux nombres consécutifs est l’une des valeurs 1, 4, 7 ou 13
- Le premier nombre est choisi aléatoirement entre 0 et 9999
Diffs de PR GitHub
- Les PR sont collectées à partir de données publiques GitHub et de l’API GitHub, en ciblant les 20 dépôts comptant le plus de PR
- Seules les PR dont le diff contient entre 10 et 200 lignes modifiées sont conservées
- Parmi les lignes modifiées commençant par + ou -, seules les lignes uniques à l’intérieur de chaque diff de PR sont retenues comme candidates à l’omission
- Comme les LLM chargés de résoudre et vérifier des merge conflicts doivent pouvoir détecter des omissions dans les file diffs, cela se rattache à un cas d’usage concret

Les limites révélées par l’évaluation de 14 LLM

Au total, 14 LLM ont été évalués
- Y compris des modèles récents comme GPT-4, Claude-3.7-Sonnet et Gemini-2.5-flash
- Y compris des modèles avec calcul à l’inférence comme o3-mini, Grok-3-mini et DeepSeek-R1
- Claude-3.7-Sonnet et Gemini-2.5-flash sont évalués séparément selon que le calcul à l’inférence est activé ou non
Même les modèles récents ne fournissent pas de performances stables sur AbsenceBench
- Claude-3.7-Sonnet enregistre 69,6 % de F1-score sur un contexte moyen de 5K tokens
Plus la longueur du contexte augmente, plus la tâche devient difficile, avec un écart particulièrement marqué dans le domaine de la poésie
Le calcul à l’inférence n’apporte qu’un gain moyen de 7,9 %
- En contrepartie, il génère en moyenne 8K thinking tokens supplémentaires
- Cela correspond à près de trois fois la longueur moyenne d’un document
Les résultats montrent aussi que plus le taux d’omission est faible, plus les performances du modèle se dégradent

Des modes d’échec différents de NIAH

AbsenceBench apparaît comme une tâche bien plus difficile pour les LLM que NIAH
- En comparant trois LLM entre la configuration AbsenceBench et la configuration NIAH d’origine, le F1-score baisse en moyenne de 56,9 %
L’attention des Transformers pourrait avoir du mal à traiter les gaps dans un document
- Une omission ne correspond pas à une key spécifique vers laquelle l’attention peut se diriger
Dans une expérience où une chaîne placeholder est insérée à l’emplacement de l’omission, les performances augmentent en moyenne de 35,7 %
- Par exemple en insérant un token comme <missing line> à l’endroit où une ligne a disparu
Ces résultats suggèrent que les LLM pourraient être plus fragiles pour identifier une information « manquante » qu’une information « insérée »
Dans des usages comme LLM-as-a-Judge, où il faut repérer correctement les informations absentes, cette limite peut se traduire par un risque pratique

1 commentaires

GN⁺ 2025-06-22

Commentaires Hacker News

Après avoir vu une conférence de Gerald Sussman, j’ai soumis à Claude une image du triangle de Kanizsa et je lui ai demandé, de façon assez ambiguë, s’il pouvait « voir » le triangle inféré ; il a reconnu l’image et en a immédiatement donné un résumé.
J’ai donc fait pivoter l’image de 90 degrés et réessayé dans une nouvelle conversation : il n’a pas reconnu l’image et s’est même trompé sur le nombre d’éléments.
À propos de l’image pivotée, Claude a décrit quatre formes noires de type Pac-Man aux quatre coins, un triangle fin pointant vers le haut, un triangle fin pointant vers la droite, et un fond gris clair.
- Maintenant, j’imagine qu’ils vont combler ce genre de faille en ajoutant aussi à l’entraînement toutes les images des données pivotées de 90 degrés.
- Si vous montrez à un LLM une photo de chien avec 5 pattes, vous verrez qu’il est totalement incapable de compter.
- J’ai vraiment l’impression que nous ne savons pas calculer.
  Octobre 2011, 30 commentaires
  https://news.ycombinator.com/item?id=3163473
  Vidéo Strange Loop :
  Juillet 2011, 36 commentaires
  https://news.ycombinator.com/item?id=2820118
- À mon avis, l’article ne traite que de documents textuels, donc cet exemple ne colle pas exactement.
  On sait bien qu’il reste beaucoup de chemin avant que les LLM traitent les images comme ils traitent le texte ou l’audio.
  Je pense qu’il existe très peu de modèles multimodaux qui reçoivent directement les pixels d’une image et obtiennent de bonnes performances. La plupart des capacités visuelles relèvent presque du bricolage ou d’ajouts d’ingénierie : l’image passe par plusieurs étapes de traitement, puis les sorties de chaque processeur sont envoyées sous forme de tokens au transformeur. Cela peut se produire au sein d’un même réseau, mais des réseaux qui ne sont pas des transformeurs interviennent aussi. Le prétraitement peut inclure, par exemple, de l’OCR, des CNN utilisant plusieurs niveaux de zoom, angles et découpes (reconnaisseurs de motifs 2D), et d’autres choses encore.
- En généralisant cette idée, si nous voyons 1 000 points qui remplissent approximativement un triangle, nous reconnaissons immédiatement la forme.
  Je pense que cet exemple simple révèle quelque chose d’essentiel sur l’intelligence. Nous reconnaissons un triangle parce qu’une grande complexité — 1 000 points — correspond à une forme géométrique simple et à faible entropie.
  Ce que nous appelons QI me semble proche d’une limite supérieure de la complexité des motifs que l’on peut remarquer. Par exemple, ces 1 000 points pourraient en réalité être les sommets d’un hypercube à 10 dimensions légèrement tourné, un motif qui serait évident pour un esprit à 10 dimensions.
Intéressant. Même les modèles récents ont des performances relativement faibles pour identifier quelles informations ont été supprimées du contexte lorsqu’on leur donne à la fois le contexte original et le contexte modifié.
Les auteurs estiment que cela vient du fait que, dans le mécanisme d’attention des transformeurs, les tokens supprimés n’ont pas de clé et ne peuvent donc pas recevoir d’attention.
- Il existe bien des clés auxquelles prêter attention. Simplement, elles se trouvent dans le texte original, pas dans la version modifiée. Comme le modèle reçoit les deux en entrée, il peut en théorie prêter attention à ces clés.
  Du point de vue du mécanisme d’attention, il n’y a pas une grande différence entre Original: {préfixe commun} {partie supprimée} {suffixe commun} Modified: {préfixe commun} {suffixe commun} et Original: {préfixe commun} {suffixe commun} Modified: {préfixe commun} {partie ajoutée} {suffixe commun}.
  Avec RASP (un langage pour programmer manuellement des transformeurs), on pourrait probablement construire un algorithme de ce genre. La couche 1 prête attention aux tokens "Original:" et "Modified:" pour déterminer si le token courant appartient à l’original ou à la version modifiée. Dans la couche 2, une tête prête une attention uniforme à tous les tokens de l’original pour moyenner les valeurs, tandis qu’une autre tête moyenne tous les tokens de la version modifiée, puis calcule la différence entre les deux moyennes. La couche 3 prête attention aux tokens proches de cette différence, qui deviennent alors {partie supprimée} ou {partie ajoutée}.
  Le seul aspect dépendant de l’ordre est de savoir si l’on calcule la différence comme moyenne de l’original - moyenne de la version modifiée, ou l’inverse.
  Si un modèle détecte les ajouts mais pas les suppressions, cela peut vouloir dire qu’il a, en principe, la capacité d’apprendre cet algorithme ou un algorithme similaire, mais que les données de type suppression sont insuffisantes et que les circuits nécessaires ne se sont pas développés.
- Je me demande si les modèles visuels pourraient être entraînés sur des choses comme des négatifs photo ou des images pivotées. Ou peut-être avec des phrases à trous comme “the _____ took first place in the horse show”.
- On dirait qu’ils n’ont presque pas utilisé les modèles de pointe récents. Il n’y a ni Opus, ni o3, ni Gemini 2.5 Pro.
- Cela dit, comme il y a tout de même des différences visibles entre les modèles, je me demande jusqu’où ils pourront progresser maintenant qu’un benchmark existe et que ce problème attire l’attention. Il y a clairement quelque chose à faire.
Très intéressant. 1) Les auteurs disent que, comme le vide n’est pas un token, le mécanisme d’attention pourrait ne pas pouvoir prêter attention à l’emplacement du vide, mais je m’attendais à ce qu’un bon transformeur de LLM puisse au moins se rapprocher assez bien du voisinage du vide.
Je ne comprends pas bien mathématiquement pourquoi cette architecture serait moins adaptée. Il semble possible de prêter attention aux zones où un vide pourrait se trouver. Je me demande aussi si un fine-tuning sur ce type de tâche aiderait.
2) Plus l’entrée était courte et plus les omissions étaient petites, plus c’était difficile. Même pour un humain, il est plus difficile de remarquer qu’un seul mot manque, et une ligne manquante est plus difficile à repérer que dix lignes manquantes ; ce n’est donc pas totalement surprenant. Mais il reste intéressant que les LLM rencontrent ce problème.
3) Les modèles de raisonnement réussissent mieux parce qu’ils peuvent résoudre le problème en réécrivant eux-mêmes le document. Pourtant, le fait que leur précision ne soit toujours pas de 100 % est très surprenant. Cela devrait être une tâche triviale et, comme le dit l’article, elle peut être résolue par un programme simple. Un agent comme ChatGPT pourrait lire cet article pendant son entraînement et apprendre que, pour résoudre ce type de problème, il doit écrire puis exécuter du Python.
Le plus intéressant est de se demander quels autres aspects de l’intelligence nous n’avons pas encore explicitement identifiés, et si les LLM et l’IA actuelle y sont très faibles. Cet article suggère qu’il pourrait y en avoir beaucoup, et, globalement, l’époque semble assez passionnante pour les créateurs de benchmarks.
Pour être juste, la recherche de différences littérales entre chaînes de caractères relève pour moi de la même catégorie que demander à un LLM de faire de l’arithmétique mécanique.
Le mécanisme d’attention mène une réflexion beaucoup trop complexe pour ce genre de tâche idiote. C’est précisément dans ce cas qu’il faudrait simplifier volontairement, se concentrer et traiter les choses avec discipline, plutôt que de faire une prédiction sophistiquée du prochain token.
Il serait utile de demander réellement au LLM d’énumérer et de comparer l’ensemble des documents. C’est une façon de découper le raisonnement en étapes, un peu comme lorsqu’un LLM réussit mieux des problèmes d’arithmétique ou d’algèbre en les décomposant en petites étapes.
Je suppose que les modèles performants sont probablement des modèles MoE. Il peut y avoir un ou deux experts bien adaptés aux tâches qui demandent de la concentration plutôt que de l’intuition. Je ne connais pas du tout Gemini Flash, mais j’ai tendance à penser que c’est un modèle MoE.
Je n’ai pas encore lu l’article, mais du point de vue du mécanisme d’attention structurel, l’incapacité à détecter des omissions non classées est tout à fait prévisible. Cela dit, je pense qu’on peut résoudre le problème par une pensée structurée.
Dans le problème de l’aiguille dans une botte de foin, il suffit de porter son attention sur ce qu’on cherche, et l’attention fait ça assez bien.
Lorsqu’on cherche une omission, cette omission peut être n’importe quoi ; on ne peut donc la déduire qu’en comparant un contexte entier à un autre contexte entier. Les couches d’attention ont du mal à faire cela correctement.
C’est similaire au problème consistant à « classer un long ensemble d’éléments ». Sans un certain processus métacognitif, on n’y arrive tout simplement pas.
- On dit que « l’omission peut être n’importe quoi », mais dans ce benchmark, on donne au LLM les informations nécessaires pour déterminer ce qui manque.
  Par exemple : « voici un poème, et voici une version du même poème où certaines lignes ont peut-être été omises. Y a-t-il des lignes manquantes ? »
  À mon avis, c’est davantage un problème de réglage qu’une faiblesse intrinsèque des LLM.
  Si on me demande de trouver des omissions dans un article de machine learning, mon cerveau le compare à d’autres articles de machine learning ; il n’a pas besoin de le comparer à Star Wars, Top Gear, l’histoire grecque, la poterie et des milliers d’autres contextes que je connais.
Les critiques de la méthode d’AbsenceBench sont valables, mais le simple fait de benchmarker ce genre de chose est très réjouissant. C’est clairement un mouvement dans la bonne direction.
Lorsqu’il détecte une présence, le cerveau réel reçoit une entrée sensorielle, la compare à ses attentes, maintient le calme ou enregistre une surprise, et produit parfois des prédictions qui guideront l’organisme.
Lorsqu’il détecte une absence, par définition, le cerveau ne peut pas s’appuyer sur une entrée sensorielle. Pour être surpris en l’absence de preuve sensorielle, il faut un modèle du monde assez solide pour être surpris par le fait qu’une attente n’a pas été satisfaite, même sans indice sensoriel.
La détection de l’absence semble être une tâche neurologique d’un ordre strictement plus élevé que le traitement des entrées sensorielles.
Si les LLM ne peuvent pas accomplir cette tâche neurologique de plus haut niveau, n’est-ce pas une capacité qui n’existe actuellement que chez les êtres vivants ?
- La pensée elle-même n’existe encore que chez les êtres vivants, donc il n’est pas nécessaire d’aller jusque-là pour chercher ce qui rend le cerveau humain unique.
  Ce que tu décris relève de la mémoire. La mémoire consiste à stocker et rejouer des entrées sensorielles en l’absence d’entrées sensorielles. Le cerveau rejoue donc des entrées sensorielles passées et les confronte aux entrées sensorielles présentes.
  Par exemple, si tu poses un stylo sur une table, que tu sors puis reviens et que le stylo n’est plus là, le cerveau compare le souvenir stocké du stylo sur la table avec ce qu’il voit maintenant.
- Les LLM peuvent ne pas être très cohérents à travers l’ensemble de leur structure apprise. Certains chemins peuvent mener à des informations mémorisées, d’autres à du pattern matching avancé.
- Je connais très peu ce domaine, mais le seul aspect temporel me semble déjà problématique. Ces agents ne raisonnent-ils pas à partir d’une version fixe ou figée de la « réalité », plutôt que de s’ajuster en temps réel ?
Les LLM semblent faibles sur les différences entre chaînes de caractères. Au passage, je me demande s’il existe une ressource, comme un dépôt GitHub, qui recense ce genre de découvertes sur ce que les LLM font bien ou mal.
Mauvais benchmark.
J’ai essayé leur prompt [1] avec 3 éléments numérotés, et qwq-32b a trouvé la bonne réponse sans aucun problème. Je pense qu’il pourrait aussi résoudre 100 éléments avec 100 % de précision, mais il lui faudrait probablement un million de tokens. Peut-être même plus de 10 millions.
Une limite de 5 000 tokens est beaucoup trop faible pour un modèle de raisonnement. Il faut lui donner beaucoup de calcul au moment du test, et même 10 fois 5 000 tokens resterait insuffisant.
Si les auteurs parlent d’entrées longues, alors pour 100 pages il faudrait lui donner 1 milliard de tokens.
La bonne implémentation serait un traitement par lots. On cherche les 5 premiers éléments numérotés dans le texte d’entrée avec omissions ; si on les trouve, on simplifie l’entrée et l’entrée avec omissions, puis on continue, et ainsi de suite.
Il faudra toujours un nombre important de tokens selon la taille de l’entrée, mais la simplification aidera à revenir correctement en arrière sans perdre complètement le contexte.
[1] Vous aidez un élève à s’entraîner à mémoriser un poème. L’élève récite le poème, mais il a peut-être omis quelques vers. Votre tâche consiste à identifier exactement quels vers manquent dans la récitation. Ne listez que les vers manquants et n’écrivez rien d’autre. Message utilisateur : voici le poème original complet : 1)Quisella's lashes fluttered panic-morse. 2)The Moisture Vampires leeches that sucked humidity. 3)Lysandra's nostrils flared precisely one degree. Voici maintenant ma récitation, dans laquelle certains vers ont peut-être été omis : Quisella's lashes fluttered panic-morse. Lysandra's nostrils flared precisely one degree. Quels vers ai-je omis ? Ne listez que les vers manquants et n’écrivez rien d’autre.
- Je ne vois pas ce qu’il y a d’intéressant à réduire le problème à un comptage. L’objectif évident de cette étude semble être de comprendre les limites des LLM sur des tâches qui ne peuvent pas être trivialement itemisées ou alignées.
- Je viens d’essayer qwq-32b avec les 26 titres actuellement numérotés de HN [1], en retirant 3 titres, et il a parfaitement trouvé les 3 éléments manquants du premier coup. Il n’a pas non plus utilisé 50 000 tokens.
  [1] https://gist.github.com/pramatias/fee1391ad08c7b965f435f3af1...
Je me demande comment cela s’appliquerait aux modèles visuels. Sur quelques exemples avec une seule image, ils semblaient bien s’en sortir.
Sur quelques exemples jouets, Claude et Gemini semblaient assez bons pour trouver les différences. Image d’exemple : https://www.pinterest.com/pin/127578601938412480/
Les images retournées semblaient leur poser davantage de difficultés, et ils avaient aussi plus de chances de trouver moins de différences ou d’halluciner.

AbsenceBench : les modèles de langage ne parviennent pas à identifier les informations manquantes

La question posée par AbsenceBench

Définition de la tâche et composition des données

Poésie, séquences numériques et diffs de PR GitHub

Poésie

Séquences numériques

Diffs de PR GitHub

Les limites révélées par l’évaluation de 14 LLM

Des modes d’échec différents de NIAH

À lire aussi

1 commentaires

Commentaires Hacker News