1 points par GN⁺ 2025-06-22 | 1 commentaires | Partager sur WhatsApp
  • Les grands modèles de langage (LLM) excellent pour retrouver une information précise dans une entrée longue, mais montrent des limites lorsqu’il s’agit d’identifier des informations manquantes
  • Le nouveau benchmark AbsenceBench évalue la capacité des LLM à détecter des informations omises dans trois domaines : séquences, poésie et PR GitHub
  • Même un modèle récent comme Claude-3.7-Sonnet n’atteint qu’un score F1 de 69,6 % dans un contexte de 5K tokens, ce qui reste faible
  • Cela tient à une limite du mécanisme d’attention (attention) fondé sur les Transformers, qui fonctionne mal face aux « vides » d’un document
  • Cette étude met en évidence la différence intrinsèque de difficulté entre la détection d’informations insérées et la détection d’informations manquantes

Vue d’ensemble

  • Les grands modèles de langage (LLM) ont fortement progressé pour retrouver des informations dans de longs documents
  • Le test classique Needle in a Haystack (NIAH) évalue la capacité à retrouver une information surprenante dans une longue entrée, et les LLM y obtiennent d’excellents résultats
  • Mais savoir si un LLM peut retrouver une information manifestement absente est une question distincte
  • C’est dans ce but qu’a été proposé le benchmark AbsenceBench, qui retire explicitement certaines parties d’un document puis demande au modèle d’identifier ce qui manque

Présentation du benchmark AbsenceBench

  • AbsenceBench évalue la capacité des modèles à détecter des omissions dans trois domaines : poésie, séquences numériques et Pull Requests (PR) GitHub
  • Le LLM reçoit simultanément le document original et une version modifiée dont certains éléments ont été volontairement retirés, puis il est évalué sur sa capacité à identifier les informations absentes
  • Avec une longueur moyenne de contexte de 5K tokens, il s’agit d’un benchmark de « contexte intermédiaire », plus court que les tests classiques sur très longs contextes

Principaux problèmes observés dans l’évaluation

  • L’évaluation a porté sur 14 LLM représentatifs, dont GPT-4, Claude-3.7-Sonnet et Gemini-2.5-flash, et même les modèles les plus récents n’atteignent qu’un score F1 d’environ 69,6 %
  • Alors que les LLM sont déjà à un niveau « surhumain » sur le test NIAH, leurs performances chutent de 56,9 % sur AbsenceBench
  • Plus la longueur du contexte augmente, plus les performances baissent, en particulier dans le domaine de la poésie
  • Même avec des fonctionnalités d’inference-time compute, les performances ne progressent que de 7,9 %, tout en consommant en moyenne trois fois plus de tokens de chain-of-thought
  • À l’inverse, plus le taux d’omission (omission rate) est faible, plus les performances des LLM se dégradent de manière inattendue

Causes et analyse approfondie

  • Le mécanisme de self-attention basé sur les Transformers a du mal à se concentrer sur une « information absente » — un vide — car sa structure d’attention fondée sur des clés rend difficile le suivi d’une information qui n’existe pas dans l’entrée
  • Pendant les tests, l’ajout d’une chaîne placeholder à l’emplacement des parties manquantes a fait bondir les performances de 35,7 % en moyenne

Structure et exemples d’AbsenceBench

  • Chaque tâche est définie comme suit
    • Fournir le document original (Dorig) et le document modifié (Dmodified)
    • Créer Dmodified en retirant p % des éléments de Dorig, puis comparer les deux pour que le LLM produise l’ensemble de réponses correctes (Domit) correspondant aux informations manquantes
  • Exemples pour les trois domaines :
    • Poésie : sélection de poèmes issus du Gutenberg Poetry Corpus, avec omission aléatoire ligne par ligne
    • Séquences numériques : omission de nombres avec une certaine probabilité dans des suites générées aléatoirement
    • GitHub PRs : suppression aléatoire de certaines lignes modifiées dans les fichiers diff de PR open source populaires

Exemple de template d’évaluation (domaine poésie)

  • Prompt système : « Un élève a récité un poème, mais il se peut que certaines lignes manquent. Trouvez exactement quelles lignes ont été omises. »
  • Le poème original et la version récitée sont tous deux fournis, et le modèle doit répondre uniquement avec les lignes exactes manquantes

Principaux résultats expérimentaux

  • Les expériences ont varié selon les domaines, la longueur des documents et le taux d’omission
  • Dans les PR GitHub, la poésie et les séquences numériques, les LLM ne parviennent pas à identifier complètement les éléments manquants
  • Différence clé entre NIAH et AbsenceBench : NIAH consiste à repérer une clé ou une information présente, tandis qu’AbsenceBench exige de prêter attention à une partie « absente », ce qui est structurellement plus difficile

Conclusion et implications

  • AbsenceBench montre que les LLM restent faibles face à la question : « qu’est-ce qui manque ? »
  • Cela suggère qu’en pratique, lorsqu’on utilise un LLM comme arbitre ou évaluateur, par exemple dans des scénarios de LLM-as-a-Judge, il faut être prudent quant à sa fiabilité
  • De nouvelles approches sont nécessaires pour surmonter cette faiblesse structurelle de l’architecture Transformer
  • Le dataset et le code d’AbsenceBench sont publics et sont proposés comme point de départ pour la recherche sur la détection d’omissions par les LLM

Résumé des principales contributions

  • Conception et publication d’un nouveau benchmark pour détecter explicitement des éléments manquants dans des documents à contexte intermédiaire (5K tokens)
  • Évaluation de 14 LLM récents, montrant que la détection d’informations insérées est presque parfaite, alors que la détection d’informations manquantes reste difficile
  • Mise en évidence des limites des approches comme l’inference-time compute pour améliorer réellement les performances
  • Observation qu’ajouter explicitement un placeholder à la place des éléments manquants améliore fortement les performances
  • Mise en lumière, via AbsenceBench, d’une limite fondamentale du mécanisme d’attention des Transformers

Composition du dataset AbsenceBench

  • Poetry : constitution de documents de longueurs variées en découpant un poème entre 100 et 1000 lignes, avec omission possible de chaque ligne
  • Numerical Sequences : premier nombre défini aléatoirement, puis génération du nombre suivant selon diverses règles (croissant, décroissant, aléatoire, écarts variés), avec omission de certains éléments
  • GitHub PRs : sélection des seules lignes modifiées dans des diff de 10 à 200 lignes issus des 20 dépôts les plus populaires, avec omission partielle afin de refléter des situations réelles

Exemples concrets du benchmark

  • Exemple Poetry
    • Original : “And so, to you, who always were / To me, I give these weedy rhymes / In memory of early times...”
    • Modifié : “And so, to you, who always were / In memory of early times...”
    • Réponse attendue : “To me, I give these weedy rhymes”
  • Exemple de séquence numérique
    • Original : 117, 121, 125, 129, 133, 137 ...
    • Modifié : 117, 125, 129, 133 ...
    • Réponse attendue : 121, 137
  • Exemple GitHub PR
    • Certaines lignes modifiées du code dans la PR sont absentes

Usages et portée pratique

  • En pratique, cela est directement lié à la capacité à détecter des changements manquants dans un diff de PR ou des informations nécessaires absentes d’un document
  • Lorsqu’on applique des LLM à l’automatisation de la revue ou de la vérification, la détection d’omissions nécessite des mécanismes complémentaires distincts

1 commentaires

 
GN⁺ 2025-06-22
Commentaires sur Hacker News
  • Partage d’une expérience consistant à regarder une conférence de Gerald Sussman, à envoyer à Claude une image du triangle de Kanizsa, puis à poser une question vague pour vérifier si Claude reconnaissait le triangle. Claude a bien reconnu l’image et l’a même résumée, donc nouvelle tentative après avoir fait pivoter l’image de 90 degrés. Mais cette fois, Claude n’a pas reconnu l’image et s’est même trompé sur le nombre d’éléments. Selon la description fournie par Claude, l’image était composée de « quatre segments de cercle ressemblant à des Pac-Man, deux fins triangles noirs ou formes de flèche, et un fond gris clair »

    • Prédiction qu’à l’avenir, on pourrait corriger ce type de problème en ajoutant aux données d’entraînement des versions de toutes les images pivotées de 90 degrés

    • Avis selon lequel, comme le périmètre de l’article se limite aux documents textuels, l’expérience du triangle de Kanizsa ne s’applique pas directement à cette discussion. Insistance sur le fait que les LLM restent encore assez peu avancés pour le traitement d’images. Explication du fait que la plupart des capacités de vision reposent sur une tokenisation issue d’un prétraitement séparé avant l’entrée dans le transformer, avec mention d’exemples de prétraitement comme l’OCR, la reconnaissance de motifs basée sur les CNN, des images à différents angles et des versions agrandies

    • Critique d’un manque de compréhension du calcul lui-même. Partage de discussions Hacker News liées à une ancienne controverse et de vidéos de conférence Strange Loop lien, lien

    • Avis selon lequel, si l’on montre à un LLM une photo d’un chien à cinq pattes, il ne saura probablement pas en déterminer le nombre de pattes

    • Comme exemple de généralisation par abstraction, mention de la capacité humaine à reconnaître instantanément un triangle lorsque de nombreux points sont disposés en forme de triangle. Sentiment que l’essence de l’intelligence peut être observée dans ce type d’exemple simple, et argument selon lequel le sens même du QI réside dans la capacité à reconnaître comme motifs simples des structures d’une immense complexité. Point de vue selon lequel, si ces points correspondaient plutôt à des sommets d’un cube en 10 dimensions légèrement pivoté, ce serait un motif très simple dans une pensée en 10 dimensions

  • Partage d’un résumé de l’argument des auteurs de l’article selon lequel même les modèles récents obtiennent de mauvaises performances pour identifier une information manquante lorsqu’on leur montre à la fois l’original et la version modifiée, et que le mécanisme d’attention des Transformer ne peut pas porter son attention sur des tokens déjà supprimés

    • Avis selon lequel, en réalité, la clé à trouver se trouve dans le texte original, donc si l’on fournit les deux en entrée, le modèle devrait pouvoir porter son attention sur cette clé. Du point de vue de l’attention,

      Original: {partie commune} {partie supprimée} {partie commune finale}
      Modified: {partie commune} {partie commune finale}
      

      et

      Original: {partie commune} {partie commune finale}
      Modified: {partie commune} {partie ajoutée} {partie commune finale}
      

      ne seraient pas si différents. Proposition d’une approche concrète selon laquelle il devrait être possible d’implémenter via RASP un algorithme du type : étape 1, repérer la position des tokens Original/Modified ; étape 2, calculer la moyenne des valeurs des tokens de chaque côté puis prendre leur différence ; étape 3, déterminer que le token le plus proche de cette différence correspond à {partie supprimée}/{partie ajoutée}. Il ne resterait que la question de savoir dans quel sens effectuer la soustraction. Si le modèle détecte bien les ajouts mais pas les suppressions, cela pourrait vouloir dire qu’il comprend le principe mais qu’il a moins été entraîné sur des données de suppression

    • Remarque selon laquelle les résultats expérimentaux des modèles récents de premier plan (OpenAI opus, o3, Gemini 25 pro, etc.) ne figurent pas dans l’article

    • Interrogation sur le fait qu’un modèle de vision pourrait au contraire apprendre ce type de tâche avec des négatifs photo, des rotations d’image, etc. Mention aussi de la possibilité d’un protocole expérimental de type Q/R à trous, façon madlib

    • Observation qu’il existe des écarts de performance selon les modèles, et qu’avec l’attention désormais portée au benchmark, on peut s’attendre à de futures améliorations. Il semble clairement y avoir de la marge de progression

  • Argument selon lequel il est naturel, du point de vue de la structure même du mécanisme d’attention, de ne pas pouvoir trouver des éléments manquants non catégorisés. Dans le problème de la needle-in-a-haystack, il y a une cible précise à rechercher, donc l’attention fonctionne bien ; dans le cas d’une omission, on ignore ce qui manque, il faut donc comparer le contexte global, ce qui révèle une limite des couches d’attention existantes. Cela serait similaire à des problèmes comme le tri de longues listes

    • Avis selon lequel, dans l’expérience de détection d’omission, on fournit bien au LLM les informations nécessaires, par exemple l’original et la version modifiée ; ce serait donc un problème de tuning du modèle plutôt qu’une limite structurelle. Par exemple, pour repérer une omission dans un article de ML, le cerveau compare avec d’autres articles de ML, pas avec des souvenirs inutiles comme Star Wars ou Top Gear ; il fonctionnerait donc efficacement grâce à une réduction de contexte
  • Commentaire indiquant ne pas encore avoir lu l’article, tout en disant partager l’explication des limites du mécanisme d’attention. Une omission est difficile à détecter simplement parce qu’on ne sait pas ce qui manque, d’où la nécessité de comparer le contexte global

  • Certaines critiques de cette nouvelle forme de benchmark comme AbsenceBench seraient valables, mais le simple fait que ce type d’initiative existe est vu positivement, comme un point de départ vers quelque chose de meilleur

  • Accord partiel avec l’idée des auteurs selon laquelle, contrairement aux humains, les LLM n’approchent même pas la localisation d’une omission dans le contexte, mais interrogation sur la raison mathématique pour laquelle l’architecture serait moins adaptée. Curiosité aussi quant à l’effet éventuel d’un fine-tuning sur ce type de tâche. Mention du fait que, d’après les résultats, plus l’entrée est courte et moins il y a d’omissions, plus le problème est difficile pour le modèle ; remarque qu’un humain aussi peut avoir du mal à remarquer l’absence d’un ou deux mots. Étonnement devant le fait que les modèles de raisonnement aient fait mieux sans pour autant atteindre 100 % de précision. Soulignement du fait qu’il s’agit pourtant d’un problème que l’on peut résoudre facilement avec un programme simple, comme dans l’article. Intérêt pour l’idée que cet article suggère l’existence de nombreuses facettes de l’intelligence humaine qui ne sont pas encore formellement définies et sur lesquelles les LLM pourraient être faibles

  • La recherche d’un diff littéral de chaînes relèverait d’une mauvaise répartition de complexité, un peu comme demander à un LLM de faire du calcul arithmétique. Observation selon laquelle il serait plutôt avantageux de faire raisonner le LLM en lui faisant énumérer le document entier puis le comparer directement. Cela rappellerait le fait que les performances s’améliorent sur les problèmes arithmétiques lorsqu’on les décompose étape par étape. Hypothèse selon laquelle les modèles les plus performants pourraient avoir une architecture MoE (Mixture of Experts), et supposition que Gemini Flash serait lui aussi probablement basé sur du MoE

  • Possibilité évoquée que, si l’on autorise une approche « meta » au LLM, il puisse résoudre le problème d’omission en écrivant puis exécutant lui-même un script Python

    • Mais inquiétude sur le fait qu’un LLM ne sache pas distinguer de façon algorithmique quand il faut utiliser Python ; avec une consigne lui demandant de toujours essayer de passer par du code, on partirait du principe que cela réduira les erreurs. Même des problèmes triviaux peuvent constituer une difficulté pour un LLM, ce qui pourrait aussi limiter ses capacités en programmation
  • Expression d’un mécontentement vis-à-vis de ce benchmark précis. Dans l’exemple de prompt, le modèle qwq-32b réussit parfaitement à retrouver les éléments omis dans une expérience à 3 éléments. Opinion selon laquelle il pourrait aussi résoudre fidèlement un cas à 100 éléments, mais qu’il lui faudrait davantage de tokens. La limite de 5000 tokens serait bien trop faible pour un reasoning model, et avec davantage de passes et un processus de simplification répété, il serait toujours possible de trouver correctement la réponse. Proposition d’une méthode consistant à tokeniser l’ensemble du document puis à le comparer de manière répétée pour extraire la bonne réponse. [Exemple complet de prompt partagé]

    • Preuve expérimentale personnelle à l’appui : avec une liste de 26 titres HN dont 3 avaient été retirés, qwq-32b a permis de retrouver les trois correctement sans consommer 50 000 tokens. Lien vers les données d’expérience

    • Critique selon laquelle simplifier le problème en le ramenant au comptage n’a pas grand sens comme recherche ; le véritable objectif serait plutôt d’identifier les zones de faiblesse des LLM que l’on ne peut pas résoudre par tri ou classification

  • Présentation d’une expérience réelle où quelqu’un a demandé à ChatGPT si la réplique « utter love » figurait dans Hamlet. ChatGPT a répondu qu’après avoir vérifié l’intégralité du texte de Hamlet, l’expression n’y figurait pas. Une recherche immédiate dans le texte en ligne a pourtant permis de la trouver, et lorsqu’on l’a montrée à ChatGPT, celui-ci l’a immédiatement reconnu, s’est excusé, puis a même redonné l’extrait complet. Partage de cette conclusion : « au final, la mémoire humaine s’est révélée supérieure à l’index de ChatGPT »

    • Correction indiquant que la bonne réponse est Act 2, Scene 1, et que le locuteur est Polonius

    • Reconnaissance du fait que, sans boucle de recherche ni outil, les LLM ont une très mauvaise capacité de rappel ; le modèle 4o échoue lui aussi sans recherche, et la bonne réponse n’est possible qu’avec la fonction search. Cela mène à l’idée que l’importance d’« utiliser correctement l’outil adapté au problème » va devenir de plus en plus centrale

  • Les LLM détecteraient relativement bien l’existence à partir d’entrées sensorielles, mais la détection de l’absence serait difficile car elle ne repose sur aucune entrée sensorielle. Pour détecter une absence, il faudrait un modèle du monde très fort et des attentes. Suggestion selon laquelle ce type de tâche neurologique d’ordre supérieur pourrait encore être une capacité propre aux organismes vivants plutôt qu’aux LLM

    • Les LLM pourraient, par conception, avoir des problèmes de cohérence : certains comportements relèveraient de la simple mémorisation, d’autres de formes avancées de mise en correspondance de motifs

    • Remarque selon laquelle, contrairement à la pensée en temps réel, les LLM raisonnent à partir d’une réalité « fixe et statique », ce qui constitue aussi une limite sur l’aspect temporel

    • Détection réelle de l’absence étroitement liée à la mémoire. Par exemple, lorsqu’un stylo posé sur le bureau a disparu, le cerveau compare les entrées sensorielles passées — le souvenir d’avoir vu le stylo — à la situation présente pour reconnaître l’absence. Dans l’état actuel des choses, la pensée serait donc une caractéristique propre aux seuls organismes vivants