Désaccords entre LLM de pointe dans le fact-checking réel

(lenz.io)

1 points par GN⁺ 2026-05-29 | 1 commentaires | Partager sur WhatsApp

Cinq LLM de pointe ont rendu des verdicts divergents sur 67 % de 1 000 affirmations soumises par de vrais utilisateurs, et les cinq n’étaient tous d’accord que dans 33 % des cas
Le verdict majoritaire n’est pas un label de vérité, mais un critère de mesure du désaccord ; dans les 67 % de cas sans unanimité, au moins un modèle est forcément dans l’erreur
Avec une grille en 4 niveaux, des désaccords substantiels d’au moins 2 niveaux ont été observés dans 34 % des cas, et une polarisation extrême entre True et False dans 21 % des cas
Le taux d’accord des labels par paires de modèles allait de 53 à 75 %, l’accord le plus élevé étant entre Gemini 3 Pro et sa version Search, qui partagent le même modèle de base
Les données ont été tirées de récentes affirmations réelles de Lenz et mesurées sans label de vérité ni juge LLM, ce qui met en évidence l’instabilité de la structure des verdicts plutôt que la précision

À quelle fréquence les verdicts divergeaient-ils sur des affirmations réelles ?

Sur les 1 000 affirmations analysées, 672, soit 67 % (IC à 95 % : 64–70 %) ont donné lieu à des verdicts non concordants entre les 5 modèles de pointe
- 328 affirmations, soit 33 % (IC à 95 % : 30–36 %), ont reçu exactement le même verdict des 5 modèles
- 224 affirmations, soit 22 % (IC à 95 % : 20–25 %), n’avaient qu’un seul modèle en désaccord
- 316 affirmations, soit 32 % (IC à 95 % : 29–35 %), avaient deux modèles en désaccord
- 132 affirmations, soit 13 % (IC à 95 % : 11–15 %), présentaient une division sans majorité stricte, comme 2-2-1 ou 2-1-1-1
- Dans 448 cas, soit 45 % (IC à 95 % : 42–48 %), au moins deux modèles rendaient un verdict différent
Le verdict majoritaire n’est pas un indicateur de substitution de l’exactitude, mais un critère structurel pour compter les désaccords
- Le verdict majoritaire peut être faux, et un modèle minoritaire peut avoir raison
- Si l’on suppose qu’un seul des quatre buckets de verdict est correct, alors dans 67 % des affirmations non unanimes, au moins un modèle se trompe
- Dans les 45 % de cas incluant des divisions 3-2, 3-1-1 ou sans majorité, au moins deux modèles se trompent
- Dans les 13 % de cas sans majorité, aucun bucket n’atteint 3 votes, donc au moins 3 modèles se trompent
- Même dans les 33 % de cas où les 5 modèles sont d’accord, il peut exister des angles morts partagés
Le niveau d’accord du panel était de Krippendorff’s α (ordinal)=0.639
- Les verdicts des modèles n’étaient pas proches du hasard, mais pas assez cohérents non plus pour considérer les 5 modèles comme des juges interchangeables
- Un α ordinal a été utilisé car True / Mostly True / Misleading / False sont des catégories ordinales

Différences de nuance et désaccords substantiels

Sur les 1 000 affirmations, 343, soit 34 % (IC à 95 % : 31–37 %) présentaient un écart d’au moins deux niveaux sur la grille à 4 niveaux entre au moins deux modèles
- La différence entre True et Mostly True est traitée comme une nuance proche d’un ajustement du degré de confiance
- La différence entre True et False est traitée comme un désaccord substantiel sur la réponse elle-même
La mesure a été calculée à partir de la distance maximale par paire entre buckets parmi les 5 verdicts
- L’ordre des verdicts est True (0) → Mostly True (1) → Misleading (2) → False (3)
- Une distance de 0 correspond à 328 cas, soit 33 % (IC à 95 % : 30–36 %), où les 5 modèles ont tous choisi le même bucket
- Une distance de 1 correspond à 329 cas, soit 33 % (IC à 95 % : 30–36 %), relevant de différences de nuance comme True ↔ Mostly True
- Une distance de 2 correspond à 132 cas, soit 13 % (IC à 95 % : 11–15 %), représentant des désaccords substantiels comme True ↔ Misleading ou Mostly True ↔ False
- Une distance de 3 correspond à 211 cas, soit 21 % (IC à 95 % : 19–24 %), soit une polarisation extrême entre True et False
La distance entre buckets n’est pas une mesure fine de l’ampleur de l’erreur, mais un indicateur grossier
- Cela suppose une simplification où True / Mostly True / Misleading / False sont traités comme une échelle ordinale à intervalles égaux
- Un écart de 2 niveaux peut aussi venir d’une ambiguïté de la grille, d’une différence de repère temporel ou d’une interprétation différente de « Misleading »

Taux d’accord entre modèles

Le taux d’accord des labels entre paires des 5 modèles allait de 53 % à 75 %
- Le taux le plus élevé, 75 % (IC à 95 % : 72–77 %), concernait Gemini 3 Pro × Gemini 3 Pro + Search, qui partagent le même modèle de base
- Le taux le plus bas, 53 % (IC à 95 % : 50–56 %), apparaissait pour trois paires
Principaux taux d’accord par paire
- GPT-5.4 × Claude Opus 4.7 : 65 % (IC à 95 % : 62–68 %)
- GPT-5.4 × Gemini 3 Pro : 65 % (IC à 95 % : 62–68 %)
- GPT-5.4 × Gemini 3 Pro + Search : 60 % (IC à 95 % : 57–63 %)
- GPT-5.4 × Sonar Pro : 60 % (IC à 95 % : 57–63 %)
- Claude Opus 4.7 × Gemini 3 Pro : 53 % (IC à 95 % : 50–56 %)
- Claude Opus 4.7 × Gemini 3 Pro + Search : 53 % (IC à 95 % : 50–56 %)
- Claude Opus 4.7 × Sonar Pro : 58 % (IC à 95 % : 55–61 %)
- Gemini 3 Pro × Sonar Pro : 53 % (IC à 95 % : 50–56 %)
- Gemini 3 Pro + Search × Sonar Pro : 58 % (IC à 95 % : 55–61 %)

Tendances de verdict selon les modèles

Répartition des verdicts
- Selon le modèle, la tendance à se concentrer aux extrêmes True/False ou à utiliser les buckets intermédiaires Mostly True/Misleading variait
- En l’absence de label de vérité, il est impossible de dissocier l’effet des tendances préalables du modèle de celui des caractéristiques des affirmations
- GPT-5.4 : True 42 % (IC à 95 % : 39–45 %), Mostly True 16 % (14–19 %), Misleading 12 % (10–14 %), False 30 % (28–33 %)
- Claude Opus 4.7 : True 38 % (35–41 %), Mostly True 26 % (23–29 %), Misleading 19 % (17–22 %), False 17 % (15–20 %)
- Gemini 3 Pro : True 54 % (51–57 %), Mostly True 3 % (2–4 %), Misleading 3 % (2–4 %), False 40 % (37–43 %)
- Gemini 3 Pro + Search : True 52 % (49–55 %), Mostly True 4 % (3–5 %), Misleading 9 % (7–11 %), False 35 % (32–38 %)
- Sonar Pro : True 35 % (32–38 %), Mostly True 23 % (21–26 %), Misleading 16 % (14–18 %), False 26 % (23–28 %)
Accord avec la majorité du reste du panel
- Pour chaque modèle, la part des cas où il rendait le même verdict que la majorité stricte formée par au moins 3 des 4 autres modèles allait de 69 % à 81 %
- Cette valeur mesure l’alignement avec les pairs sur ce corpus, et non l’exactitude
- Le calcul n’inclut que les affirmations où les 4 autres modèles formaient une majorité d’au moins 3/4, donc le nombre de cas éligibles varie selon le modèle
- GPT-5.4 : 81 % (IC à 95 % : 78–84 %), eligible n=650, ineligible=350
- Claude Opus 4.7 : 70 % (IC à 95 % : 67–74 %), eligible n=691, ineligible=309
- Gemini 3 Pro : 77 % (IC à 95 % : 74–80 %), eligible n=683, ineligible=317
- Gemini 3 Pro + Search : 76 % (IC à 95 % : 73–79 %), eligible n=693, ineligible=307
- Sonar Pro : 69 % (IC à 95 % : 66–73 %), eligible n=675, ineligible=325

Désaccords par domaine

Le dénominateur par domaine est le nombre d'affirmations dans ce domaine, et dans la plupart des domaines, le taux de désaccord dépassait largement la moitié
- Finance : 75, désaccord arbitraire 67 % (IC à 95 % 55–76 %), désaccord substantiel 39 % (28–50 %), aucune majorité 20 % (13–30 %)
- Général : 179, désaccord arbitraire 68 % (60–74 %), désaccord substantiel 40 % (33–48 %), aucune majorité 12 % (8–17 %)
- Santé : 171, désaccord arbitraire 71 % (64–78 %), désaccord substantiel 29 % (23–36 %), aucune majorité 12 % (8–17 %)
- Histoire : 131, désaccord arbitraire 53 % (44–61 %), désaccord substantiel 24 % (17–32 %), aucune majorité 13 % (8–20 %)
- Juridique : 48, désaccord arbitraire 77 % (63–87 %), désaccord substantiel 40 % (27–54 %), aucune majorité 19 % (10–32 %)
- Politique : 168, désaccord arbitraire 70 % (62–76 %), désaccord substantiel 38 % (31–46 %), aucune majorité 8 % (5–13 %)
- Science : 151, désaccord arbitraire 68 % (60–75 %), désaccord substantiel 36 % (29–44 %), aucune majorité 21 % (15–28 %)
- Tech : 77, désaccord arbitraire 69 % (58–78 %), désaccord substantiel 31 % (22–42 %), aucune majorité 8 % (4–16 %)
La classification par domaine reflète les schémas de trafic de Lenz et ne résulte pas d'un échantillonnage uniforme de toutes les affirmations vérifiables

Accord par bucket de verdict

Le panel convergait rarement lorsqu'il atteignait les buckets intermédiaires
- Pour les verdicts majoritaires Mostly True et Misleading, l'unanimité ne dépassait respectivement qu'environ 5 %
- Les taux d'unanimité pour les verdicts majoritaires True et False étaient respectivement de 47 % et 43 %
Sur la base des affirmations ayant reçu ce verdict d'une majorité stricte d'au moins 3/5
- True : eligible n=438, unanimité 47 % (IC à 95 % 42–51 %), majorité de 3 à 4 voix 53 % (49–58 %)
- Mostly True : eligible n=76, unanimité 0 % (IC à 95 % 0–5 %), majorité de 3 à 4 voix 100 % (IC à 95 % 95–100 %)
- Misleading : eligible n=74, unanimité 5 % (IC à 95 % 2–13 %), majorité de 3 à 4 voix 95 % (87–98 %)
- False : eligible n=280, unanimité 43 % (IC à 95 % 37–49 %), majorité de 3 à 4 voix 57 % (51–63 %)
Les 328 affirmations pour lesquelles les 5 modèles ont rendu exactement le même verdict étaient elles aussi concentrées aux extrêmes
- True : 204, soit 62 % des unanimités (IC à 95 % 57–67 %)
- Mostly True : 0, 0 % (IC à 95 % 0–1 %)
- Misleading : 4, 1 % (IC à 95 % 0–3 %)
- False : 120, 37 % (IC à 95 % 32–42 %)
L'étude d'ablation Llama-3 d'une seule famille sur 17 856 affirmations PolitiFact, Schwab et al. 2025 montre également un résultat connexe selon lequel les erreurs des modèles de verdict de fact-checking se concentrent sur les labels fins

Jeu de données et critères d'exclusion

L'analyse porte sur 1 000 affirmations
- Il s'agit des affirmations les plus récentes parmi les requêtes réelles d'utilisateurs soumises à la plateforme de fact-checking Lenz ayant passé les critères d'exclusion
- Toutes les affirmations ont été créées après le 15 février 2026
- Le verdict propre à Lenz n'a pas été utilisé dans l'analyse, et celle-ci ne compare pas Lenz aux modèles de pointe mais mesure uniquement les désaccords entre modèles de pointe
Le champ atomic_claim n'est pas le texte original saisi par l'utilisateur, mais une proposition neutre et vérifiable reformulée via l'étape de framing de Lenz
- Par exemple, une saisie comme “Canadian authorities are throwing Christians in jail for quoting the Bible!!!” est transformée en la proposition “As of April 4, 2026, Canadian authorities have jailed individuals for publicly quoting the Bible because of their Christian beliefs.”
Affirmations exclues
- affirmations marquées privées par leur auteur
- affirmations soumises par le personnel de la plateforme, des comptes internes, ou via des agents/API
- affirmations dont l'état éditorial est pending ou hidden
- affirmations automatiquement signalées à l'étape de filtrage PII de Lenz parce qu'elles contiennent des informations personnelles sur des individus qui ne sont pas des personnalités publiques
- affirmations quasi dupliquées dont la distance cosinus entre atomic_claim est inférieure ou égale à 0.2, sur la base des embeddings OpenAI text-embedding-3-small de dimension 1536
- affirmations pour lesquelles au moins un des 5 modèles n'a pas produit de verdict analysable, même après une nouvelle tentative
- affirmations âgées de plus de 180 jours au moment de la collecte
Pour les quasi-doublons, dans le cas de propositions dépendantes du temps, l'affirmation la plus récente est retenue ; sinon, la ligne représentative est l'affirmation existante la plus vue sur Lenz

Méthodologie

Modèles et prompt
- Modèles paramétriques : GPT-5.4 (OpenAI), Claude Opus 4.7 (Anthropic), Gemini 3 Pro (Google)
- Modèles augmentés par la recherche : Gemini 3 Pro + Search (Google), Sonar Pro (Perplexity)
- Chaque affirmation était présentée avec une date de référence de la forme “as of YYYY-MM-DD” correspondant à sa date de soumission
- Les modèles devaient choisir obligatoirement l'un des labels True, Mostly True, Misleading, False

Classify this claim as of <date>: "<atomic claim>"

Output exactly one label: True, Mostly True, Misleading, or False.
No explanations, no qualifiers.

Aucune option d'abstention n'était proposée, afin de conserver une comparaison symétrique entre modèles via un choix forcé
Paramètres d'appel et scoring
- Tous les modèles reçoivent le même placeholder système . et le même template de prompt utilisateur usr_v2
- Aucun schéma de sortie structurée, schéma d'appel d'outils, seed, top-p, ni contrôle de logit-bias n'est utilisé
- Quand c'est pris en charge, un décodage déterministe est demandé avec temperature=0.0
- GPT-5.4 et Claude Opus 4.7 sont appelés sans temperature explicite, car les adaptateurs du fournisseur refusent un réglage personnalisé de la temperature
- GPT-5.4, Claude Opus 4.7 et Sonar Pro sont limités à 16 tokens en sortie, tandis que Gemini 3 Pro et Gemini 3 Pro + Search utilisent une limite de 1024 tokens
- Gemini 3 Pro + Search active le grounding Google Search, et Sonar Pro est traité comme un modèle augmenté par la recherche via l'API search-backed de Perplexity
- Après normalisation, une sortie n'est considérée comme analysable que si elle correspond exactement à l'un des quatre labels
- Aucun LLM judge ni label de vérité terrain de référence n'est utilisé ; toutes les mesures proviennent directement de l'accord entre labels analysés des 5 modèles
Traitement statistique
- Le corpus correspond aux 1 000 affirmations eligible les plus récentes soumises à une seule plateforme de fact-checking, et non à un échantillon probabiliste d'une population plus large
- Les intervalles de confiance de Wilson à 95 % sont des intervalles binomiaux nominaux sous un modèle où chaque affirmation est tirée indépendamment dans un flux de soumissions eligible similaire soumis aux mêmes règles de sélection
- Les affirmations Lenz se concentrent autour des événements d'actualité, et un même utilisateur peut soumettre plusieurs affirmations liées au cours d'une même session, de sorte qu'elles ne sont pas i.i.d.
- Dans un modèle en grappes plus honnête, la variabilité réelle de l'échantillon pourrait être plus élevée que celle indiquée par les intervalles de Wilson
- Aucun test de significativité entre modèles n'est effectué ; les taux d'accord pair à pair et leurs IC de Wilson à 95 % sont présentés comme statistiques descriptives

Reproductibilité et livrables publics

Les données complètes, claim par claim, sont fournies au format CSV
- Chaque ligne contient l’ID du claim et l’URL, le texte de l’atomic claim, les verdicts des 5 modèles de pointe, la distance maximale par paires entre buckets, le domaine et la date de création
- Si l’auteur supprime ensuite un claim ou le rend privé, certaines pages peuvent ne plus être accessibles
Le PDF est un rendu indépendant du navigateur, destiné à la lecture hors ligne, à la citation et à l’hébergement d’un preprint au format arXiv
Le snapshot est en v1.0 et la date de référence des données est le 21 mai 2026
- L’URL d’archive https://lenz.io/research/llm-disagreement/v1.0 fournit de façon permanente le snapshot v1.0
- Cela garantit la stabilité des citations, même si l’URL générale pointe plus tard vers de futures versions
Un enregistrement pérenne et une référence de citation sont fournis sur doi.org/10.5281/zenodo.20344847

Limites

La borne basse d’erreur fondée sur le principe des tiroirs est une borne basse du désaccord de rubricage, et non un jugement indiquant quel modèle est factuellement erroné sur un claim donné
- Un seul des quatre buckets peut être correct, donc tout désaccord implique au minimum un verdict incohérent
- Mais cela ne permet pas de savoir quel modèle s’est trompé sur quel claim
L’ordinalité de la distance entre buckets est une simplification
- True / Mostly True / Misleading / False sont traités comme une échelle ordinale à intervalles égaux
- Un écart de 2 niveaux peut provenir d’une ambiguïté de la rubrique, de différences de référence temporelle ou d’interprétations divergentes de « Misleading », sans nécessairement indiquer une erreur factuelle plus importante
L’ambiguïté du verdict n’est pas un problème propre aux LLM, mais aussi une propriété de la tâche elle-même
- AVeriTeC est un corpus de 4 568 claims ayant fait l’objet de plusieurs tours de revue, établi à partir de 50 organisations de fact-checking, et l’accord inter-annotateurs sur les verdicts n’y atteint que κ=0.619
- Une partie des désaccords entre modèles de pointe reflète la nature même de labels difficiles, y compris pour des évaluateurs humains
Le snapshot est figé à une date précise et à des versions de modèles précises
- Les LLM de pointe étant non déterministes, relancer le même modèle avec le même prompt peut produire des chiffres légèrement différents
- Une réexécution avec de nouveaux modèles ou d’autres prompts peut faire varier davantage les résultats
Les modèles assistés par recherche ont pu consulter des sources au moment de l’inférence, mais ce qui a été recherché n’est ni contrôlé ni audité

Travaux antérieurs et suite prévue

Yang & Wang (2026) montrent que des modèles de pointe de tout premier plan divergent sur 16 à 38 % des items de MMLU-Pro et GPQA, même lorsqu’ils affichent la même précision globale
AVeriTeC constitue une référence d’annotation humaine rigoureuse pour la vérification de claims réels
Un corpus de fact-checking plus vaste existe avec 17 856 claims PolitiFact dans un paramétrage d’ablation Llama-3 à famille unique
Le corpus Lenz est composé de soumissions réelles d’utilisateurs sur les 180 derniers jours, n’est indexé que sur lenz.io, et n’a jamais été apparié à des verdicts standard dans un jeu d’entraînement public
Les travaux de suivi prévoient de faire annoter par des humains l’intégralité de ce corpus, puis d’utiliser ces labels comme vérité terrain pour évaluer les 5 modèles de pointe ainsi que le verdict propre à Lenz
L’objectif n’est pas un leaderboard, mais d’analyser où le panel de pointe s’écarte du consensus humain, où Lenz s’écarte des deux, et quelles catégories provoquent les désaccords

Éthique et usage des données

Les champs utilisés se limitent au texte de l’atomic claim et à la date de création, tous deux publics
- Aucune donnée personnelle n’est utilisée
- Les claims privés et les claims d’employés sont exclus
- Seuls le texte du claim et la date de référence sont fournis aux modèles de pointe, sans identité du soumetteur ni signaux d’analyse
Si un soumetteur rend ensuite un claim privé ou le supprime, ce claim peut être retiré du snapshot et des téléchargements futurs

Exemples où le panel de pointe diverge fortement

L’annexe présente les 20 claims pour lesquels l’écart entre le bucket le plus élevé et le plus bas est le plus grand
- Il s’agit de claims présentant un désaccord substantiel, avec au moins un verdict de modèle situé à 2 niveaux ou plus des autres
- Ils sont triés par distance maximale décroissante entre buckets, puis départagés en donnant priorité aux cas sans majorité, puis selon un hash stable de l’ID du claim
Exemples représentatifs de cas à distance 3, sans majorité
- Claim selon lequel Muthiah Muralidaran a déclaré que l’Indian Premier League est un business pur, et que des matchs à faible score ennuient les sponsors, d’où la préparation de pitches plats : GPT-5.4 True, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro Misleading
- Claim selon lequel, en 2025, le portefeuille actif de la World Bank au Nigeria dépasse 16,4 milliards de dollars : GPT-5.4 Mostly True, Claude Opus 4.7 True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro Misleading
- Claim selon lequel les personnes qui préfèrent une musique contenant peu d’émotions positives ont tendance à avoir une intelligence plus élevée : GPT-5.4 Misleading, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search True, Sonar Pro Misleading
- Claim selon lequel les auberges de Kota, au Rajasthan, utilisent couramment des ventilateurs de plafond grillagés comme mesure de prévention du suicide chez les étudiants : GPT-5.4 Mostly True, Claude Opus 4.7 True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro False
- Claim selon lequel, au 6 mai 2026, des musulmans de plusieurs pays se sont rassemblés dans le district de Hooghly, au Bengale occidental en Inde : GPT-5.4 True, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro True

1 commentaires

GN⁺ 2026-05-29

Commentaires sur Hacker News

Le prompt utilisé était le suivant : Classify this claim as of : "" / Output exactly one label: True, Mostly True, Misleading, or False. No explanations, no qualifiers.
La liste des affirmations se trouve sur https://lenz.io/research/llm-disagreement/data.csv et a été chargée dans Datasette Lite pour faciliter l’exploration. Un exemple de désaccord est ici : https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
L’affirmation « Toutes les amandes sont cultivées dans l’État de Californie, aux États-Unis » est fausse, mais seul Opus 4.7 a répondu « misleading ». Comme les catégories « mostly true » et « misleading » étaient incluses, avec en plus la règle « pas d’explication », la portée de l’argument en est affaiblie
Un meilleur exemple serait : « Les demandes de visa égyptien incomplètes sont l’une des raisons les plus fréquentes du rejet d’une demande de visa égyptien » ; les modèles se sont partagés entre « true » et « mostly true », alors qu’avec la formulation « among the most », les deux reviennent en pratique au même
Exemple plus décisif encore : pour « Le 18 mai 2026, l’Ukraine a mené une attaque de drones contre Moscou, en Russie », sans outil de recherche la seule bonne réponse serait « impossible à vérifier », mais cette option n’existait pas et les réponses se sont divisées entre true et false : https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
- Si aucune définition de True / Mostly True / Misleading / False n’a été fournie à chaque évaluateur, alors je considérerais comme fausse l’affirmation de l’article selon laquelle « pour une affirmation donnée, il n’existe qu’une seule bonne catégorie »
  Certaines affirmations peuvent être à la fois « misleading » et true ou false. Il n’est pas clair non plus dans quelle catégorie ranger quelque chose de « mostly false »
  Il n’y a pas non plus de critère indiquant à partir de quel degré d’erreur on passe de « mostly true » à « false ». Au final, on ne teste pas seulement la compréhension des faits, mais aussi la manière dont les modèles définissent mostly et misleading ; dire qu’ils sont en désaccord fondamental sur les faits eux-mêmes est donc exagéré
- Autre erreur fatale : l’étude n’a pas essayé de mesurer la variance intra-modèle
  Dès qu’on branche une évaluation stricte sur des appels d’outils comme la recherche web, on fait entrer tel quel des problèmes d’infrastructure, des échecs temporaires et toutes sortes de non-déterminisme
  Il aurait fallu présenter séparément les chiffres des 3 modèles sans recherche et ceux des agents avec recherche. Pour des affirmations factuelles récentes postérieures à la date limite de connaissance, les modèles sans recherche ont en pratique peu de valeur, et comme il n’y avait pas d’option « je ne sais pas », le résultat devient quasiment invalide. Comme ils ne peuvent pas dire qu’ils ne savent pas, ils finissent par choisir une réponse plausible
  Je suis aussi d’accord sur le fait que le choix forcé et les variantes « weak/strong » gonflent les chiffres mis en avant dans le titre. Pour faire ce type de distinction, il faudrait des prompts bien plus stricts et probablement aussi des exemples en contexte (ICL), afin de ne pas laisser au modèle le soin de décider ce que signifie « mostly »
- Si « la majorité » signifie environ 51 % selon Wikipedia[1], je ne vois pas comment 51 % pourrait être considéré comme suffisamment proche de « tout » pour que « misleading » soit une réponse valable
  Je me demande si quelque chose m’échappe
  [1]: https://en.wikipedia.org/wiki/Almond#Production
- J’avais l’impression qu’Opus 4.7 donnait davantage de réponses prudentes que les autres modèles, et c’était bien le cas
  claude-opus-4-7 était à 451 sur 1000, soit 45,1 %, sonar-pro à 39,1 %, gpt-5.4 à 27,7 %, gemini-3-retrieval à 12,9 % et gemini-3-pro à 6,0 %

La requête Datasette est ici : https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...

Si l’on compte utiliser les LLM comme un oracle, je ne trouve pas ce prompt déraisonnable. Les LLM sont vendus comme des génies, et les gens les traitent aussi ainsi, surtout parce que les IA dans la science-fiction sont souvent dépeintes comme excessivement exactes
Si c’était un outil parfait doté d’une « intelligence de niveau génie », il devrait répondre correctement

À la proposition « Des formes de vie extraterrestre existent quelque part dans l’univers », GPT-5.4 et Opus 4.7 répondent Misleading, tandis que Gemini 3, Gemini 3 (Retrieval) et Sonar Pro répondent FALSE
C’est une affirmation factuelle étrange. La vraie réponse est en réalité que personne ne le sait avec certitude, mais cette option n’existe pas
- Dire que cette divergence met en évidence un problème est encore plus étrange. Si on demandait à 5 humains très informés sur ce sujet de choisir la bonne réponse dans un QCM, il y a de fortes chances qu’ils divergent bien plus que ces 5 LLM
  Cela ne veut pas dire que les hallucinations ne sont pas un problème, mais c’est une très mauvaise façon de les tester
- Parmi les options proposées, « Misleading » est probablement la meilleure. L’énoncé présente comme un fait quelque chose qui n’est pas prouvé, même si c’est très plausible
  Cela dit, il aurait fallu une catégorie unknown ou undecidable
- Ce schéma revient sans cesse, et comme benchmark, cela paraît très faible. Ce ne sont pas du tout les affirmations que j’espérais
- Dans ce cas, misleading n’est-il pas le bon choix ?
- Je ne vois pas comment « misleading » peut remplacer « unknown »
Le fait que « ce ne soit pas un item de benchmark avec un corrigé public, mais des affirmations dont de vrais utilisateurs ont demandé la vérification sur une plateforme de fact-checking » est positif
Cela dit, tant que les auteurs n’indiquent pas précisément dans quelle mesure ils ont utilisé des LLM pour rédiger et produire le rapport lui-même, je ne sais pas à quel point cela a du sens. Il y a même une section « 11. Ethics & data use », et alors que le rapport traite de thèmes proches de l’infaillibilité supposée des LLM, il ne dit jamais s’ils ont été utilisés pour produire le rapport
- La collecte et le traitement des données ont été faits manuellement, et les LLM ont aidé à rédiger une première version du rapport. Tout a ensuite été relu par des humains avant publication
On peut sans doute tous s’accorder sur le fait que les défauts de cette expérience sont TRUE à bien des égards
Cela reste malgré tout un excellent exercice pour repérer les erreurs courantes que les gens commettent lorsqu’ils utilisent des LLM. Cela ferait une bonne question d’entretien pour un poste de prompt engineering
Les modèles deviennent chaque jour plus humains
- De nos jours, beaucoup d’humains n’arrivent déjà pas à se mettre d’accord sur ce qui est vrai. On dirait que cela empire, et je ne vois pas bien de solution
À cause de la loi de Goodhart, ce « benchmark » deviendra inutile en quelques jours, ou au plus en quelques semaines
Il sera réabsorbé dans l’entraînement et paraîtra « résolu », mais il n’y aura pas émergence de raisonnement, seulement une augmentation statistique de réponses qui semblent plus plausibles, parce qu’un nouveau « problème » aura été mis en lumière. Ensuite, on en fera tout un bruit comme si c’était un immense « progrès » censé « tout changer »
Cela dit, il se peut ou non que j’aie un diplôme en stratégie d’entreprise et en relations publiques
- Cet effet existe, mais ce n’est pas fatal. Il y a aussi beaucoup de benchmarks privés basés sur le trafic réel des produits, ainsi que des problèmes publics non contaminés
  Les gens des labos savent généralement ce qu’ils font, ce n’est pas comme s’ils ignoraient ce problème
- L’intelligence humaine n’est-elle pas pareille ? Parmi les gens intelligents que je connais, beaucoup ont des croyances qui semblent ne pas avoir de valeur de vérité claire
Je ne sais pas pourquoi Grok a été exclu. Vu que les différences philosophiques dans sa manière d’être entraîné sont publiques, cela aurait été un point de données intéressant
On pourrait débattre toute la journée de cette différence, mais c’est dommage d’avoir raté l’occasion de l’observer objectivement
- Il y a « Frontier » dans le titre, donc Grok serait exclu
  Grok est entraîné pour avoir les biais que beaucoup de gens aiment, mais ce n’est pas un modèle conçu pour être exact
- D’accord. Cela aurait été amusant de voir à quel point Grok ferait pire
Je ne vois pas ce que cela montre que nous ne savions pas déjà. Les LLM ne peuvent pas donner de réponses exactes à des questions portant sur des données absentes de leur jeu d’entraînement
Cela ne semble pas apporter grand-chose
- Les LLM peuvent aussi donner des réponses inexactes à des questions sur des données présentes dans leur jeu d’entraînement, et c’est la nature même des réseaux neuronaux. C’est simplement plus probable lorsque les données n’y figurent pas
- Malheureusement, la plupart des gens ne le savent pas et traitent les LLM comme des cerveaux surpuissants qui savent tout et peuvent tout faire
- Dans ce cas, cela montre que ces modèles utilisent des jeux d’entraînement très différents, et qu’ils affichent une forte confiance même quand ils ne devraient pas en avoir
  Pour une question comme « Le bain de bouche est-il efficace ? », on peut supposer qu’il existe au moins une source de données solide comme une revue médicale
- Il acceptera volontiers de chercher à votre place et vous servira en réponse le commentaire le plus haut voté sur Reddit
  C’est pire encore
Je ne comprends pas pourquoi tout le monde s’obstine autant à demander aux LLM de faire du fact-checking
Cette technologie n’est pas faite pour ça. Elle peut fonctionner à peu près dans certains cas particuliers, mais cela n’en fait pas pour autant le bon outil
C’est comme acheter un réfrigérateur pour ranger ses vêtements
- Nietzsche dirait peut-être qu’il ne s’agit pas d’une illusion de vérité, mais d’une illusion de confort
  Le dernier homme veut une machine qui lui dise « factuellement faux » ou « factuellement vrai ». Parce qu’il veut réduire à une taille suffisamment petite pour s’endormir à côté l’abîme où il n’existe pas de vérité ultime
- Les gens posent des questions pour obtenir des réponses. Personnellement, cela me semble assez important. D’autant plus que les moteurs de recherche commencent à imposer des réponses générées par des LLM
- Mais les gens l’utilisent réellement comme ça. Donc quel est le point ?
J’ai créé ceci pour du fact-checking 100 % local sur CPU : https://news.ycombinator.com/item?id=48301003
- Il n’y a ni article, ni benchmark, ni même README rédigé par un humain, alors pourquoi faudrait-il faire confiance à ça ?

Désaccords entre LLM de pointe dans le fact-checking réel

À quelle fréquence les verdicts divergeaient-ils sur des affirmations réelles ?

Différences de nuance et désaccords substantiels

Taux d’accord entre modèles

Tendances de verdict selon les modèles

Répartition des verdicts

Accord avec la majorité du reste du panel

Désaccords par domaine

Accord par bucket de verdict

Jeu de données et critères d'exclusion

Méthodologie

Modèles et prompt

Paramètres d'appel et scoring

Traitement statistique

Reproductibilité et livrables publics

Limites

Travaux antérieurs et suite prévue

Éthique et usage des données

Exemples où le panel de pointe diverge fortement

À lire aussi

1 commentaires

Commentaires sur Hacker News