En revérifiant l’article affirmant que les « IA de frontière ont battu les outils médicaux spécialisés » — concordance inter-évaluateurs de 0,10, et des juges qui sont aussi les participants

flamehaven01 · 2026-07-02T14:58:33+09:00

Résumé rapide Un article publié dans Nature Medicine le 12 juin 2026, intitulé "General-purpose large language models outperform specialized clinical AI tools on medical benchmarks", affirme que des modèles de frontière généralistes comme GPT-5.2, Gemini 3.1 Pro et Claude Opus 4.6 surpassent des outils d’IA médicale spécialisés comme OpenEvidence et UpToDate AI OpenEvidence et UpToDate AI sont des outils d’aide à la décision clinique que les médecins utilisent en consultation pour rechercher en temps réel des éléments probants, et ce sont déjà des produits utilisés dans les hôpitaux L’article s’est diffusé rapidement dès sa publication, puis des soupçons de conflit d’intérêts ont émergé après coup, l’auteur exploitant lui-même une IA médicale concurrente et ayant déjà demandé sans succès un accès API à OpenEvidence En revérifiant moi-même la méthodologie, j’ai identifié plusieurs défauts statistiques qui rendent difficile de soutenir le classement lui-même Structure de l’article et conclusion de surface Évaluation en trois étapes Évaluation des connaissances médicales avec 500 questions de MedQA Évaluation de l’alignement clinique avec 500 questions de HealthBench 1 800 évaluations au total réalisées par 12 cliniciens américains sur 100 requêtes cliniques réelles (RCQ) La conclusion est que les modèles de frontière devancent les outils cliniques spécialisés sur les trois évaluations, et que la taille du modèle ainsi que la méthode d’alignement pourraient être des facteurs plus importants qu’un réglage spécialisé par domaine Problème de fiabilité de la notation Le coefficient alpha de Krippendorff, qui mesure la concordance entre évaluateurs, ressort entre 0,10 et 0,20 sur les RCQ Cet indicateur signifie qu’une valeur de 0 correspond à un niveau de hasard et qu’une valeur de 1 indique un accord parfait ; pour l’utiliser afin d’établir un classement, on exige en général au moins 0,67 Le graphique central de l’article (Figure 2c), censé montrer la hiérarchie entre modèles, repose sur la moyenne de notes pour lesquelles le niveau d’accord est insuffisant Un jury qui est aussi l’objet de l’évaluation L’évaluation HealthBench repose sur un système où des LLM notent les réponses d’autres LLM, mais le jury est composé uniquement des trois modèles évalués : GPT-5.2, Gemini 3.1 Pro et Claude Opus 4.6 Les outils cliniques spécialisés sont exclus du jury HealthBench est un benchmark créé par OpenAI, et le GPT-5.2 d’OpenAI y est évalué sur ce même benchmark Le self-preference bias, c’est-à-dire la tendance à noter plus favorablement soi-même ou des modèles proches, est déjà un phénomène connu, et cette structure ne prévoit aucun mécanisme pour filtrer ce biais Un problème comparable à avoir vu le sujet à l’avance MedQA et HealthBench sont des jeux de données publics sur Internet depuis longtemps Les modèles de frontière étant entraînés sur d’immenses volumes de textes issus d’Internet, il est possible qu’ils aient déjà rencontré ces questions et leurs réponses pendant l’entraînement L’article reconnaît cette possibilité, mais ne calcule pas dans quelle mesure elle a réellement influé sur les résultats Problèmes de traitement statistique Les 1 704 observations où plusieurs modèles et plusieurs évaluateurs ont noté une même question sont traitées comme si elles étaient indépendantes les unes des autres Or les notes issues d’une même question sont corrélées en raison de la difficulté propre à cette question ; ignorer cela produit une pseudoreplication qui donne l’impression de résultats statistiquement plus solides qu’ils ne le sont réellement Par ailleurs, l’article indique un résultat de Fisher's exact test à P=0.10 pour comparer un taux de refus de 19 % chez UpToDate à 6 % pour Google AI Overview En recalculant directement à partir des données brutes (19/100 contre 6/100), on obtient une valeur p d’environ 0.009. Selon le seuil de significativité de 0,05 annoncé par l’article, cela correspond à une différence significative, qui demande donc une explication tant que la méthode de correction n’est pas publiée Des conditions d’évaluation elles-mêmes différentes Les modèles de frontière ont été évalués via des API déterministes avec une température de 0 Les outils cliniques ont été évalués via une interface navigateur. Le résultat peut varier d’une exécution à l’autre et les prompts internes ne sont pas publiés Les réponses refusées sont exclues du calcul. UpToDate a refusé 19 % des requêtes, de sorte que seules restent des notes sur des questions relativement plus faciles, alors que les modèles de frontière n’ont refusé que 1 à 3 % des requêtes, laissant intacte la distribution de l’ensemble des questions Avec d’autres benchmarks, on obtient d’autres résultats Une étude distincte sur medRxiv a appliqué à OpenEvidence le même benchmark de triage qui montrait que ChatGPT Health sous-évaluait 51,6 % des urgences réelles (undertriage) Le taux de sous-évaluation d’OpenEvidence était de 12,5 %, soit un quart de celui de ChatGPT Health Même pour un même outil, les résultats peuvent varier fortement selon le benchmark choisi. Le choix du benchmark est lui-même une variable qui oriente la conclusion Pourquoi cet article est important maintenant OpenEvidence est déjà un outil utilisé chaque jour en consultation par des dizaines de milliers de médecins américains. Cette comparaison n’est pas une simple question académique : elle porte sur le choix des outils que les hôpitaux adoptent dès aujourd’hui L’année 2026 correspond au moment où les hôpitaux et les assureurs concluent effectivement des contrats d’achat pour l’IA médicale. Un seul article de benchmark peut être utilisé directement comme fondement pour décider d’un contrat ou d’un déploiement Un article publié dans Nature Medicine acquiert immédiatement une forte autorité et se diffuse très vite. La réanalyse ayant mis en évidence des défauts structurels n’est arrivée que quelques jours plus tard, alors que les cliniciens avaient déjà modifié leurs supports de formation le jour même Une fois intégrés dans une décision d’achat ou dans des recommandations de pratique, ces résultats restent coûteux et longs à corriger, même si leurs défauts apparaissent ensuite Les benchmarks d’IA médicale continuent de se multiplier, mais les infrastructures et les effectifs capables de les revérifier de manière indépendante ne suivent pas ce rythme. Le problème dépasse cet article : c’est un problème structurel appelé à se répéter Conclusion Ce texte ne soutient pas que l’orientation générale de l’article est forcément erronée En revanche, auto-évaluation du jury, faible concordance entre évaluateurs, possibilité de contamination par les données d’entraînement et erreurs de traitement statistique se cumulent ici en même temps. Des contrats d’achat et des recommandations cliniques ne devraient pas dépendre de résultats accumulant à ce point les défauts L’article exprime de l’assurance dans sa conclusion, mais les données ne soutiennent pas ce degré de certitude. Le problème n’est pas l’intention de l’auteur, mais une structure où la certitude circule avant la vérification Alors que l’IA médicale entre dans les hôpitaux, il faut d’abord mettre en place non pas seulement des articles de benchmark, mais un dispositif d’audit indépendant capable de les vérifier. Tant que la vitesse des affirmations dépassera celle de la validation, la même situation se répétera avec le prochain article

(flamehaven.space)

1 points par flamehaven01 4 시간 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Résumé rapide

Un article publié dans Nature Medicine le 12 juin 2026, intitulé "General-purpose large language models outperform specialized clinical AI tools on medical benchmarks", affirme que des modèles de frontière généralistes comme GPT-5.2, Gemini 3.1 Pro et Claude Opus 4.6 surpassent des outils d’IA médicale spécialisés comme OpenEvidence et UpToDate AI
OpenEvidence et UpToDate AI sont des outils d’aide à la décision clinique que les médecins utilisent en consultation pour rechercher en temps réel des éléments probants, et ce sont déjà des produits utilisés dans les hôpitaux
L’article s’est diffusé rapidement dès sa publication, puis des soupçons de conflit d’intérêts ont émergé après coup, l’auteur exploitant lui-même une IA médicale concurrente et ayant déjà demandé sans succès un accès API à OpenEvidence
En revérifiant moi-même la méthodologie, j’ai identifié plusieurs défauts statistiques qui rendent difficile de soutenir le classement lui-même

Structure de l’article et conclusion de surface

Évaluation en trois étapes
- Évaluation des connaissances médicales avec 500 questions de MedQA
- Évaluation de l’alignement clinique avec 500 questions de HealthBench
- 1 800 évaluations au total réalisées par 12 cliniciens américains sur 100 requêtes cliniques réelles (RCQ)
La conclusion est que les modèles de frontière devancent les outils cliniques spécialisés sur les trois évaluations, et que la taille du modèle ainsi que la méthode d’alignement pourraient être des facteurs plus importants qu’un réglage spécialisé par domaine

Problème de fiabilité de la notation

Le coefficient alpha de Krippendorff, qui mesure la concordance entre évaluateurs, ressort entre 0,10 et 0,20 sur les RCQ
Cet indicateur signifie qu’une valeur de 0 correspond à un niveau de hasard et qu’une valeur de 1 indique un accord parfait ; pour l’utiliser afin d’établir un classement, on exige en général au moins 0,67
Le graphique central de l’article (Figure 2c), censé montrer la hiérarchie entre modèles, repose sur la moyenne de notes pour lesquelles le niveau d’accord est insuffisant

Un jury qui est aussi l’objet de l’évaluation

L’évaluation HealthBench repose sur un système où des LLM notent les réponses d’autres LLM, mais le jury est composé uniquement des trois modèles évalués : GPT-5.2, Gemini 3.1 Pro et Claude Opus 4.6
Les outils cliniques spécialisés sont exclus du jury
HealthBench est un benchmark créé par OpenAI, et le GPT-5.2 d’OpenAI y est évalué sur ce même benchmark
Le self-preference bias, c’est-à-dire la tendance à noter plus favorablement soi-même ou des modèles proches, est déjà un phénomène connu, et cette structure ne prévoit aucun mécanisme pour filtrer ce biais

Un problème comparable à avoir vu le sujet à l’avance

MedQA et HealthBench sont des jeux de données publics sur Internet depuis longtemps
Les modèles de frontière étant entraînés sur d’immenses volumes de textes issus d’Internet, il est possible qu’ils aient déjà rencontré ces questions et leurs réponses pendant l’entraînement
L’article reconnaît cette possibilité, mais ne calcule pas dans quelle mesure elle a réellement influé sur les résultats

Problèmes de traitement statistique

Les 1 704 observations où plusieurs modèles et plusieurs évaluateurs ont noté une même question sont traitées comme si elles étaient indépendantes les unes des autres
Or les notes issues d’une même question sont corrélées en raison de la difficulté propre à cette question ; ignorer cela produit une pseudoreplication qui donne l’impression de résultats statistiquement plus solides qu’ils ne le sont réellement
Par ailleurs, l’article indique un résultat de Fisher's exact test à P=0.10 pour comparer un taux de refus de 19 % chez UpToDate à 6 % pour Google AI Overview
En recalculant directement à partir des données brutes (19/100 contre 6/100), on obtient une valeur p d’environ 0.009. Selon le seuil de significativité de 0,05 annoncé par l’article, cela correspond à une différence significative, qui demande donc une explication tant que la méthode de correction n’est pas publiée

Des conditions d’évaluation elles-mêmes différentes

Les modèles de frontière ont été évalués via des API déterministes avec une température de 0
Les outils cliniques ont été évalués via une interface navigateur. Le résultat peut varier d’une exécution à l’autre et les prompts internes ne sont pas publiés
Les réponses refusées sont exclues du calcul. UpToDate a refusé 19 % des requêtes, de sorte que seules restent des notes sur des questions relativement plus faciles, alors que les modèles de frontière n’ont refusé que 1 à 3 % des requêtes, laissant intacte la distribution de l’ensemble des questions

Avec d’autres benchmarks, on obtient d’autres résultats

Une étude distincte sur medRxiv a appliqué à OpenEvidence le même benchmark de triage qui montrait que ChatGPT Health sous-évaluait 51,6 % des urgences réelles (undertriage)
Le taux de sous-évaluation d’OpenEvidence était de 12,5 %, soit un quart de celui de ChatGPT Health
Même pour un même outil, les résultats peuvent varier fortement selon le benchmark choisi. Le choix du benchmark est lui-même une variable qui oriente la conclusion

Pourquoi cet article est important maintenant

OpenEvidence est déjà un outil utilisé chaque jour en consultation par des dizaines de milliers de médecins américains. Cette comparaison n’est pas une simple question académique : elle porte sur le choix des outils que les hôpitaux adoptent dès aujourd’hui
L’année 2026 correspond au moment où les hôpitaux et les assureurs concluent effectivement des contrats d’achat pour l’IA médicale. Un seul article de benchmark peut être utilisé directement comme fondement pour décider d’un contrat ou d’un déploiement
Un article publié dans Nature Medicine acquiert immédiatement une forte autorité et se diffuse très vite. La réanalyse ayant mis en évidence des défauts structurels n’est arrivée que quelques jours plus tard, alors que les cliniciens avaient déjà modifié leurs supports de formation le jour même
Une fois intégrés dans une décision d’achat ou dans des recommandations de pratique, ces résultats restent coûteux et longs à corriger, même si leurs défauts apparaissent ensuite
Les benchmarks d’IA médicale continuent de se multiplier, mais les infrastructures et les effectifs capables de les revérifier de manière indépendante ne suivent pas ce rythme. Le problème dépasse cet article : c’est un problème structurel appelé à se répéter

Conclusion

Ce texte ne soutient pas que l’orientation générale de l’article est forcément erronée
En revanche, auto-évaluation du jury, faible concordance entre évaluateurs, possibilité de contamination par les données d’entraînement et erreurs de traitement statistique se cumulent ici en même temps. Des contrats d’achat et des recommandations cliniques ne devraient pas dépendre de résultats accumulant à ce point les défauts
L’article exprime de l’assurance dans sa conclusion, mais les données ne soutiennent pas ce degré de certitude. Le problème n’est pas l’intention de l’auteur, mais une structure où la certitude circule avant la vérification
Alors que l’IA médicale entre dans les hôpitaux, il faut d’abord mettre en place non pas seulement des articles de benchmark, mais un dispositif d’audit indépendant capable de les vérifier. Tant que la vitesse des affirmations dépassera celle de la validation, la même situation se répétera avec le prochain article