- OpenAI a dévoilé HealthBench, un nouveau benchmark destiné à évaluer les performances des systèmes d’IA dans des situations médicales
- Il a été construit à partir de l’expérience médicale de 262 médecins dans 60 pays et de 5�0 dialogues médicaux réalistes, avec pour chaque conversation une grille d’évaluation (rubric) rédigée directement par des médecins
- Les critères d’évaluation incluent notamment la précision, la prise en compte du contexte, la qualité de la communication et l’exhaustivité, et un modèle d’évaluation basé sur GPT-4.1 note si ces critères sont remplis
- Les derniers modèles d’OpenAI montrent des progrès concrets, avec 28 % d’amélioration des performances par rapport à l’existant, une meilleure performance/coût même pour les petits modèles, ainsi qu’une amélioration de la performance dans les pires cas (worst-of-n)
- L’ensemble de HealthBench, ainsi que les jeux Consensus et Hard, sont publiés en open source pour les chercheurs et développeurs, afin de contribuer aux futurs travaux sur l’IA médicale et à son renforcement en matière de sécurité
Présentation de HealthBench
Contexte de développement
- Une évaluation était nécessaire pour maximiser le potentiel d’usage de l’AGI dans la santé, qu’il s’agisse d’élargir l’accès à l’information médicale, d’assister les médecins en clinique ou de renforcer les droits des communautés en matière de santé
- Les jeux d’évaluation médicaux existants souffraient de plusieurs limites : manque de réalisme, faible recours au jugement d’experts et marge limitée pour mesurer les progrès futurs des modèles
Caractéristiques principales
- 5�0 scénarios de conversations de santé multi-tours, multilingues et complexes
- Chaque réponse est notée à l’aide de grilles d’évaluation sur mesure conçues par des médecins
- Un total de 48�0562 critères d’évaluation permet de quantifier finement les différentes capacités des modèles
- La notation repose sur un système automatisé d’évaluation par rubric utilisant GPT-4.1
Thèmes et axes d’évaluation de HealthBench
Les 7 thèmes d’évaluation
- Emergency referrals : capacité à reconnaître une situation d’urgence et à recommander une réponse appropriée
- Expertise-tailored communication : capacité à ajuster les termes et le niveau de détail au niveau de l’utilisateur
- Responding under uncertainty : pertinence de la réponse lorsque les informations sont incertaines
- Response depth : capacité à fournir un niveau d’information adapté à la situation
- Health data tasks : traitement de tâches pratiques liées à la santé, comme la rédaction de documents ou l’assistance fondée sur les connaissances
- Global health : capacité d’adaptation selon les ressources, le contexte et la langue propres à chaque pays
- Context seeking : capacité à demander de lui-même le contexte nécessaire
Axes d’évaluation
- Précision (Accuracy) : conformité aux faits médicaux et au consensus scientifique
- Prise en compte du contexte (Context awareness) : capacité à adapter la réponse au profil de l’utilisateur
- Exhaustivité (Completeness) : inclusion de tous les éléments nécessaires sans omission
- Qualité de la communication (Communication quality) : pertinence de la longueur, de la terminologie, de la structure et de la mise en avant des points importants
- Respect des consignes (Instruction following) : capacité à suivre le format et la manière demandés par l’utilisateur
Exemples d’évaluation concrets
Exemple 1 : un voisin de 70 ans est inconscient mais respire
- La réponse inclut notamment l’appel aux services d’urgence, la mise en position latérale de sécurité et la précision des conditions de début de la RCP
- 71 points sur 92 (77 %) obtenus selon la grille d’évaluation → de très bonnes consignes de réponse en situation d’urgence
Exemple 2 : l’effet préventif de la quercétine contre les virus
- Le manque de preuves a été clairement expliqué, mais il manquait des informations sur la dose recommandée et les données cliniques, ainsi que la mention des effets secondaires
- 1 point sur 25 (4 %) selon la grille d’évaluation → bonne expression de l’incertitude scientifique, mais manque d’exhaustivité de l’information
Exemple 3 : rédaction d’une note de suivi en réadaptation cardiaque
- Un modèle structuré a bien été proposé, mais de nombreuses informations cliniques essentielles manquaient
- 15 points sur 42 (36 %) selon la grille d’évaluation
Comparaison des performances des modèles
Performances par modèle (globales / par thème / par axe)
- o3 enregistre la meilleure performance (0.598) sur l’ensemble des thèmes et axes d’évaluation
- GPT-4.1, Claude 3.7 et Gemini 2.5 Pro suivent ensuite
- GPT-3.5 Turbo et Llama 4 affichent des scores nettement plus faibles
Performance par rapport au coût
- GPT-4.1 nano est 25 fois moins cher que GPT-4o tout en affichant de meilleures performances
- Cela montre que les progrès des petits modèles se poursuivent et qu’un haut niveau de performance à faible coût devient envisageable
Fiabilité (performance worst-of-n)
- o3 et GPT-4.1 montrent une amélioration même dans les cas les plus défavorables
- C’est un indicateur important pour garantir la fiabilité dans des domaines à haut risque
Benchmark étendu : Consensus & Hard
- HealthBench Consensus : un jeu d’évaluation à haute fiabilité conçu selon les critères consensuels de plusieurs médecins (3�0671 exemples)
- Le taux d’erreur converge presque vers 0
- HealthBench Hard : 1�0 exemples très difficiles qui restent complexes même pour les modèles les plus récents
- Peut servir de jeu d’évaluation pour tester la marge de progression des modèles
Comparaison avec les médecins humains
- Modèle d’IA seul vs médecin (sans référence) vs médecin (avec possibilité de consulter la réponse du modèle)
- Par rapport aux modèles de 2024 : la combinaison médecin + modèle est supérieure au modèle seul
- Les modèles les plus récents de 2025 (o3, GPT‑4.1) atteignent ou dépassent le niveau des réponses de médecins
- La marge d’amélioration supplémentaire se réduit
Fiabilité de l’évaluation
- Le taux de concordance entre les notes de GPT-4.1 et celles des médecins réels est élevé
- Les critères d’évaluation du modèle sont alignés à un niveau similaire au jugement des médecins → validation de l’efficacité du système automatisé d’évaluation par rubric
Orientations futures
- L’ensemble des données et des outils d’évaluation est publié sur GitHub : https://github.com/openai/simple-evals
- OpenAI encourage une évaluation et une amélioration continues fondées sur la communauté afin de favoriser des progrès réellement utiles de l’IA dans les environnements médicaux
- Il reste encore à résoudre certaines limites, notamment autour de la demande de contexte (Context seeking) et de la gestion des pires cas (Reliability)
1 commentaires
Réactions sur Hacker News
Je suis convaincu que beaucoup de diagnostics et traitements courants pourraient très bien être assurés par des systèmes d’IA finement ajustés et validés pour cela. J’ai récemment eu une téléconsultation avec un médecin pour obtenir une ordonnance de sirop contre la toux, mais j’avais déjà fait mes recherches et je savais quoi prendre. Certains diront : « un médecin a étudié pendant des années, il faut lui faire plus confiance qu’à Google », mais les humains se trompent aussi, et les médecins vont souvent eux-mêmes vérifier des informations sur des sites comme UpToDate. Donc, si l’on est prêt à prendre un risque, pourquoi ne pourrait-on pas en assumer soi-même les conséquences ? Je ne comprends pas pourquoi je dois payer 93 dollars, en plus du médicament contre la toux (environ 44 dollars), pour qu’un médecin me regarde le visage sur Zoom moins de 5 minutes et envoie une ordonnance. Contrairement au coût meurtrier des soins aux États-Unis, dans mon pays natal (le Myanmar), il y a plusieurs cliniques et pharmacies près de chez soi, et la plupart des médicaments peuvent s’acheter sans ordonnance (bien sûr, ceux contenant des opioïdes nécessitent une prescription). Si l’on veut juste faire confirmer un diagnostic, on peut payer 10 à 20 dollars pour voir un médecin puis acheter directement le médicament à la pharmacie. Si on a l’argent, on peut librement acheter les médicaments ; je me demande donc pourquoi, aux États-Unis, on n’a même pas le droit d’assumer soi-même ce risque. Alors que les dépenses de santé augmentent dans le monde entier, l’IA prendra de plus en plus en charge les diagnostics et traitements ordinaires — je n’en attends pas des miracles, bien sûr — et j’espère qu’au moins une partie des économies réalisées reviendra aux patients.
Dans ton cas, ça a marché parce que c’était exceptionnellement simple. Le problème, c’est que la personne concernée n’a pas reçu la formation nécessaire pour distinguer une situation simple d’une situation qui ne l’est pas. Une toux peut n’être qu’une toux, mais elle peut aussi signaler quelque chose de plus grave, ce qui exige un examen par un « vrai » médecin, et parfois même une consultation spécialisée supplémentaire. Pour donner mon exemple : j’avais une douleur au testicule ; un premier médecin n’a rien senti, un autre a dit qu’il y avait bien quelque chose au toucher mais sans savoir ce que c’était. Au final, je suis allé chez un urologue qui a immédiatement diagnostiqué une tumeur, et c’était effectivement un cancer. Grâce à cette détection précoce, le traitement a été plus simple. Le point essentiel, c’est que lorsque la situation n’est pas simple, l’expertise et l’expérience comptent énormément.
Tu demandais pourquoi il fallait payer 93 dollars pour moins de 5 minutes de consultation Zoom : c’est parce que tu achètes le savoir d’un expert qui a étudié pendant plus de 10 ans. Aujourd’hui, les systèmes d’IA sont encore moins fiables qu’une recherche web en matière de diagnostic médical. Une recherche web a au moins l’avantage de me permettre de consulter des informations rédigées par des experts et de faire moi-même le tri ; et quand un médecin fait une recherche, j’estime qu’on paie justement sa capacité à évaluer ces informations. Je ne vois pas sur quoi se fonde l’idée que l’IA ferait mieux que les humains dans ce rôle. Cela me rappelle l’histoire attribuée à Henry Ford : « savoir où mettre le coup de pinceau, ça vaut 9 999 dollars ».
Je me demande où tu habites pour ne pas pouvoir acheter de sirop contre la toux sans ordonnance. À ma connaissance, seuls ceux qui contiennent des substances réglementées l’exigent.
Il y a tout simplement trop peu de médecins pour qu’ils puissent tous s’occuper de ce genre de choses en plus du reste. Et cette pénurie ne fait que s’aggraver de jour en jour. Ce serait formidable que tout le monde puisse se faire soigner à tout moment et à bas coût, mais nous ne vivons pas dans un monde idéal. Si l’IA en remplace une partie, ce sera un énorme bénéfice pour la majorité des gens.
Si n’importe qui peut acheter et prendre des médicaments facilement, cela entraîne des problèmes comme l’abus massif d’antibiotiques. Malheureusement, le système de santé doit être conçu en tenant compte aussi des comportements les moins responsables. L’IA pourra peut-être gérer une partie du tri simple (triage), mais avec l’état actuel des LLM, le manque de fiabilité des informations patient et l’absence de jugement multisensoriel font qu’il est encore difficile de remplacer un médecin. Un véritable « médecin traitant IA » ne serait possible qu’avec des données de santé complètes et un historique solide, mais ce niveau de collecte de données pose alors de nouveaux problèmes, notamment de vie privée.
Si ce type d’expérience correspond à un usage ordinaire du système de santé, c’est qu’il faut une transformation radicale de l’ensemble du système. L’IA pourrait simplement augmenter la rentabilité de quelques entreprises sans que cela te profite réellement.
L’IA aura elle aussi un coût distinct. Ce ne sera pas gratuit.
Je me dis aussi que si le benchmark est conçu par l’entreprise qui fabrique le modèle, il y a conflit d’intérêts. Au minimum, il faudrait qu’il soit géré par une organisation à but non lucratif distincte, ou par une entité juridique séparée de la maison mère, pour que ce soit transparent.
L’idée de confier des informations de santé à des LLM qui ne comprennent même pas le sens de ce qu’ils disent est une erreur grave. On peut les utiliser jusqu’à un certain point pour repérer des motifs dans des données, pour le divertissement ou pour générer du code, mais pour le diagnostic médical ou le conseil médical, ils sont absolument indignes de confiance. Rien que l’idée de soignants répétant comme des perroquets ce qu’un LLM a dit me paraît terrifiante. Il faut encadrer ce risque au plus vite.
Je serais curieux de savoir précisément pourquoi tu considères cette faiblesse comme si fatale. Les LLM ont certes des limites évidentes, mais les humains aussi, et je pense qu’on peut obtenir de meilleurs résultats en combinant les deux.
Qui comprend réellement quoi est opaque pour nous tous. On ne sait même pas si ce commentaire a été écrit par une IA, et il n’existe pas de critère absolu permettant de déterminer qui possède une vraie compréhension. L’expertise humaine aussi, au fond, on ne l’estime qu’indirectement à travers des examens d’évaluation, etc., et c’est précisément ce qu’OpenAI essaie ici de mettre à l’épreuve. Ce qui m’importe, ce sont les résultats. Si la « note » est de 10 %, je ne fais confiance ni à un humain ni à une IA ; si elle est de 95 %, je trouverais cela plus utile qu’un médecin. En réalité, je m’attends à ce que, très bientôt, la plupart des médecins n’obtiennent pas de meilleurs résultats que les modèles récents sur ce genre de benchmark.
Je pense qu’il est tout aussi dangereux de confier ses informations de santé à des « mammifères humains fatigués et pleins de biais ». Pour l’empathie, les petites conversations ou les vaccinations de base, le médecin a sa place, mais rien ne garantit qu’un médecin constamment surmené sera toujours plus précis qu’un outil d’analyse de données. Si mon médecin se contente de répéter la présentation d’un commercial ou des recommandations dépassées, c’est tout aussi effrayant.
J’aime bien qu’ils montrent le « pire score sur k échantillons » : dans la vraie vie, cela signifie bien qu’une personne sur 100 recevra réellement cette « pire réponse ».
Je trouve impressionnant que Grok se débrouille aussi bien dans ce genre de test. J’ai l’impression que Grok est moins mis en avant dans l’actualité que Gemini ou Llama.
Je suis surpris de voir que Gemini s’en sort en fait plutôt bien. Gemini a tendance à éviter tout particulièrement les sujets liés à la santé, ce qui a probablement fait baisser son score. Il est possible qu’ils aient compté comme échec tous les cas où la réponse était insuffisante à cause de la censure.
On ne peut pas télécharger les poids du modèle Grok pour le faire tourner en local.
J’ai souffert d’une blessure ces cinq dernières années. J’ai consulté plusieurs spécialistes en médecine du sport, passé des examens d’imagerie, essayé les compresses, l’acupuncture et même la chiropraxie. Les médecins ont accumulé des diagnostics à côté de la plaque comme « c’est normal » ou « on ne sait pas d’où ça vient ». Un seul médecin a proposé une hypothèse convaincante, mais j’étais tellement découragé que je n’ai même pas donné suite. Finalement, j’ai fourni tout mon historique à o3-deep-research, qui a proposé la même hypothèse que ce médecin, avec en plus un schéma des groupes musculaires et une méthode d’exercices. Je ne suis pas encore complètement guéri, mais pour la première fois depuis longtemps, je ressens un espoir prudent.
Je me demande pourquoi tu fais davantage confiance au diagnostic d’un LLM qu’aux conseils de nombreux médecins. Aux États-Unis, j’ai du mal à comprendre qu’aucun médecin ne t’ait prescrit de kinésithérapie ou d’exercices.
Il faut accepter de façon réaliste que le traitement de la plupart des blessures musculo-squelettiques est un très long parcours d’essais et d’erreurs, et que l’imagerie a aussi ses limites. Il existe de nombreux cas où les symptômes ne correspondent pas aux résultats des examens. Ne te décourage pas, et en essayant diverses approches thérapeutiques fondées scientifiquement, le temps finit par résoudre la plupart des cas. C’est justement pour cela qu’on a facilement l’illusion qu’un traitement particulier a « marché ».
En réalité, ce dont tu avais besoin, ce n’était pas d’un médecin, mais d’un excellent kinésithérapeute.
Au fond, n’est-ce pas simplement que ce médecin avait raison depuis le début ? Que ce soit l’IA ou un autodiagnostic en ligne, j’ai du mal à y voir une victoire particulière.
Tu sembles faire confiance à des pseudo-thérapies comme l’acupuncture et la chiropraxie, tout en refusant de faire confiance aux médecins, puis en accordant ta confiance à une IA tristement célèbre pour ses mensonges. Il faudrait peut-être revoir tes critères internes de jugement.
J’espère que les récentes coupes budgétaires publiques dans la recherche scientifique auront au moins réduit le nombre de sécuritaires qui entravent ces nouvelles approches et cet apprentissage. Bloquer ces modèles pour qu’ils ne répondent que « je ne peux pas vous donner de conseil médical » est vraiment dommageable.
J’ai trouvé cette étude très réfléchie et utile, et je suis aussi impressionné par le fait que les performances des modèles aient presque doublé en un an. o3 et deep-research m’ont réellement beaucoup aidé pour gérer ma santé. Par exemple, il y a un mois, j’ai subi un gros choc au niveau de la poitrine (dans la zone du cœur), et j’ai donné à o3 mes symptômes ainsi que les données de fréquence cardiaque et de saturation en oxygène de mon Apple Watch. Il connaissait déjà mes antécédents grâce à une conversation précédente. Il m’a décrit avec précision l’évolution attendue et le traitement à suivre, et ma guérison a effectivement correspondu à 100 % à ce qu’il avait annoncé. D’ordinaire, je garde prêt un prompt détaillé avec ma taille, mon poids, mes médicaments, mes informations de santé, etc., puis si un symptôme survient, je l’envoie immédiatement à o3 pour demander conseil ; c’est très utile.
Les données de SpO2 de l’Apple Watch ou d’autres wearables au poignet sont assez imprécises pour un usage diagnostique. Un oxymètre de pouls dédié au doigt est bien plus précis.
Je serais curieux de savoir avec quel degré de confiance il a posé ce diagnostic, et si tu as réellement fait confiance à ce niveau de confiance. J’en ai parlé à ma femme, qui est médecin, et elle dit qu’un épanchement péricardique lié à un traumatisme — potentiellement urgent — pourrait aussi être une possibilité.
J’ai l’impression que ce benchmark est déconnecté de la manière dont on utilise réellement les modèles. En pratique, dans un contexte professionnel, on ne laisse pas simplement un utilisateur discuter avec le modèle de base : on combine plutôt RAG, garde-fous, réponses préparées à l’avance, etc. Je me demande donc à quel scénario commercial concret cette évaluation est censée correspondre.
N’est-ce pas aussi le cas des benchmarks de code ? En pratique, pour des questions-réponses spécialisées, un o3 de base avec recherche web et un bon prompt peut être meilleur. Les systèmes de RAG et les garde-fous peuvent même parfois dégrader les performances.
Le simple chat ChatGPT est déjà, en soi, une application réaliste de ce test. C’est un cas immense et très important.
Même des non-cliniciens utilisent désormais ChatGPT tous les jours pour obtenir de l’aide sur de vrais problèmes de santé. Cette évaluation est un bon jeu de données pour réduire les risques dans un usage réel.
J’ai récemment téléversé un compte-rendu d’examens à ChatGPT et lui ai demandé un résumé ; l’IA a « halluciné » un cancer grave et a même ajouté plusieurs explications supplémentaires. En réalité, le rapport disait explicitement « pas de cancer ».
Je me demande de quel modèle LLM il s’agissait (4o, o3, 3.5 ?). Les premiers modèles n’étaient pas bons, mais o3 m’a semblé assez utile pour les problèmes de santé (par exemple des problèmes d’oreille).
Je me demande si l’IA n’a tout simplement pas réussi à lire le compte-rendu et s’est contentée d’improviser une réponse à côté de la plaque. Il m’est déjà arrivé de lui donner un PDF de manuel moteur et de lui poser une question : la réponse avait l’air plausible, mais en réalité elle sortait un schéma de circuit complètement différent.
On dirait une blague du genre : « Dépistage du cancer : un cancer a été détecté ! »
Je serais curieux de savoir ce qu’ont réellement donné les résultats par la suite. Parfois, ce qu’on prenait pour un faux positif s’avère finalement être un cancer, révélé plus tard ; certains cancers n’envoient des signaux qu’après une longue période.