OpenAI o1 a diagnostiqué correctement 67 % des patients aux urgences, contre 50 à 55 % pour les médecins de triage
(theguardian.com)- Dans une étude de Harvard, le modèle de raisonnement o1 d’OpenAI a montré une précision supérieure à celle de médecins humains pour les diagnostics initiaux de triage aux urgences, et les LLM ont été jugés comme dépassant la plupart des benchmarks de raisonnement clinique
- Lors d’une expérience où il lisait les dossiers médicaux électroniques standard de 76 patients arrivés aux urgences d’un hôpital de Boston, o1 a produit un diagnostic exact ou très proche dans 67 % des cas, contre 50 à 55 % pour deux médecins humains
- Avec davantage de détails, la précision de l’IA est montée à 82 %, contre 70 à 79 % pour les experts humains, mais l’écart n’était pas statistiquement significatif
- L’IA a aussi surpassé 46 médecins sur des tâches de planification de traitements à long terme, comme les protocoles antibiotiques ou la planification de fin de vie ; sur cinq cas cliniques, elle a obtenu 89 %, contre 34 % pour des médecins s’appuyant sur des ressources existantes
- L’étude ne comparait que des données patients transmissibles par texte et ne testait pas les signaux non verbaux ; sa principale limite est donc qu’elle se rapproche davantage d’un rôle de second avis fondé sur les dossiers que d’un remplacement réel des médecins
Principaux résultats de l’essai de triage aux urgences mené par Harvard
- Dans cette étude de Harvard, un système d’IA a obtenu de meilleurs résultats que des médecins humains en précision diagnostique dans des situations de triage en médecine d’urgence
- Les résultats publiés dans Science proviennent d’une expérience comparant les réponses de centaines de médecins à celles de l’IA, et des experts indépendants ont estimé qu’ils montraient un « véritable progrès » du raisonnement clinique de l’IA
- Les grands modèles de langage (LLM) ont été jugés comme ayant « dépassé la plupart des benchmarks de raisonnement clinique »
- L’avantage de l’IA ressort particulièrement dans les situations de triage initial aux urgences, où les informations sont limitées et où il faut juger rapidement
Expérience de diagnostic sur 76 patients aux urgences
- L’expérience a porté sur 76 patients arrivés aux urgences d’un hôpital de Boston, pour lesquels l’IA et deux médecins humains ont posé un diagnostic à partir des mêmes dossiers médicaux électroniques standard
- Ces dossiers comportaient généralement les signes vitaux, des informations démographiques et quelques phrases rédigées par une infirmière expliquant la raison de la venue du patient à l’hôpital
- Le modèle de raisonnement o1 d’OpenAI a trouvé un diagnostic exact ou très proche dans 67 % des cas, tandis que les médecins humains ont affiché une précision de 50 à 55 %
- Avec davantage de détails fournis, la précision diagnostique de l’IA est montée à 82 %, tandis que les experts humains ont obtenu 70 à 79 %, sans différence statistiquement significative
Expérience sur la planification de traitements à long terme
- L’IA a également surpassé un groupe plus large de médecins sur des tâches consistant à établir des plans de traitement à long terme, comme proposer un protocole antibiotique ou planifier une prise en charge de fin de vie
- L’IA et 46 médecins ont examiné cinq études de cas cliniques, et l’IA a élaboré des plans significativement meilleurs que ceux des médecins humains utilisant des ressources existantes
- Les scores étaient de 89 % pour l’IA, contre 34 % pour les médecins humains utilisant des ressources existantes comme des moteurs de recherche
Limites de l’étude et évolution du rôle de l’IA en médecine
- Cette étude comparait l’humain et l’IA uniquement à partir de données patients transmissibles par texte
- La capacité de l’IA à interpréter des signaux non verbaux, comme le niveau de souffrance du patient ou son apparence visuelle, n’a pas été testée
- L’IA se comporte donc davantage comme un clinicien fournissant un second avis à partir des dossiers que comme un véritable remplaçant des médecins des urgences
- Arjun Manrai, qui dirige le laboratoire d’IA de la Harvard Medical School, a déclaré que ces résultats ne signifient pas que l’IA remplace les médecins, mais qu’ils indiquent qu’un « changement technologique très profond » est en train de remodeler la médecine
- Adam Rodman, médecin au Beth Israel Deaconess medical centre de Boston où l’étude a été menée, considère les LLM d’IA comme « l’une des technologies les plus influentes depuis des décennies »
- Selon Rodman, au cours des dix prochaines années, l’IA ne remplacera pas les médecins mais s’intégrera à un nouveau modèle de soins tripartite réunissant médecins, patients et systèmes d’IA
Cas clinique et raisonnement de l’IA
- Dans l’un des cas de l’étude de Harvard, un patient présentait une embolie pulmonaire et des symptômes qui s’aggravaient
- Les médecins humains ont estimé que les anticoagulants échouaient, mais l’IA a repéré que les antécédents de lupus du patient pouvaient provoquer une inflammation pulmonaire
- Le jugement de l’IA s’est révélé correct
L’usage de l’IA médicale se diffuse déjà
- Selon une étude publiée le mois dernier, environ un médecin américain sur cinq utilise déjà l’IA pour l’aide au diagnostic
- Au Royaume-Uni, 16 % des médecins utilisent l’IA tous les jours, et 15 % supplémentaires l’utilisent chaque semaine
- D’après une enquête récente du Royal College of Physicians, l’un des usages fréquents chez les médecins britanniques concerne la prise de décision clinique
- Les principales inquiétudes exprimées par les médecins britanniques portaient sur les erreurs de l’IA et les risques en matière de responsabilité
- Des milliards de dollars sont investis dans les entreprises d’IA pour la santé, mais des questions demeurent sur les conséquences des erreurs de l’IA
- Rodman a indiqué qu’il n’existe actuellement aucun cadre formel pour attribuer les responsabilités, et a souligné que les patients veulent en définitive qu’un humain les guide pour les décisions de vie ou de mort et les choix thérapeutiques difficiles
Évaluation d’experts externes et points de vigilance
- Le professeur Ewen Harrison, codirecteur du Centre for Medical Informatics de l’University of Edinburgh, a estimé que cette étude est importante et que ces systèmes ne se limitent plus à réussir des examens de médecine ou à résoudre des cas de test artificiels
- Selon Harrison, l’IA commence à ressembler à un outil de second avis utile pour les cliniciens, surtout lorsqu’il faut envisager un éventail plus large de diagnostics possibles et éviter de passer à côté d’éléments importants
- Le Dr Wei Xing, de l’École des sciences mathématiques et physiques de l’University of Sheffield, estime que certains autres résultats suggèrent que les médecins peuvent suivre inconsciemment les réponses de l’IA au lieu de réfléchir de manière indépendante
- Selon Xing, cette tendance pourrait se renforcer à mesure que l’IA sera utilisée plus couramment en contexte clinique
- Xing a aussi souligné le manque d’informations sur les types de patients pour lesquels l’IA a moins bien diagnostiqué, notamment si elle rencontre plus de difficultés avec les patients âgés ou ceux dont l’anglais n’est pas la langue maternelle
- Xing a déclaré que cette étude ne démontre pas que l’IA est sûre pour un usage clinique quotidien, ni que des outils d’IA librement accessibles au grand public doivent être utilisés comme substitut aux conseils médicaux
1 commentaires
Réactions sur Hacker News
Il faut être très prudent avant d’accorder sa confiance à ce genre d’étude, parce qu’il est beaucoup trop facile de casser un benchmark
Par exemple, dans un article récent, une IA a battu des radiologues en lecture de radios, alors qu’en réalité l’IA n’avait même pas accès aux radiographies : https://arxiv.org/pdf/2603.21687
C’était un benchmark existant de « compréhension générale des radiographies thoraciques via questions-réponses visuelles à grande échelle », et il n’avait même pas été saboté exprès
En plus, pour interpréter une radio, un radiologue humain regarde réellement la radio. Or, dans le contexte de cet article, un médecin humain ne diagnostique pas un patient aux urgences en se basant uniquement sur des notes
On leur fait exécuter une tâche dont ils n’ont ni besoin, ni l’habitude, ni la formation, puis on dit « l’IA fait mieux » ; même si les notes n’avaient pas laissé fuiter la réponse par une voie bizarre, ce ne serait pas si surprenant
Ça ne veut pas dire que cette étude est forcément fausse ou intentionnellement trompeuse, mais je ne tirerais pas de conclusions fortes à partir d’une seule étude
Au fond, la médecine est une question de connaissances, d’expérience, d’intelligence, et peut-être de reconnaissance de motifs ; dans tous ces domaines, il faut s’attendre à ce que les meilleurs modèles d’IA, surtout ceux spécialisés en médecine, dépassent largement la plupart des humains, donc les médecins
Si on fait déjà cette hypothèse pour les ingénieurs logiciel, il faut l’appliquer aussi ici ; et concrètement, ces derniers mois, à chaque fois que j’ai vu des médecins, y compris deux passages aux urgences, ils utilisaient tous ChatGPT. Sans plaisanter, ça m’a choqué
Donc je me pose sincèrement la question : en laissant de côté la responsabilité et l’éthique, si on parle purement de performance, quelle est la capacité précise ou la combinaison de capacités qui vous fait croire qu’une IA médicale de haut niveau ne rattrapera pas ou ne dépassera pas durablement, ou au moins pendant des décennies, un excellent médecin humain ?
Ici, il se trompait sur le triage de gravité aux urgences environ une fois sur deux
Les chiffres du titre citent des résultats obtenus à partir d’un diagnostic estimatif fondé uniquement sur les notes infirmières. J’imagine que, sur ces cas d’étude sélectionnés, le grand modèle de langage avait davantage tendance que les médecins à formuler des hypothèses sans retenue
C’est une conclusion très raisonnable, mais elle écarte une autre possibilité : et si les radiographies rendaient les résultats moins précis ?
J’ai été surpris de voir à quel point l’article et l’étude semblent exagérés. On fait ici rivaliser des médecins avec un grand modèle de langage dans des conditions très favorables à ce dernier, et cela ne représente pas la pratique clinique
Ce genre de cas de raisonnement relève d’un outil pédagogique, pas d’un benchmark pour médecins
Le diagnostic dépend d’abord d’une description correcte du patient, et les informations collectées varient selon le diagnostic différentiel envisagé
L’une des compétences du médecin consiste à rassembler des informations depuis plusieurs sources et à filtrer ce qui compte. Le patient peut ne pas s’exprimer clairement ou être non verbal, et il faut parfois interroger un aidant ou la famille
Le recueil de l’anamnèse est une compétence en soi, tout comme l’examen physique, alors qu’ici ces données sont déjà fournies
Surtout pour des questions dont les formulations ont pu entrer dans les données d’entraînement de o1, il n’est pas du tout étonnant qu’il surpasse les médecins en simple reconnaissance de motifs textuels, mais ça ne me paraît pas être une comparaison cliniquement utile
Décider quels examens prescrire, s’il faut faire de l’imagerie, ou éliminer les informations non pertinentes de l’histoire clinique, ce sont aussi des compétences distinctes, difficiles à séparer de la construction du diagnostic
Dans certains cas, choisir X est peut-être statistiquement optimal, mais l’écart peut être faible, et l’option la plus sûre consiste plutôt à exclure d’abord une autre possibilité ou à commencer un traitement prudent qui couvre plusieurs hypothèses
Dans cette évaluation, simplement « obtenir un bon score » ne correspond pas forcément à une bonne pratique médicale
Je n’accorderais pas un poids énorme à cette étude, mais je pense quand même que beaucoup peuvent reconnaître que les grands modèles de langage pour l’autodiagnostic ont une certaine utilité
Aux États-Unis, il est difficile d’obtenir l’attention et les soins d’un médecin, donc dans les faits on se retrouve à devoir se débrouiller soi-même
Il y a dix ans, les médecins se plaignaient que les patients arrivent avec des résultats trouvés sur Google, mais aujourd’hui j’ai l’impression qu’il n’y a pas d’alternative
Par exemple, je suis allé voir un spécialiste du pied pour un problème au pied et à la cheville ; le problème au pied a été diagnostiqué à la radio, mais pour la cheville il a juste haussé les épaules en disant qu’on ne voyait rien à la radiographie
Les 15 minutes allouées étaient écoulées, et je suis reparti sans connaître la cause ni ce qu’il fallait corriger. Cinq minutes de questions à un grand modèle de langage m’ont donné une cause plausible de mon problème de cheville, compatible aussi avec le diagnostic du pied
Si les entreprises de santé choisissent d’utiliser l’IA pour voir plus de patients par jour plutôt que pour améliorer les soins, la situation risque même d’empirer
Le fait de « faire lire le même dossier médical électronique standard à une IA et à deux médecins humains » impose des conditions qui brident les capacités des médecins humains
Un médecin humain peut obtenir bien plus d’informations rien qu’en observant brièvement le patient
https://entropicthoughts.com/arithmetic-models-better-than-y...
Il serait bien que l’IA passe les dossiers en revue et propose des diagnostics possibles, puis que le médecin examine le patient et les évalue
Et puis les maladies courantes sont effectivement courantes. Je me demande aussi à quel point cela biaise à la fois les médecins et les grands modèles de langage
Si quelqu’un vient avec le nez qui coule et de la toux, le diagnostiquer comme une grippe a de fortes chances d’être correct la plupart du temps
Les médecins et les infirmières apprécient de ne plus avoir à taper eux-mêmes, mais la relecture correcte des erreurs de transcription, pourtant assez fréquentes, est totalement chaotique dans les dossiers
Maintenant, il suffit d’injecter une transcription défectueuse dans un système de diagnostic par IA. L’IA la prendra comme parole d’évangile, alors qu’un médecin peut s’arrêter et se dire : « Attendez, qu’est-ce que c’est que ça ? »
Ma femme et moi avons utilisé des grands modèles de langage pour nous diagnostiquer, mais aussi pour nos chiens
Je suis convaincu qu’il y a une grande opportunité dans la médecine vétérinaire basée sur l’IA. Ce serait particulièrement utile si cela permettait ensuite de lancer des appels d’offres entre cliniques vétérinaires locales pour les consultations ou les opérations
Les tarifs vétérinaires locaux peuvent varier d’un facteur supérieur à 10. Ma mère de 80 ans et ma belle-mère se sont souvent fait surfacturer par des vétérinaires, et comme leur chien occupe une grande place dans leur vie, elles sont très vulnérables à la pression
Je ne comprends pas les réactions négatives ici. Le simple fait qu’on puisse atteindre ne serait-ce qu’environ 30 % avec un ordinateur est déjà impressionnant
L’hostilité envers l’IA, envers OpenAI ou d’autres labos de pointe, ou envers Google et ses filiales, me paraît excessive et déraisonnable
À mon avis, le point clé est que l’IA a reçu des notes de cas patient, mais n’a pas vu le patient directement
Ce n’est pas ainsi qu’on forme les médecins, et cela limite inutilement ce qu’ils peuvent faire. Une grande partie de la valeur qu’apporte un médecin vient de la conversation avec le patient
Le titre donne l’impression que l’IA va remplacer les médecins, alors qu’en réalité on est plus proche de « l’IA peut faire mieux que les médecins sur cette tâche étroite »
Les notes utilisées ont peut-être d’ailleurs été rédigées par des médecins dès le départ
Le véritable gain serait que la combinaison médecin + IA fasse mieux que le médecin seul. Si un médecin doit lire des notes de cas et rendre une conclusion, il peut désormais profiter d’une suggestion d’IA plutôt correcte
Plus l’enjeu est important, plus nous devrions en général être plus critiques, pas moins
Le scepticisme est un outil incroyablement utile, même quand il est excessif
À 60 ans, j’ai moi-même créé un outil d’assistance médicale par IA [1] et je l’ai largement utilisé sur divers symptômes, avec une grande satisfaction
Après analyse de certains résultats d’examens, il m’a même recommandé des indicateurs que le médecin n’avait pas envisagés au départ
Cela ne remplacera pas un médecin, mais c’est un outil très utile pour l’autodiagnostic de symptômes simples et pour obtenir un deuxième avis
[1] https://mediconsulta.net (DeepSeek)
Je me demande si ces 33 % sont un sous-ensemble des 50~45 %
Si ce n’est pas un sous-ensemble, quelle était la gravité de l’erreur ? Y a-t-il eu davantage de décès ? Une récupération plus longue ? À quoi cette différence se traduisait-elle concrètement ?
L’article : https://www.science.org/doi/10.1126/science.adz4433 (30 avril 2026)
Quelle ampleur réelle représente l’écart entre 67 % et 55 % ? L’étude portait-elle sur les mêmes patients côté médecins et côté IA ?
Si on n’a pas comparé côte à côte comment chaque camp a évalué chaque situation et pourquoi ils sont arrivés à des conclusions différentes, je ne vois pas bien à quel point cela peut être scientifiquement utile
Qui peut garantir que, dans les 43 % restants, les médecins ne détectent pas des angles morts que l’IA manque ?
Un outil sert à combiner les efforts, pas à remplacer
Balancer ce genre de pourcentages au grand public est assez irresponsable