OpenAI o1 a diagnostiqué correctement 67 % des patients aux urgences, contre 50 à 55 % pour les médecins de triage

(theguardian.com)

1 points par GN⁺ 2 시간 전 | 1 commentaires | Partager sur WhatsApp

Dans une étude de Harvard, le modèle de raisonnement o1 d’OpenAI a montré une précision supérieure à celle de médecins humains pour les diagnostics initiaux de triage aux urgences, et les LLM ont été jugés comme dépassant la plupart des benchmarks de raisonnement clinique
Lors d’une expérience où il lisait les dossiers médicaux électroniques standard de 76 patients arrivés aux urgences d’un hôpital de Boston, o1 a produit un diagnostic exact ou très proche dans 67 % des cas, contre 50 à 55 % pour deux médecins humains
Avec davantage de détails, la précision de l’IA est montée à 82 %, contre 70 à 79 % pour les experts humains, mais l’écart n’était pas statistiquement significatif
L’IA a aussi surpassé 46 médecins sur des tâches de planification de traitements à long terme, comme les protocoles antibiotiques ou la planification de fin de vie ; sur cinq cas cliniques, elle a obtenu 89 %, contre 34 % pour des médecins s’appuyant sur des ressources existantes
L’étude ne comparait que des données patients transmissibles par texte et ne testait pas les signaux non verbaux ; sa principale limite est donc qu’elle se rapproche davantage d’un rôle de second avis fondé sur les dossiers que d’un remplacement réel des médecins

Principaux résultats de l’essai de triage aux urgences mené par Harvard

Dans cette étude de Harvard, un système d’IA a obtenu de meilleurs résultats que des médecins humains en précision diagnostique dans des situations de triage en médecine d’urgence
Les résultats publiés dans Science proviennent d’une expérience comparant les réponses de centaines de médecins à celles de l’IA, et des experts indépendants ont estimé qu’ils montraient un « véritable progrès » du raisonnement clinique de l’IA
Les grands modèles de langage (LLM) ont été jugés comme ayant « dépassé la plupart des benchmarks de raisonnement clinique »
L’avantage de l’IA ressort particulièrement dans les situations de triage initial aux urgences, où les informations sont limitées et où il faut juger rapidement

Expérience de diagnostic sur 76 patients aux urgences

L’expérience a porté sur 76 patients arrivés aux urgences d’un hôpital de Boston, pour lesquels l’IA et deux médecins humains ont posé un diagnostic à partir des mêmes dossiers médicaux électroniques standard
Ces dossiers comportaient généralement les signes vitaux, des informations démographiques et quelques phrases rédigées par une infirmière expliquant la raison de la venue du patient à l’hôpital
Le modèle de raisonnement o1 d’OpenAI a trouvé un diagnostic exact ou très proche dans 67 % des cas, tandis que les médecins humains ont affiché une précision de 50 à 55 %
Avec davantage de détails fournis, la précision diagnostique de l’IA est montée à 82 %, tandis que les experts humains ont obtenu 70 à 79 %, sans différence statistiquement significative

Expérience sur la planification de traitements à long terme

L’IA a également surpassé un groupe plus large de médecins sur des tâches consistant à établir des plans de traitement à long terme, comme proposer un protocole antibiotique ou planifier une prise en charge de fin de vie
L’IA et 46 médecins ont examiné cinq études de cas cliniques, et l’IA a élaboré des plans significativement meilleurs que ceux des médecins humains utilisant des ressources existantes
Les scores étaient de 89 % pour l’IA, contre 34 % pour les médecins humains utilisant des ressources existantes comme des moteurs de recherche

Limites de l’étude et évolution du rôle de l’IA en médecine

Cette étude comparait l’humain et l’IA uniquement à partir de données patients transmissibles par texte
La capacité de l’IA à interpréter des signaux non verbaux, comme le niveau de souffrance du patient ou son apparence visuelle, n’a pas été testée
L’IA se comporte donc davantage comme un clinicien fournissant un second avis à partir des dossiers que comme un véritable remplaçant des médecins des urgences
Arjun Manrai, qui dirige le laboratoire d’IA de la Harvard Medical School, a déclaré que ces résultats ne signifient pas que l’IA remplace les médecins, mais qu’ils indiquent qu’un « changement technologique très profond » est en train de remodeler la médecine
Adam Rodman, médecin au Beth Israel Deaconess medical centre de Boston où l’étude a été menée, considère les LLM d’IA comme « l’une des technologies les plus influentes depuis des décennies »
Selon Rodman, au cours des dix prochaines années, l’IA ne remplacera pas les médecins mais s’intégrera à un nouveau modèle de soins tripartite réunissant médecins, patients et systèmes d’IA

Cas clinique et raisonnement de l’IA

Dans l’un des cas de l’étude de Harvard, un patient présentait une embolie pulmonaire et des symptômes qui s’aggravaient
Les médecins humains ont estimé que les anticoagulants échouaient, mais l’IA a repéré que les antécédents de lupus du patient pouvaient provoquer une inflammation pulmonaire
Le jugement de l’IA s’est révélé correct

L’usage de l’IA médicale se diffuse déjà

Selon une étude publiée le mois dernier, environ un médecin américain sur cinq utilise déjà l’IA pour l’aide au diagnostic
Au Royaume-Uni, 16 % des médecins utilisent l’IA tous les jours, et 15 % supplémentaires l’utilisent chaque semaine
D’après une enquête récente du Royal College of Physicians, l’un des usages fréquents chez les médecins britanniques concerne la prise de décision clinique
Les principales inquiétudes exprimées par les médecins britanniques portaient sur les erreurs de l’IA et les risques en matière de responsabilité
Des milliards de dollars sont investis dans les entreprises d’IA pour la santé, mais des questions demeurent sur les conséquences des erreurs de l’IA
Rodman a indiqué qu’il n’existe actuellement aucun cadre formel pour attribuer les responsabilités, et a souligné que les patients veulent en définitive qu’un humain les guide pour les décisions de vie ou de mort et les choix thérapeutiques difficiles

Évaluation d’experts externes et points de vigilance

Le professeur Ewen Harrison, codirecteur du Centre for Medical Informatics de l’University of Edinburgh, a estimé que cette étude est importante et que ces systèmes ne se limitent plus à réussir des examens de médecine ou à résoudre des cas de test artificiels
Selon Harrison, l’IA commence à ressembler à un outil de second avis utile pour les cliniciens, surtout lorsqu’il faut envisager un éventail plus large de diagnostics possibles et éviter de passer à côté d’éléments importants
Le Dr Wei Xing, de l’École des sciences mathématiques et physiques de l’University of Sheffield, estime que certains autres résultats suggèrent que les médecins peuvent suivre inconsciemment les réponses de l’IA au lieu de réfléchir de manière indépendante
Selon Xing, cette tendance pourrait se renforcer à mesure que l’IA sera utilisée plus couramment en contexte clinique
Xing a aussi souligné le manque d’informations sur les types de patients pour lesquels l’IA a moins bien diagnostiqué, notamment si elle rencontre plus de difficultés avec les patients âgés ou ceux dont l’anglais n’est pas la langue maternelle
Xing a déclaré que cette étude ne démontre pas que l’IA est sûre pour un usage clinique quotidien, ni que des outils d’IA librement accessibles au grand public doivent être utilisés comme substitut aux conseils médicaux

1 commentaires

GN⁺ 2 시간 전

Réactions sur Hacker News

Il faut être très prudent avant d’accorder sa confiance à ce genre d’étude, parce qu’il est beaucoup trop facile de casser un benchmark
Par exemple, dans un article récent, une IA a battu des radiologues en lecture de radios, alors qu’en réalité l’IA n’avait même pas accès aux radiographies : https://arxiv.org/pdf/2603.21687
C’était un benchmark existant de « compréhension générale des radiographies thoraciques via questions-réponses visuelles à grande échelle », et il n’avait même pas été saboté exprès
En plus, pour interpréter une radio, un radiologue humain regarde réellement la radio. Or, dans le contexte de cet article, un médecin humain ne diagnostique pas un patient aux urgences en se basant uniquement sur des notes
On leur fait exécuter une tâche dont ils n’ont ni besoin, ni l’habitude, ni la formation, puis on dit « l’IA fait mieux » ; même si les notes n’avaient pas laissé fuiter la réponse par une voie bizarre, ce ne serait pas si surprenant
Ça ne veut pas dire que cette étude est forcément fausse ou intentionnellement trompeuse, mais je ne tirerais pas de conclusions fortes à partir d’une seule étude
- Je suis d’accord pour cette étude précise, mais sur le long terme j’ai du mal à comprendre pourquoi on penserait que les médecins resteront meilleurs que des modèles d’IA
  Au fond, la médecine est une question de connaissances, d’expérience, d’intelligence, et peut-être de reconnaissance de motifs ; dans tous ces domaines, il faut s’attendre à ce que les meilleurs modèles d’IA, surtout ceux spécialisés en médecine, dépassent largement la plupart des humains, donc les médecins
  Si on fait déjà cette hypothèse pour les ingénieurs logiciel, il faut l’appliquer aussi ici ; et concrètement, ces derniers mois, à chaque fois que j’ai vu des médecins, y compris deux passages aux urgences, ils utilisaient tous ChatGPT. Sans plaisanter, ça m’a choqué
  Donc je me pose sincèrement la question : en laissant de côté la responsabilité et l’éthique, si on parle purement de performance, quelle est la capacité précise ou la combinaison de capacités qui vous fait croire qu’une IA médicale de haut niveau ne rattrapera pas ou ne dépassera pas durablement, ou au moins pendant des décennies, un excellent médecin humain ?
- Fait intéressant, une étude récente utilisant ChatGPT Health a obtenu des résultats assez différents : https://www.nature.com/articles/s41591-026-04297-7
  Ici, il se trompait sur le triage de gravité aux urgences environ une fois sur deux
- Si on lit l’article jusqu’au bout, l’écart disparaît au seuil de significativité statistique quand on fait lire l’intégralité du dossier du cas aux médecins comme au grand modèle de langage
  Les chiffres du titre citent des résultats obtenus à partir d’un diagnostic estimatif fondé uniquement sur les notes infirmières. J’imagine que, sur ces cas d’étude sélectionnés, le grand modèle de langage avait davantage tendance que les médecins à formuler des hypothèses sans retenue
- Il est plausible que les médecins ratent certaines choses à cause de biais cognitifs humains, et que les gens aient tendance à se fixer sur les schémas qui leur sont les plus familiers
- Je n’ai pas encore lu l’article lié en entier, mais je trouve intéressante l’hypothèse selon laquelle les résultats seraient illusoires si on ne lui donnait pas accès aux radios
  C’est une conclusion très raisonnable, mais elle écarte une autre possibilité : et si les radiographies rendaient les résultats moins précis ?
J’ai été surpris de voir à quel point l’article et l’étude semblent exagérés. On fait ici rivaliser des médecins avec un grand modèle de langage dans des conditions très favorables à ce dernier, et cela ne représente pas la pratique clinique
Ce genre de cas de raisonnement relève d’un outil pédagogique, pas d’un benchmark pour médecins
Le diagnostic dépend d’abord d’une description correcte du patient, et les informations collectées varient selon le diagnostic différentiel envisagé
L’une des compétences du médecin consiste à rassembler des informations depuis plusieurs sources et à filtrer ce qui compte. Le patient peut ne pas s’exprimer clairement ou être non verbal, et il faut parfois interroger un aidant ou la famille
Le recueil de l’anamnèse est une compétence en soi, tout comme l’examen physique, alors qu’ici ces données sont déjà fournies
Surtout pour des questions dont les formulations ont pu entrer dans les données d’entraînement de o1, il n’est pas du tout étonnant qu’il surpasse les médecins en simple reconnaissance de motifs textuels, mais ça ne me paraît pas être une comparaison cliniquement utile
Décider quels examens prescrire, s’il faut faire de l’imagerie, ou éliminer les informations non pertinentes de l’histoire clinique, ce sont aussi des compétences distinctes, difficiles à séparer de la construction du diagnostic
- Il faudrait aussi analyser les cas de mauvais diagnostic. Le but d’un médecin humain n’est pas d’obtenir la meilleure exactitude brute, mais de réduire le préjudice total pour le patient
  Dans certains cas, choisir X est peut-être statistiquement optimal, mais l’écart peut être faible, et l’option la plus sûre consiste plutôt à exclure d’abord une autre possibilité ou à commencer un traitement prudent qui couvre plusieurs hypothèses
  Dans cette évaluation, simplement « obtenir un bon score » ne correspond pas forcément à une bonne pratique médicale
Je n’accorderais pas un poids énorme à cette étude, mais je pense quand même que beaucoup peuvent reconnaître que les grands modèles de langage pour l’autodiagnostic ont une certaine utilité
Aux États-Unis, il est difficile d’obtenir l’attention et les soins d’un médecin, donc dans les faits on se retrouve à devoir se débrouiller soi-même
Il y a dix ans, les médecins se plaignaient que les patients arrivent avec des résultats trouvés sur Google, mais aujourd’hui j’ai l’impression qu’il n’y a pas d’alternative
Par exemple, je suis allé voir un spécialiste du pied pour un problème au pied et à la cheville ; le problème au pied a été diagnostiqué à la radio, mais pour la cheville il a juste haussé les épaules en disant qu’on ne voyait rien à la radiographie
Les 15 minutes allouées étaient écoulées, et je suis reparti sans connaître la cause ni ce qu’il fallait corriger. Cinq minutes de questions à un grand modèle de langage m’ont donné une cause plausible de mon problème de cheville, compatible aussi avec le diagnostic du pied
- Je ne pense pas que l’usage des grands modèles de langage en médecine soit une solution appropriée aux problèmes du système de santé américain
  Si les entreprises de santé choisissent d’utiliser l’IA pour voir plus de patients par jour plutôt que pour améliorer les soins, la situation risque même d’empirer
Le fait de « faire lire le même dossier médical électronique standard à une IA et à deux médecins humains » impose des conditions qui brident les capacités des médecins humains
Un médecin humain peut obtenir bien plus d’informations rien qu’en observant brièvement le patient
- On pourrait dire la même chose de l’IA, non ?
- À l’inverse, on entend aussi dire que « peu de choses sont aussi dangereuses que des experts ayant accès à des données ouvertes à toutes sortes d’interprétations, comme lors d’un entretien clinique »
  https://entropicthoughts.com/arithmetic-models-better-than-y...
- D’accord. À mon avis, le meilleur usage de cette technologie consiste à combiner les points forts des deux camps
  Il serait bien que l’IA passe les dossiers en revue et propose des diagnostics possibles, puis que le médecin examine le patient et les évalue
  Et puis les maladies courantes sont effectivement courantes. Je me demande aussi à quel point cela biaise à la fois les médecins et les grands modèles de langage
  Si quelqu’un vient avec le nez qui coule et de la toux, le diagnostiquer comme une grippe a de fortes chances d’être correct la plupart du temps
- Ça me semble être une observation très importante. En plus, il serait intéressant d’ajouter de courtes vidéos ou des photos pour que l’IA puisse aussi les exploiter
- Et en prime, les réseaux de soins poussent désormais les médecins à utiliser des logiciels de transcription IA pour remplir les dossiers médicaux électroniques
  Les médecins et les infirmières apprécient de ne plus avoir à taper eux-mêmes, mais la relecture correcte des erreurs de transcription, pourtant assez fréquentes, est totalement chaotique dans les dossiers
  Maintenant, il suffit d’injecter une transcription défectueuse dans un système de diagnostic par IA. L’IA la prendra comme parole d’évangile, alors qu’un médecin peut s’arrêter et se dire : « Attendez, qu’est-ce que c’est que ça ? »
Ma femme et moi avons utilisé des grands modèles de langage pour nous diagnostiquer, mais aussi pour nos chiens
Je suis convaincu qu’il y a une grande opportunité dans la médecine vétérinaire basée sur l’IA. Ce serait particulièrement utile si cela permettait ensuite de lancer des appels d’offres entre cliniques vétérinaires locales pour les consultations ou les opérations
Les tarifs vétérinaires locaux peuvent varier d’un facteur supérieur à 10. Ma mère de 80 ans et ma belle-mère se sont souvent fait surfacturer par des vétérinaires, et comme leur chien occupe une grande place dans leur vie, elles sont très vulnérables à la pression
Je ne comprends pas les réactions négatives ici. Le simple fait qu’on puisse atteindre ne serait-ce qu’environ 30 % avec un ordinateur est déjà impressionnant
L’hostilité envers l’IA, envers OpenAI ou d’autres labos de pointe, ou envers Google et ses filiales, me paraît excessive et déraisonnable
- C’est vrai qu’il y a beaucoup de négativité autour de l’IA. Mais cette étude a aussi de vraies limites
  À mon avis, le point clé est que l’IA a reçu des notes de cas patient, mais n’a pas vu le patient directement
  Ce n’est pas ainsi qu’on forme les médecins, et cela limite inutilement ce qu’ils peuvent faire. Une grande partie de la valeur qu’apporte un médecin vient de la conversation avec le patient
  Le titre donne l’impression que l’IA va remplacer les médecins, alors qu’en réalité on est plus proche de « l’IA peut faire mieux que les médecins sur cette tâche étroite »
  Les notes utilisées ont peut-être d’ailleurs été rédigées par des médecins dès le départ
  Le véritable gain serait que la combinaison médecin + IA fasse mieux que le médecin seul. Si un médecin doit lire des notes de cas et rendre une conclusion, il peut désormais profiter d’une suggestion d’IA plutôt correcte
- Je ne vois pas pourquoi tu ne comprendrais pas. Les commentaires critiques les plus soutenus expliquent généralement très bien leurs raisons, et elles ne sont pas particulièrement techniques
  Plus l’enjeu est important, plus nous devrions en général être plus critiques, pas moins
- On disait aussi ce genre de choses à propos d’Enron
  Le scepticisme est un outil incroyablement utile, même quand il est excessif
- Je suis honnêtement content de voir que des gens du milieu médical ressentent cette peur existentielle de voir l’IA leur prendre leur travail, eux qui occupent un emploi confortable et très bien payé, soutenu par un cartel, comme moi je la ressens déjà
À 60 ans, j’ai moi-même créé un outil d’assistance médicale par IA [1] et je l’ai largement utilisé sur divers symptômes, avec une grande satisfaction
Après analyse de certains résultats d’examens, il m’a même recommandé des indicateurs que le médecin n’avait pas envisagés au départ
Cela ne remplacera pas un médecin, mais c’est un outil très utile pour l’autodiagnostic de symptômes simples et pour obtenir un deuxième avis
[1] https://mediconsulta.net (DeepSeek)
Je me demande si ces 33 % sont un sous-ensemble des 50~45 %
Si ce n’est pas un sous-ensemble, quelle était la gravité de l’erreur ? Y a-t-il eu davantage de décès ? Une récupération plus longue ? À quoi cette différence se traduisait-elle concrètement ?
L’article : https://www.science.org/doi/10.1126/science.adz4433 (30 avril 2026)
Quelle ampleur réelle représente l’écart entre 67 % et 55 % ? L’étude portait-elle sur les mêmes patients côté médecins et côté IA ?
Si on n’a pas comparé côte à côte comment chaque camp a évalué chaque situation et pourquoi ils sont arrivés à des conclusions différentes, je ne vois pas bien à quel point cela peut être scientifiquement utile
Qui peut garantir que, dans les 43 % restants, les médecins ne détectent pas des angles morts que l’IA manque ?
Un outil sert à combiner les efforts, pas à remplacer
Balancer ce genre de pourcentages au grand public est assez irresponsable

OpenAI o1 a diagnostiqué correctement 67 % des patients aux urgences, contre 50 à 55 % pour les médecins de triage

Principaux résultats de l’essai de triage aux urgences mené par Harvard

Expérience de diagnostic sur 76 patients aux urgences

Expérience sur la planification de traitements à long terme

Limites de l’étude et évolution du rôle de l’IA en médecine

Cas clinique et raisonnement de l’IA

L’usage de l’IA médicale se diffuse déjà

Évaluation d’experts externes et points de vigilance

À lire aussi

1 commentaires

Réactions sur Hacker News