- Après une IRM pour une douleur à l’épaule droite, le diagnostic hospitalier de déchirure partielle de grade III et la mise en place très rapide d’un traitement ont suscité des doutes, ce qui a conduit à retenter une lecture des images avec Opus 4.8
- L’hôpital voyait une déchirure partielle sur plus de 50 % de la largeur au niveau de l’« apical insertion » du tendon du subscapulaire, alors qu’Opus 4.8 a jugé le tendon intact, d’où une divergence majeure des conclusions
- GPT 5.5 Pro a remis en cause les fondements de deux traitements proposés par l’hôpital, à savoir la thérapie par ondes de choc et l’injection de Traumeel, ce qui a renforcé la motivation à examiner directement le diagnostic lui-même
- Dans l’environnement Claude Code, Opus 4.8 a analysé plusieurs centaines de fichiers DICOM MRI totalisant environ 266 MB, via l’installation de paquets et l’exécution de code, puis a refait une analyse d’arbitrage en intégrant aussi le compte rendu humain et une conversation avec ChatGPT
- Le résultat final de l’arbitrage penchait plutôt vers une « tendinopathie légère de l’insertion, sans déchirure partielle ni transfixiante évidente », mais l’incertitude sur le fait de faire confiance à des professionnels de santé ou à l’IA demeure
Diagnostic IRM et traitement menés à vive allure
- Une douleur à l’épaule droite persistait depuis plusieurs semaines ; même si les symptômes semblaient s’améliorer, un avis d’un chirurgien orthopédiste a été demandé
- Le médecin a recommandé une IRM, réalisable immédiatement à la clinique, et l’examen a donc été effectué
- Le résultat de l’IRM a conduit au diagnostic d’une Grade III (>50%-width) partial-thickness tear au niveau de l’« apical insertion » du tendon du subscapulaire
- L’hôpital a commencé le traitement quelques minutes seulement après l’IRM et a également planifié un total de 3 séances du même traitement
- Comme le processus paraissait aller beaucoup trop vite, une copie des résultats de l’IRM ainsi que la liste des traitements effectués et proposés ont été demandées en quittant l’établissement
Les problèmes de justification du traitement relevés par GPT 5.5 Pro
- Après avoir transmis les résultats de l’IRM et la liste des traitements à GPT 5.5 Pro, deux points sont immédiatement apparus
- L’hôpital a pratiqué une thérapie par ondes de choc sur l’épaule, alors que de récentes recommandations cliniques indiquent de ne pas utiliser ni recommander ce traitement pour une tendinopathie de la coiffe des rotateurs non calcifiante
- Lors de l’échographie, il avait été indiqué qu’il n’y avait pas de calcification
- L’hôpital a injecté du Traumeel, un médicament homéopathique enregistré en Allemagne comme n’ayant « aucune indication thérapeutique »
- Cela a encore réduit la confiance accordée au diagnostic et au traitement de l’hôpital, et a donné envie d’analyser directement l’IRM
Analyse de l’IRM avec Opus 4.8 dans Claude Code
- Le paquet IRM était un export DICOM standard composé de plusieurs centaines de fichiers sans extension, pour une taille totale d’environ 266MB
- L’analyse a été réalisée avec Opus 4.8 (xhigh) dans Claude Code
- Claude Code a été choisi pour permettre l’exécution de code et l’installation de paquets
- Il lui a été demandé d’installer à l’avance les paquets nécessaires à l’analyse
- Même avec le même modèle, la différence entre Claude Code et le chat Claude.ai est jugée très importante
- Faute de connaissances sur l’IRM, il a été demandé à Claude d’établir d’abord un plan détaillé avant de l’exécuter
- Le seul contexte médical fourni au départ était « douleur à l’épaule droite depuis 2 à 3 semaines », ce qui, selon l’auteur, était moins d’informations que ce qu’avait reçu le médecin humain
Une première analyse en total désaccord sur l’existence d’une déchirure
- Environ 1 heure plus tard, Opus 4.8 a renvoyé son rapport
- La lecture de l’hôpital et celle d’Opus 4.8 étaient presque diamétralement opposées
- L’hôpital voyait une déchirure partielle de grade III au niveau de l’apical insertion du tendon du subscapulaire
- Opus 4.8 a estimé qu’il s’agissait d’un intact tendon
- L’écart attendu portait plutôt sur le grade de la déchirure, mais en réalité le désaccord concernait l’existence même d’une déchirure
Nouvelle médiation entre lecture humaine et lecture IA
- Pour concilier les deux résultats, une nouvelle analyse comparative a été confiée à Opus 4.8
- Cette fois, en plus du compte rendu IRM humain, une conversation avec ChatGPT 5.5 Pro a aussi été fournie
- Cette conversation incluait des mouvements et postures à essayer pour mieux cerner le diagnostic
- Opus a abordé le sujet en utilisant plusieurs subagents afin d’obtenir une nouvelle analyse moins biaisée par le contexte existant
- Environ 1 heure plus tard à nouveau, un nouveau rapport est arrivé
- La conclusion d’arbitrage estimait que les éléments en faveur du Reader A étaient supérieurs, avec une synthèse en « moderate-to-high confidence »
- Tendinopathie légère de l’insertion
- Pas de déchirure partielle ni transfixiante évidente, y compris au niveau de l’apical insertion
- Certains points de désaccord entre les deux rapports étaient jugés impossibles à trancher, mais sur cet élément précis, la conclusion était relativement ferme
- Tendinopathie légère de l’insertion
Les choix qui restent après ce deuxième avis par IA
- Il y a une forme de réassurance à s’en remettre à un expert de confiance, mais un deuxième avis fondé sur l’IA peut bousculer ce sentiment de manière inconfortable
- Après l’analyse IA, le diagnostic initial et le plan de traitement ont semblé plus précipités et plus interventionnistes que ne le justifiaient les faits, mais l’IA elle-même reste difficile à considérer comme totalement fiable
- Les options restantes sont de consulter un autre médecin, ou d’attendre de voir si l’épaule s’améliore avec la rééducation en cours
- L’espoir est que, dans quelques générations de modèles, on puisse faire confiance à la relecture d’une IRM par IA comme on fait confiance aujourd’hui à une correction d’e-mail
- Le nom de la clinique et du médecin n’est pas divulgué, et cette expérience ne constitue pas un conseil médical, mais un cas de curiosité technique autour de l’obtention d’un deuxième avis via l’IA
1 commentaires
Commentaires sur Hacker News
Je suis radiologue, mais il est difficile de se prononcer sans voir l’ensemble du jeu de données IRM 3D. L’échographie n’est pas une bonne méthode pour évaluer les calcifications : elle repère les grosses, mais peut facilement passer à côté des petites.
Une radiographie simple serait plus utile, et cela aurait aussi pu être visible à l’IRM. Quoi qu’il en soit, en l’absence de calcification, le traitement par ondes de choc n’est pas nocif ; il ne sert simplement à rien.
En interprétation radiologique, quand on écrit « absent », il y a toujours implicitement la précision « absent dans les limites de la modalité d’imagerie utilisée et du champ des images acquises ». Donc il n’est pas contradictoire qu’un compte rendu d’échographie dise qu’il n’y a pas de calcification et qu’un compte rendu de radiographie simple dise qu’il y en a.
Pour un patient, ou pour quelqu’un qui n’est pas familier du vocabulaire médical, c’est évidemment déroutant, mais si les comptes rendus explicitaient tout cela, ils deviendraient des documents encore plus conditionnels et pénibles à lire qu’aujourd’hui.
Cela me rappelle l’anecdote où l’on aurait demandé à Babbage si, en introduisant une question erronée dans une machine à calculer, on obtenait une bonne réponse. Il aurait répondu en substance : « Je ne parviens absolument pas à concevoir la logique de l’esprit qui peut formuler une telle question. »
Une IA devrait au moins signaler que le calcium se voit mieux à la radiographie/au scanner qu’à l’échographie.
Pour les personnes intéressées, nous proposons un service de deuxième avis réalisé par des radiologues humains certifiés : https://expert.med
C’est vraiment là le point essentiel. Je sais qu’on ne peut pas faire confiance à l’IA, mais en même temps il est beaucoup plus facile de lui demander davantage d’explications ou de la contredire. Il n’y a ni créneau de rendez-vous ni coût horaire, et c’est important. Mais avoir plus d’informations n’aide pas forcément.
J’ai déjà emmené une Civic de 11 ans et 150 000 miles dans plusieurs garages pour jouer au jeu du « deuxième avis ». J’essayais de comparer les recommandations de chaque garage pour décider quoi faire.
Le résultat a été trois recommandations sans aucun rapport entre elles, dont une que je savais avec certitude être fausse. Je me suis senti encore plus mal qu’avant de commencer.
La solution à une information incertaine n’est pas plus d’information, ce que l’IA peut fournir, mais une meilleure information ; or, pour l’instant, l’IA ne fournit pas cela.
Voir le nombre de réponses différentes et contradictoires qui en sortent est assez révélateur. La plupart sont présentées avec assurance.
La dernière fois que j’ai soumis une question médicale à Claude, je n’ai même pas obtenu de réponse cohérente d’une session à l’autre.
Le plus inquiétant, c’est la facilité avec laquelle on peut orienter chaque LLM vers la réponse que l’on a en tête. Dès que je commence à l’interroger sur les options proposées par un autre LLM, chaque session finit par dériver vers cette explication.
Un mystère, c’est pire. Chaque nouvelle pièce de données ajoutée éloigne davantage le but. Tout devient de plus en plus confus.
C’est une distinction popularisée par Malcolm Gladwell.
Je sais que demander des avis à des mécaniciens prend du temps. Mais avec l’IA, ce n’est pas le cas.
Il y a quelques années, avant la vague de l’IA, j’ai reçu un diagnostic erroné de tuberculose. J’avais une toux chronique, et un radiologue externalisé par une clinique a repéré des signes de tuberculose. Le résultat a été transmis, comme la loi l’exige, à l’hôpital municipal spécialisé dans la tuberculose, où les médecins ont repris telle quelle la conclusion du radiologue et m’ont dit de rester au moins huit mois dans un hôpital au régime strict, presque carcéral
Il n’y avait aucun moyen de refuser. J’étais considéré comme une sorte de risque biologique, et j’étais légalement tenu d’obéir
Avant l’hospitalisation, j’ai cherché en urgence un autre radiologue, qui a diagnostiqué une pneumonie. J’ai envoyé son rapport au médecin responsable de l’hôpital antituberculeux ; après examen, il a conclu que la première interprétation était erronée. Il s’est avéré que les médecins de cet hôpital ne savaient pas du tout lire les images et faisaient simplement confiance à ce que disait le radiologue
Le plus drôle, c’est qu’ils m’avaient déjà inscrit au registre officiel de la tuberculose et ne voulaient pas reconnaître leur erreur. À la place, ils m’ont délivré un autre document affirmant que « la tuberculose avait été guérie en 7 jours dans cet hôpital ». Je suis probablement la seule personne de ce pays à avoir vaincu la tuberculose en une semaine
Si vous avez du mal à faire confiance à un radiologue ou à un médecin, il vaut mieux consulter un autre médecin quand vous pouvez en assumer le coût. Vous pouvez comparer les conclusions et voir si elles concordent. Si deux médecins ou radiologues sans lien entre eux disent la même chose, il y a de bonnes chances que ce soit assez proche de la vérité
Cela dit, je ne sais pas trop à qui il faudrait faire davantage confiance, entre l’IA et les humains. L’IA hallucine, mais moi aussi j’ai reçu plusieurs mauvais diagnostics de la part d’humains
J’ai l’impression qu’il faudrait un lieu centralisé où les images seraient examinées par des experts de tout premier plan, plutôt que de laisser chaque médecin les interpréter seul
Je trouve amusant de voir ici des gens s’attendre à ce que le corps humain se comporte comme une fonction déterministe, où une entrée X devrait produire une sortie Y. Cette attente se prolonge dans le diagnostic : pour un même problème, on imagine obtenir le même diagnostic de la part de plusieurs spécialistes
Vu la complexité du corps humain, un diagnostic est le résultat de l’expérience accumulée au cours d’une carrière, des connaissances, des méthodes de diagnostic et du matériel disponibles. Un titre comme « médecin » signifie que l’État certifie que la personne a réussi des examens et peut exercer sans danger, mais pas que tout le monde soigne de la même manière
Certains spécialistes mettent leurs connaissances à jour tous les mois, d’autres tous les ans, et d’autres jamais. Il y a trop de variables : la région, la politique, voire la météo
C’est pourquoi le choix du spécialiste est vraiment important. Il faut se renseigner sur sa réputation, sa façon de pratiquer et son domaine d’expertise. On peut seulement maximiser ses chances d’obtenir le bon diagnostic ; il ne faut pas s’attendre à ce que quelqu’un ait raison simplement parce qu’on l’appelle médecin
J’ai vu beaucoup d’amis et de membres de ma famille se faire recommander une opération presque immédiatement pour des douleurs à l’épaule. Pour les personnes dont le métier est d’opérer, la chirurgie devient souvent l’option par défaut
Moi aussi, j’ai eu à une époque une douleur assez importante à l’épaule, qui n’est pas passée pendant des mois. Je ne voulais pas me faire opérer, alors j’ai essayé les massages et l’acupuncture, mais ça n’a absolument pas aidé
Ce qui m’a tiré d’affaire, c’est de vraiment me concentrer sur les tractions. Au début, je n’arrivais pas à en faire une seule, donc j’ai commencé par des suspensions et des tractions scapulaires, puis je suis progressivement passé aux tractions classiques. Une fois que j’ai pu en faire quelques-unes par série, je me suis entraîné avec la méthode « grease-the-groove »
Quand je suis arrivé à environ 17 répétitions par série, j’ai arrêté le programme d’entraînement structuré ; aujourd’hui, je fais 6 séries de 7 à 8 répétitions, réparties dans la journée, 3 fois par semaine. Je fais aussi des exercices de mobilité de l’épaule https://www.youtube.com/watch?v=vP8YmmRMz6I
Si je deviens paresseux et que je saute les séances, la gêne revient immanquablement, mais elle disparaît quand je reprends les exercices de renforcement
Quand un patient vient chercher une solution rapide, on dirait qu’on lui propose ce genre de solution. Quand il se renseigne un peu puis cherche la meilleure solution pour lui, en général, c’est ce qu’il obtient
Il y a environ deux ans, j’ai utilisé le « deep research » de ChatGPT pour enquêter sur une sinusite chronique contre laquelle je me battais depuis presque trois ans. Après avoir vu trois généralistes et consulté trois fois un ORL, j’ai entré dans l’IA toutes les observations dont je disposais.
En particulier, l’ORL avait examiné mes sinus à l’endoscope et vu des signes de réaction allergique, mais plus tard, après un test d’allergie, il n’a pas su m’expliquer pourquoi il concluait que cela ne pouvait pas être traité avec des médicaments contre les allergies. Je lui ai posé la question plusieurs fois, mais il n’a pas répondu.
ChatGPT a trouvé une étude du NIH indiquant que 20 % des personnes présentent une réaction allergique limitée à une zone précise du corps, qui peut ne pas apparaître lors d’un prick-test cutané sur l’épaule. Quand je lui en ai parlé, il s’est contenté de répondre : « les allergies ne fonctionnent pas comme ça ». Fin de l’histoire. Il n’a même pas envisagé de lire l’étude.
Il m’a prescrit une CPAP et des traitements réguliers par nébuliseur. À côté de ça, le fournisseur de CPAP m’a envoyé un SMS, mais je n’arrivais pas à savoir si ce n’était pas du phishing ; j’ai demandé qui ils étaient, sans réponse.
J’ai donc simplement décidé d’essayer de prendre chaque jour un antihistaminique de deuxième génération.
La sinusite a disparu. Avant, j’avais une grosse sinusite au moins une fois par trimestre. Peut-être que, comme le disait ce médecin, les allergies ne fonctionnent pas de cette façon, mais les médicaments contre les allergies ont complètement résolu mon problème.
J’en suis reconnaissant, parce que quelques années plus tôt j’avais vraiment essayé la CPAP pendant un mois, mais je n’ai jamais réussi à m’y habituer et mon sommeil était catastrophique.
Ensuite viennent la responsabilité et le temps. Surtout dans un domaine à forts enjeux comme la médecine, quand on demande à quelqu’un de réexaminer une décision, personne n’a le temps ni l’envie d’ouvrir cette boîte de Pandore.
Si vous voulez vraiment réussir, il faut proposer les tests suggérés par la recherche avant que la boucle diagnostique ne se referme, avant que les médecins n’aient figé leur représentation de votre cas. C’est là que vous avez le plus de chances qu’ils voient ce qu’il faut voir.
Mieux vaut être honnête et dire que vous arrivez avec une hypothèse. Les médecins remarquent très vite quand ils sont orientés, mais ils remarquent plus tard qu’un patient avait effectivement raison. Dans un système où des gens surchargés font de leur mieux, c’est comme ça qu’il faut avancer.
En tant que radiologue, j’ai trouvé Claude et ChatGPT vraiment très mauvais pour l’interprétation d’IRM, et je ne leur ferais absolument pas confiance. Ils ont des atouts pour explorer des documents textuels, mais ils n’interprètent pas encore assez bien l’imagerie radiologique.
Actuellement, le logiciel MR de Siemens Deep Resolve génère du signal (environ 50 % de plus), puis génère un pixel sur deux, et dans les séquences 3D, une coupe sur deux. Il réduit d’environ 59 % la durée de chaque séquence, et il est vraiment excellent.
Je suis manipulateur en IRM.
En fait, je serais curieux de connaître l’ELO de ChatGPT 5.5. Grâce au contenu qu’il a absorbé, je ne serais pas très surpris qu’il dépasse 2000 rien qu’avec une compréhension de base des principes des échecs.
Je ne comprends pas les réactions négatives. La médecine actuelle ne fonctionne que si le médecin et le patient réfléchissent tous les deux. Il y a eu très peu de cas où un médecin a simplement posé un diagnostic et où j’ai pu continuer ma journée. Quand c’est arrivé, en général, j’étais déjà sûr du problème et je savais ce qu’il me fallait. Le médecin était alors l’obstacle qui bloquait l’accès au traitement.
Dr. GPT est un bon outil de brainstorming. Il synthétise l’information d’une façon difficile à obtenir avec les sources brutes seules. Mais il faut aussi le forcer à dire : « ça n’a pas de sens ».
Je trouve peu solide l’argument selon lequel « les médecins ne connaissent pas les connaissances les plus récentes ». Vu la densité de tokens pendant le préentraînement et la manière dont les jeux de données de post-entraînement sont constitués, il faudra très longtemps pour s’adapter à des changements fondamentaux. Si nous avions oublié le traitement du scorbut, combien d’articles faudrait-il pour s’adapter à la redécouverte ?
Pour les images, je ne ferais pas confiance à l’IA. Mais une fois, ChatGPT, en se basant uniquement sur le texte d’un compte rendu d’IRM, m’a dit que le rapport était très probablement faux et a proposé un autre diagnostic. Il insistait assez fortement, alors je suis allé voir un autre médecin et j’ai repassé des examens. Pour faire court, ChatGPT avait raison.
Encore une fois, ce n’est qu’une expérience individuelle, donc ça ne prouve pas grand-chose.
Je ne comprends pas pourquoi les médecins ne soumettent même pas un prompt à un LLM avant d’affirmer quelque chose de faux. Par orgueil ?
Je comprends que la radiologie nécessite des réseaux de neurones convolutionnels spécialisés, mais pour les problèmes plus proches d’une base de connaissances, c’est encore plus vrai.
Je pense qu’on va voir apparaître beaucoup de VLM spécialisés qui apportent une vraie valeur.
Ces jouets ne sont absolument pas fiables. Ça ne veut pas dire qu’ils sont inutiles, mais on ne peut pas leur faire confiance.