Les auditeurs de l’Ontario révèlent que les preneurs de notes médicaux par IA se trompent régulièrement sur des faits élémentaires
(theregister.com)- Parmi les 20 systèmes d’AI Scribe approuvés par l’Ontario pour les professionnels de santé, des omissions d’informations essentielles, l’insertion de fausses informations et la génération de contenus jamais prononcés ont été constatées
- L’évaluation du marché reposait sur la comparaison, par des experts médicaux, entre des enregistrements simulés médecin-patient et des notes cliniques générées par IA, et 9 systèmes ont même inventé des propositions de plans de traitement
- 12 systèmes ont ajouté des informations médicamenteuses erronées, et 17 systèmes ont manqué des détails essentiels de santé mentale concernant les patients mentionnés dans les enregistrements
- OntarioMD a recommandé aux médecins de relire manuellement les notes produites par l’IA, mais aucun des systèmes approuvés ne disposait d’une fonction obligatoire de confirmation d’exactitude
- Dans la grille d’évaluation, la présence d’une implantation locale pesait 30 %, contre 4 % pour l’exactitude des notes médicales, tandis que le contrôle des biais et l’évaluation des risques et de la confidentialité ne comptaient chacun que pour 2 %
Rapport d’audit et méthode d’évaluation
- Le rapport sur l’usage de l’IA dans les services publics publié par l’Office of the Auditor General of Ontario au Canada inclut l’évaluation du programme AI Scribe du ministère de la Santé de l’Ontario
- Ce programme porte sur l’achat d’outils de prise de notes par IA destinés aux médecins, infirmiers praticiens et autres professionnels de santé
- Dans le processus d’achat, des enregistrements simulés médecin-patient ont été utilisés, et des experts médicaux ont comparé les enregistrements originaux avec les notes cliniques générées par l’IA afin d’en juger l’exactitude
Erreurs constatées
- Sur les 20 systèmes, 9 ont inventé des éléments qui n’étaient pas abordés dans les enregistrements et ont généré des suggestions de plans de traitement pour les patients
- Les exemples de rapports contenaient des fausses informations potentiellement graves, comme « aucune masse n’a été détectée » ou « le patient semblait anxieux », alors que ces éléments n’avaient pas été discutés dans les enregistrements
- 12 des 20 systèmes ont ajouté des informations médicamenteuses erronées dans les notes patients
- 17 des 20 systèmes ont omis des détails essentiels liés à la santé mentale des patients pourtant abordés dans les enregistrements
- 6 systèmes ont omis en totalité ou en partie les problèmes de santé mentale des patients, ou ont laissé de côté des détails essentiels
Relecture manuelle et garde-fous
- OntarioMD, qui soutient l’adoption de nouvelles technologies par les médecins et a participé au processus d’achat d’AI Scribe, a recommandé aux praticiens de vérifier manuellement l’exactitude des notes produites par l’IA
- Selon le rapport d’audit, aucun des systèmes AI Scribe approuvés ne comportait de fonction de validation obligatoire attestant que le médecin avait vérifié l’exactitude
Problème de pondération dans l’évaluation
- Une grande partie des faibles performances semble liée à un problème de pondération des critères d’évaluation
- 30 % de la note d’évaluation de la plateforme étaient attribués à la présence d’une implantation locale en Ontario, tandis que l’exactitude des notes médicales ne représentait que 4 % du score total
- Le contrôle des biais ne comptait que pour 2 % de la note globale, l’évaluation des menaces, des risques et de la confidentialité pour 2 %, et la conformité SOC 2 Type 2 pour 4 %
- Une telle pondération peut conduire à retenir des fournisseurs capables de produire des dossiers médicaux inexacts ou biaisés, ou ne disposant pas de protections suffisantes pour les informations de santé personnelles sensibles
Réponse du ministère de la Santé de l’Ontario
- The Register a demandé au ministère de la Santé de l’Ontario sa position sur le rapport et s’il comptait suivre les recommandations liées au programme AI Scribe, mais n’a pas reçu de réponse immédiate
- Un porte-parole du ministère a déclaré mercredi à CBC que plus de 5 000 médecins en Ontario participent au programme AI Scribe, et qu’aucun cas connu de préjudice causé à des patients en lien avec cette technologie n’a été signalé
1 commentaires
Commentaires sur Hacker News
Mon opinion sur l’avenir de l’IA actuelle est globalement passée du pessimisme à l’optimisme, mais ce qui me gêne toujours fortement, c’est que des erreurs factuelles élémentaires persistent même pendant que les modèles progressent énormément
Quand Claude Opus crée une recette adaptée à mes goûts et aux saveurs que je veux, ça ressemble à de la magie, puis tout l’effet retombe dès qu’il se trompe sur un calcul d’unités de base comme la conversion entre cuillères à soupe et cuillères à café
Ça me donne l’impression d’un personnage de film qui semblait presque normal, puis dont on découvre quelque chose d’étrange avant de comprendre que c’était un zombie ; et ce cas de prise de notes est impressionnant parce que ça marche presque, avant d’échouer sur des détails importants
Quand je vois ce genre d’échec, je doute de plus en plus que l’IA de cette génération, même si elle peut faire des choses formidables quand elle est bien encadrée, soit sur la bonne voie vers une véritable intelligence
L’industrie de l’IA semble continuer à brouiller le fait que capacité et fiabilité sont de nature fondamentalement différente. On emploie souvent « exact » et « fiable » comme des synonymes, mais même si un modèle réussit bien des benchmarks, il peut rester un facteur de risque en production
Les derniers résultats de METR réagissent fortement à l’amélioration des capacités, mais on parle moins du fait que cette mesure repose sur un taux de réussite de 50 %. L’indicateur secondaire à 80 % de réussite couvre une plage de durée de tâches bien plus courte : https://metr.org/
Je mets en œuvre des systèmes d’IA en entreprise, et je n’ai jamais vu une entreprise accepter 50 % de fiabilité, ni même 80 %
Quand on voit les LLM concevoir en pratique eux-mêmes leurs prompts et leur contexte, on se dit qu’ils n’auront peut-être pas besoin d’un guidage humain éternellement
Pour les tâches simples fondées sur des faits précis avec une méthodologie concrète, les LLM ne sont pas le bon outil, et si on n’arrive pas à reconnaître ce type de tâche pour le basculer vers un outil plus déterministe, c’est un échec du harness
Comme on emploie des « techniques » quand il le faut, certaines tâches devraient être confiées à des outils ou à des « cerveaux » spécialisés
La première intelligence générale artificielle sera probablement non pas un cerveau unique, mais un système composite mêlant plusieurs LLM, des harnesses, des techniques et des sous-systèmes spécialisés par domaine ou par tâche
La cuillère à soupe australienne vaut 4 cuillères à café / 20 mL, contre 3 cuillères à café / 15 mL pour la version américaine, donc cette erreur peut en partie s’expliquer par la complexité du monde réel
Bon, si le modèle répond 3,14 cuillères à café ou 2 cuillères à café, là c’est autre chose
Aujourd’hui, c’est quasiment réglé, et on génère même des vidéos difficiles à distinguer de la réalité
Du coup, ça me pousse à croire que ces erreurs subtiles vont elles aussi continuer à diminuer, jusqu’à devenir presque impossibles à repérer dans la plupart des tâches
J’y ai trouvé de l’inspiration, mais il a aussi mal interprété des choses très basiques. Ça peut venir de ma manière de l’utiliser, donc je ne peux pas l’affirmer avec certitude
Au travail, on utilise un preneur de notes LLM pour les réunions, et récemment le DSI a été tellement furieux en disant qu’un fournisseur avait promis quelque chose sans le tenir qu’il a fallu intervenir
Le DSI n’était pas à la réunion où cette « promesse » aurait été faite, moi si ; en réalité, rien n’avait été promis, et la discussion était bien plus nuancée que ne le laissait entendre le résumé détaillé du LLM
Je le vois aussi se tromper quand la discussion n’est pas linéaire. Par exemple, quand on échange avec l’équipe SOC sur des alertes ou incidents récents, il attrape l’idée générale, mais si l’on dépend de sa précision, il peut vraiment se tromper lourdement
Ça peut convenir pour résumer les motifs principaux, le poids, la taille et les changements récents, un peu comme lors de la première visite faite par une infirmière à l’hôpital, mais je ne lui ferais pas confiance pour un échange détaillé et technique avec un médecin
Du point de vue de la conformité aussi, j’ai l’impression que les hôpitaux préféreraient n’utiliser que des transcriptions plutôt que des dossiers réécrits, mais je n’en suis pas sûr
Le soir même, elle m’a rappelé, on a parlé un moment, puis elle m’a demandé prudemment : « donc… tu avais quelque chose d’important à me dire ? », et j’étais complètement déconcerté
J’ai fini par comprendre que le résumé LLM de la notification d’appel avait transformé un message vocal dont 75 % relevaient de formules relationnelles sans réelle importance en une phrase professionnelle raide et excessivement formelle, ce qui créait une ambiance inquiétante
Il avait donné beaucoup trop de poids à des expressions comme « je veux te parler » ou « je te demande quand tu es disponible », au point de faire passer ça pour un long message annonçant quelque chose d’important, ambigu et urgent
Résultat, ma mère s’est un peu inquiétée, et ça m’a mis en colère qu’un simple message affectueux finisse ainsi. On dirait qu’il faut maintenant injecter partout des résumés LLM à moitié aboutis
Il faut toujours vérifier immédiatement les comptes rendus de synthèse et, s’il y a un problème, contacter le médecin dès que possible
En général, le médecin peut corriger lui-même, et il vaut mieux le faire tant que tout le monde s’en souvient encore
Surtout si l’on consulte régulièrement de longues transcriptions, il suffit qu’un humain marque manuellement, à côté, les endroits où il estime qu’un résumé est nécessaire
D’après mon expérience, ce type d’interaction ne contient généralement pas tant de bruit que ça à filtrer, et les détails y sont assez importants
Le côté trop bon, c’est que dans beaucoup d’environnements commerciaux, on interdit justement la transcription continue. Certains détails précis deviennent alors des éléments facilement saisissables en procédure de découverte, ce qui crée un risque pour l’entreprise
Des procès-verbaux ou des résumés peuvent omettre des discussions sensibles ou ne présenter que les accords sans les détails, tout en offrant une défense interprétative fondée sur une « ambiguïté stratégique »
Le côté pas assez bon, c’est que la reconnaissance vocale reste elle aussi probabiliste. Les sorties réellement évaluées peuvent contenir autant de données sur les mots ou expressions alternatifs que sur les mots retenus, ce qui laisse de la place pour représenter des mots qui n’ont pas été dits ou donner une autre impression
Le fait que les gens considèrent les transcriptions par reconnaissance vocale comme des comptes rendus faisant autorité aggrave encore le problème
Si on y ajoute ensuite une couche d’inférence générative comme un résumé, on amplifie les deux problèmes à la fois. Du point de vue d’un conseil juridique, il peut être plus facile d’accepter un résumé contenant moins de termes recherchables précis et diluant responsabilité et spécificité
Je l’ai vécu récemment. On m’a diagnostiqué un genou du coureur, mais le résumé IA disait que j’avais reçu un diagnostic d’ostéoporose, des douleurs à la hanche et des difficultés à marcher, alors que rien de tout cela n’avait été mentionné ni même suggéré
Il faut toujours vérifier la transcription. Les transcripteurs LLM ajoutent assez souvent des symptômes courants qui n’existent pas en réalité, ou affirment un diagnostic fréquent correct sur quelques détails mais faux sur d’autres
Un dossier erroné peut fortement influer sur les soins ultérieurs et sur les coûts, donc il faut impérativement le faire corriger
À part quelques cas simples et courants, environ 50 % des résumés « IA » que j’ai reçus étaient faux d’une manière ou d’une autre. Le plus souvent, ils attribuent des symptômes inexistants, et parfois, comme ici, ils inventent des choses plus graves
Un LLM n’est pas un logiciel ordinaire de voix-vers-texte et ne doit pas être traité comme tel. Il lui arrive d’insérer des phrases entières qui n’ont jamais été prononcées, et dans un dossier médical c’est totalement inacceptable
Une autre personne, absente de la réunion, a lu ce résumé plus tard, et une grosse controverse a éclaté, car le sujet était sensible pour elle à cause d’un débat en cours dans l’entreprise
Tous les participants ont confirmé qu’il s’agissait d’une erreur, mais le timing a coïncidé de manière telle que cette personne a eu du mal à l’accepter. Le résumé LLM présentait les choses comme une confirmation de préoccupations que certains participants minimisaient auparavant
L’affaire a pris une telle ampleur que la direction a fini par instaurer une politique interdisant de faire confiance à des sorties génératives sans vérification indépendante ; au moins, ils en ont tiré une leçon
Mais au fond, quelle est la précision des humains ? J’ai demandé les impressions de mes dossiers médicaux sur les cinq dernières années, et c’était aussi épais qu’un livre
J’ai du mal à croire qu’un humain puisse tout lire et en faire quelque chose d’utile
Si l’on fait passer ça à un outil d’IA, il pourra évidemment se tromper ou tirer des conclusions sans fondement, mais il peut être plus rapide de vérifier vite, de contester les passages bizarres, puis d’arriver à la bonne réponse que d’organiser n’importe quelle réunion avec une infirmière ou un médecin
Au lieu de seulement pointer ce qui n’est pas parfait, on peut faire plus de choses si l’on se concentre sur la manière d’utiliser ces outils et de contester ce qui semble bizarre ou faux
Le preneur de notes IA qu’on utilise au travail enregistre aussi les réunions, et ajoute à chaque note des liens horodatés qui mènent directement à l’endroit correspondant dans l’enregistrement pour qu’on puisse vérifier soi-même
Dans un environnement HIPAA, ce type de solution est sans doute plus complexe, mais dans un domaine critique comme la santé, cette approche est indispensable
C’est un élément central pour la confiance, la fiabilité, la conformité, etc.
Si un système logiciel intègre ce type de sortie LLM sans exposer l’origine de cette sortie pour permettre à un humain de l’évaluer et de la vérifier, alors, dans le meilleur des cas, c’est une mauvaise expérience utilisateur, et dans le pire, c’est dangereux
Si on veut de la précision, il faut au final tout écouter
Soit quelqu’un doit écouter l’enregistrement complet de la réunion et vérifier toutes les notes, ce qui coûte beaucoup de temps et de personnel ; soit les participants doivent vérifier les notes de mémoire, ce qui est vulnérable aux erreurs ; soit ils doivent comparer avec leurs propres notes, ce qui annule l’intérêt du preneur de notes IA
En pratique, dans tout contexte où la précision est importante, l’usage de l’IA n’est acceptable sous aucune forme, mais il est difficile de faire admettre cela
En tant que Canadien, l’idée que l’IA puisse libérer du temps médical et alléger la charge du système de santé m’enthousiasme, mais ça fait peur
On n’en est pas encore là. Il faudra peut-être à l’avenir une formation à l’IA pour les médecins
Dans certaines résidences en copropriété, il existe déjà des iPad appartenant à des établissements de santé pour faire des consultations médicales en ligne, ce qui contourne une partie des lourdeurs de prise de rendez-vous avec le médecin traitant
Je pense que la direction de l’innovation est la bonne, mais il faut du temps. J’ai parfois l’impression que l’IA a été lancée trop tôt
Pour reprendre l’exemple du temps médical libéré, une consultation patient est souvent dispersée, le patient évoque plusieurs problèmes à la fois, et le médecin, avec peu de temps et des obligations réglementaires d’explication, doit transmettre ce qui influence réellement la prise en charge
Même avec une transcription parfaite, tout le monde y perd dans cette configuration, et un LLM ne peut pas être parfait : il ne fait que de l’autocomplétion
J’imagine plutôt un patient interagissant avec une IA d’accueil capable d’écouter des heures de propos décousus ou de crise d’angoisse, puis de fournir au médecin un résumé des besoins validé par un proche ainsi que des informations de tri pertinentes
À ce stade, on pourrait aussi présenter, sous validation du médecin, des informations utiles sur l’accès aux médicaments ou les politiques d’assurance, et le patient pourrait organiser et compléter sa compréhension du système sans pression de temps
L’idée est d’améliorer la qualité de l’échange pour que le médecin puisse davantage se concentrer sur le patient, sans que les besoins conversationnels du patient ne prennent le pas sur le soin. En santé, il y a énormément de formulaires et de check-lists à remplir, et l’autocomplétion peut créer de l’efficacité dans cette exécution
Je suis à Toronto, et mon médecin me demande toujours si cela me va qu’il utilise un preneur de notes IA, et j’accepte
À la fin de la consultation, le médecin relit les notes et les corrige, tout en se plaignant souvent qu’il doit parler davantage à l’ordinateur qu’à moi
C’est un bon médecin, donc heureusement il fait cette vérification a posteriori, mais ça donne l’impression que cela est imposé de force aux médecins, même quand ils n’en veulent pas
De nos jours, toute personne qui participe à une réunion devrait dire à voix haute : « Avis : les propos interprétés par l’IA dans cette réunion peuvent ne pas être exacts »
C’est ce que je fais dans toutes mes réunions
Le rapport lié semble presque inutile. Il ne dit rien du taux d’erreur ni de la taille de l’échantillon, donc impossible de savoir si, parmi 20 systèmes, 9 qui « ont manipulé l’information et l’ont proposée dans un plan de soins du patient », c’est arrivé dix fois sur dix ou une fois sur mille
Même en supposant un taux d’erreur élevé, je me demande pourquoi ces solutions sont adoptées
Les tests semblent très simples, donc si c’était vraiment aussi mauvais, on imagine mal des médecins, des hôpitaux ou l’État se faire avoir au point de les acheter
L’exactitude n’était de fait pas un critère central de l’évaluation ; l’Ontario ne semblait donc pas s’en soucier
Il est dit que cela concerne concrètement le programme AI Scribe lancé par le ministère de la Santé de l’Ontario pour les médecins, infirmières praticiennes et autres professionnels de santé du secteur au sens large, ce qui me fait me demander quel niveau de qualité logicielle le ministère pousse réellement
J’imagine que ce sera surtout une question d’exigences de qualification du type SOC
La liste des fournisseurs approuvés semble être ici : https://www.supplyontario.ca/vor/software/tender-20123-artif...