2 points par GN⁺ 10 시간 전 | 1 commentaires | Partager sur WhatsApp
  • Après une IRM pour une douleur à l’épaule droite, le diagnostic hospitalier de déchirure partielle de grade III et la mise en place très rapide d’un traitement ont suscité des doutes, ce qui a conduit à retenter une lecture des images avec Opus 4.8
  • L’hôpital voyait une déchirure partielle sur plus de 50 % de la largeur au niveau de l’« apical insertion » du tendon du subscapulaire, alors qu’Opus 4.8 a jugé le tendon intact, d’où une divergence majeure des conclusions
  • GPT 5.5 Pro a remis en cause les fondements de deux traitements proposés par l’hôpital, à savoir la thérapie par ondes de choc et l’injection de Traumeel, ce qui a renforcé la motivation à examiner directement le diagnostic lui-même
  • Dans l’environnement Claude Code, Opus 4.8 a analysé plusieurs centaines de fichiers DICOM MRI totalisant environ 266 MB, via l’installation de paquets et l’exécution de code, puis a refait une analyse d’arbitrage en intégrant aussi le compte rendu humain et une conversation avec ChatGPT
  • Le résultat final de l’arbitrage penchait plutôt vers une « tendinopathie légère de l’insertion, sans déchirure partielle ni transfixiante évidente », mais l’incertitude sur le fait de faire confiance à des professionnels de santé ou à l’IA demeure

Diagnostic IRM et traitement menés à vive allure

  • Une douleur à l’épaule droite persistait depuis plusieurs semaines ; même si les symptômes semblaient s’améliorer, un avis d’un chirurgien orthopédiste a été demandé
  • Le médecin a recommandé une IRM, réalisable immédiatement à la clinique, et l’examen a donc été effectué
  • Le résultat de l’IRM a conduit au diagnostic d’une Grade III (>50%-width) partial-thickness tear au niveau de l’« apical insertion » du tendon du subscapulaire
  • L’hôpital a commencé le traitement quelques minutes seulement après l’IRM et a également planifié un total de 3 séances du même traitement
  • Comme le processus paraissait aller beaucoup trop vite, une copie des résultats de l’IRM ainsi que la liste des traitements effectués et proposés ont été demandées en quittant l’établissement

Les problèmes de justification du traitement relevés par GPT 5.5 Pro

  • Après avoir transmis les résultats de l’IRM et la liste des traitements à GPT 5.5 Pro, deux points sont immédiatement apparus
    • L’hôpital a pratiqué une thérapie par ondes de choc sur l’épaule, alors que de récentes recommandations cliniques indiquent de ne pas utiliser ni recommander ce traitement pour une tendinopathie de la coiffe des rotateurs non calcifiante
    • Lors de l’échographie, il avait été indiqué qu’il n’y avait pas de calcification
    • L’hôpital a injecté du Traumeel, un médicament homéopathique enregistré en Allemagne comme n’ayant « aucune indication thérapeutique »
  • Cela a encore réduit la confiance accordée au diagnostic et au traitement de l’hôpital, et a donné envie d’analyser directement l’IRM

Analyse de l’IRM avec Opus 4.8 dans Claude Code

  • Le paquet IRM était un export DICOM standard composé de plusieurs centaines de fichiers sans extension, pour une taille totale d’environ 266MB
  • L’analyse a été réalisée avec Opus 4.8 (xhigh) dans Claude Code
    • Claude Code a été choisi pour permettre l’exécution de code et l’installation de paquets
    • Il lui a été demandé d’installer à l’avance les paquets nécessaires à l’analyse
  • Même avec le même modèle, la différence entre Claude Code et le chat Claude.ai est jugée très importante
  • Faute de connaissances sur l’IRM, il a été demandé à Claude d’établir d’abord un plan détaillé avant de l’exécuter
  • Le seul contexte médical fourni au départ était « douleur à l’épaule droite depuis 2 à 3 semaines », ce qui, selon l’auteur, était moins d’informations que ce qu’avait reçu le médecin humain

Une première analyse en total désaccord sur l’existence d’une déchirure

  • Environ 1 heure plus tard, Opus 4.8 a renvoyé son rapport
  • La lecture de l’hôpital et celle d’Opus 4.8 étaient presque diamétralement opposées
    • L’hôpital voyait une déchirure partielle de grade III au niveau de l’apical insertion du tendon du subscapulaire
    • Opus 4.8 a estimé qu’il s’agissait d’un intact tendon
  • L’écart attendu portait plutôt sur le grade de la déchirure, mais en réalité le désaccord concernait l’existence même d’une déchirure

Nouvelle médiation entre lecture humaine et lecture IA

  • Pour concilier les deux résultats, une nouvelle analyse comparative a été confiée à Opus 4.8
  • Cette fois, en plus du compte rendu IRM humain, une conversation avec ChatGPT 5.5 Pro a aussi été fournie
    • Cette conversation incluait des mouvements et postures à essayer pour mieux cerner le diagnostic
  • Opus a abordé le sujet en utilisant plusieurs subagents afin d’obtenir une nouvelle analyse moins biaisée par le contexte existant
  • Environ 1 heure plus tard à nouveau, un nouveau rapport est arrivé
  • La conclusion d’arbitrage estimait que les éléments en faveur du Reader A étaient supérieurs, avec une synthèse en « moderate-to-high confidence »
    • Tendinopathie légère de l’insertion
      • Pas de déchirure partielle ni transfixiante évidente, y compris au niveau de l’apical insertion
      • Certains points de désaccord entre les deux rapports étaient jugés impossibles à trancher, mais sur cet élément précis, la conclusion était relativement ferme

Les choix qui restent après ce deuxième avis par IA

  • Il y a une forme de réassurance à s’en remettre à un expert de confiance, mais un deuxième avis fondé sur l’IA peut bousculer ce sentiment de manière inconfortable
  • Après l’analyse IA, le diagnostic initial et le plan de traitement ont semblé plus précipités et plus interventionnistes que ne le justifiaient les faits, mais l’IA elle-même reste difficile à considérer comme totalement fiable
  • Les options restantes sont de consulter un autre médecin, ou d’attendre de voir si l’épaule s’améliore avec la rééducation en cours
  • L’espoir est que, dans quelques générations de modèles, on puisse faire confiance à la relecture d’une IRM par IA comme on fait confiance aujourd’hui à une correction d’e-mail
  • Le nom de la clinique et du médecin n’est pas divulgué, et cette expérience ne constitue pas un conseil médical, mais un cas de curiosité technique autour de l’obtention d’un deuxième avis via l’IA

1 commentaires

 
Commentaires sur Hacker News
  • Je suis radiologue, mais il est difficile de se prononcer sans voir l’ensemble du jeu de données IRM 3D. L’échographie n’est pas une bonne méthode pour évaluer les calcifications : elle repère les grosses, mais peut facilement passer à côté des petites.
    Une radiographie simple serait plus utile, et cela aurait aussi pu être visible à l’IRM. Quoi qu’il en soit, en l’absence de calcification, le traitement par ondes de choc n’est pas nocif ; il ne sert simplement à rien.
    En interprétation radiologique, quand on écrit « absent », il y a toujours implicitement la précision « absent dans les limites de la modalité d’imagerie utilisée et du champ des images acquises ». Donc il n’est pas contradictoire qu’un compte rendu d’échographie dise qu’il n’y a pas de calcification et qu’un compte rendu de radiographie simple dise qu’il y en a.
    Pour un patient, ou pour quelqu’un qui n’est pas familier du vocabulaire médical, c’est évidemment déroutant, mais si les comptes rendus explicitaient tout cela, ils deviendraient des documents encore plus conditionnels et pénibles à lire qu’aujourd’hui.

    • Je trouve que c’est le présenter sous un jour trop favorable. Si l’on ne comprend pas cela, on ne peut être dérouté qu’en supposant que tous les appareils de diagnostic ont une résolution infinie et ont toujours raison.
      Cela me rappelle l’anecdote où l’on aurait demandé à Babbage si, en introduisant une question erronée dans une machine à calculer, on obtenait une bonne réponse. Il aurait répondu en substance : « Je ne parviens absolument pas à concevoir la logique de l’esprit qui peut formuler une telle question. »
    • En tant que manipulateur radio, j’ai envie de dire : « C’est exactement ça, docteur ! » J’ai vu des usages de l’IA utiles pour aider un patient à comprendre sa situation ou des résultats de base d’analyses sanguines, mais c’est vraiment mauvais quand elle approuve trop son interlocuteur et l’entraîne dans un terrier médical comme dans le billet d’origine.
      Une IA devrait au moins signaler que le calcium se voit mieux à la radiographie/au scanner qu’à l’échographie.
    • Je suis d’accord. Je ne suis pas radiologue, mais je fais pas mal de recherche en IRM. Les experts et les non-spécialistes ont probablement des taux de réussite différents pour tirer le bon diagnostic des modèles de pointe, et de subtiles différences de prompt peuvent suffire à produire des diagnostics différents https://www.nature.com/articles/s41591-026-04501-8
    • En lisant les termes employés ici et en les recherchant, cela ressemble beaucoup trop aux symptômes de mon épaule droite. J’ai l’impression qu’un immense terrier de lapin vient de s’ouvrir à côté de mon bureau.
    • Je me demande pourquoi les orthopédistes n’utilisent pas davantage l’échographie diagnostique. On voit tous les jours le cœur et les organes de fœtus ; pourquoi pas une épaule ? Cela semblerait beaucoup moins cher et plus rapide.
  • Pour les personnes intéressées, nous proposons un service de deuxième avis réalisé par des radiologues humains certifiés : https://expert.med

    • Il faudrait la même chose en version dentaire.
  • C’est vraiment là le point essentiel. Je sais qu’on ne peut pas faire confiance à l’IA, mais en même temps il est beaucoup plus facile de lui demander davantage d’explications ou de la contredire. Il n’y a ni créneau de rendez-vous ni coût horaire, et c’est important. Mais avoir plus d’informations n’aide pas forcément.
    J’ai déjà emmené une Civic de 11 ans et 150 000 miles dans plusieurs garages pour jouer au jeu du « deuxième avis ». J’essayais de comparer les recommandations de chaque garage pour décider quoi faire.
    Le résultat a été trois recommandations sans aucun rapport entre elles, dont une que je savais avec certitude être fausse. Je me suis senti encore plus mal qu’avant de commencer.
    La solution à une information incertaine n’est pas plus d’information, ce que l’IA peut fournir, mais une meilleure information ; or, pour l’instant, l’IA ne fournit pas cela.

    • Je garde plusieurs abonnements à des LLM et des modèles locaux sous la main. Quand je pose une question hors de mon domaine d’expertise, je la soumets à tous les LLM auxquels j’ai accès, puis je crée des sessions séparées pour poser la même question de plusieurs façons.
      Voir le nombre de réponses différentes et contradictoires qui en sortent est assez révélateur. La plupart sont présentées avec assurance.
      La dernière fois que j’ai soumis une question médicale à Claude, je n’ai même pas obtenu de réponse cohérente d’une session à l’autre.
      Le plus inquiétant, c’est la facilité avec laquelle on peut orienter chaque LLM vers la réponse que l’on a en tête. Dès que je commence à l’interroger sur les options proposées par un autre LLM, chaque session finit par dériver vers cette explication.
    • Il y a une grande différence entre les puzzles et les mystères. Dans un puzzle, l’état final est connu, et plus on a de pièces — c’est-à-dire de données —, plus on s’en rapproche. On sait aussi à quelle distance on se trouve du but.
      Un mystère, c’est pire. Chaque nouvelle pièce de données ajoutée éloigne davantage le but. Tout devient de plus en plus confus.
      C’est une distinction popularisée par Malcolm Gladwell.
    • Je pense que l’IA peut aujourd’hui fournir de meilleures informations. Simplement, elle ne le fait pas de manière fiable, et les non-spécialistes ne peuvent pas faire la différence, ce qui la rend plus dangereuse.
    • Ah, ce doux murmure de ChatGPT qui nous rassure sur le fait que nous avons tellement raison et que nous sommes tellement intelligents… Comment pourrait-il halluciner, surtout en 5.5 ?
    • Tu n’as demandé que trois avis pour une voiture ? Pourquoi pas 50 ? En agrégeant plus d’informations, tu aurais peut-être pu trouver un signal plus utile.
      Je sais que demander des avis à des mécaniciens prend du temps. Mais avec l’IA, ce n’est pas le cas.
  • Il y a quelques années, avant la vague de l’IA, j’ai reçu un diagnostic erroné de tuberculose. J’avais une toux chronique, et un radiologue externalisé par une clinique a repéré des signes de tuberculose. Le résultat a été transmis, comme la loi l’exige, à l’hôpital municipal spécialisé dans la tuberculose, où les médecins ont repris telle quelle la conclusion du radiologue et m’ont dit de rester au moins huit mois dans un hôpital au régime strict, presque carcéral
    Il n’y avait aucun moyen de refuser. J’étais considéré comme une sorte de risque biologique, et j’étais légalement tenu d’obéir
    Avant l’hospitalisation, j’ai cherché en urgence un autre radiologue, qui a diagnostiqué une pneumonie. J’ai envoyé son rapport au médecin responsable de l’hôpital antituberculeux ; après examen, il a conclu que la première interprétation était erronée. Il s’est avéré que les médecins de cet hôpital ne savaient pas du tout lire les images et faisaient simplement confiance à ce que disait le radiologue
    Le plus drôle, c’est qu’ils m’avaient déjà inscrit au registre officiel de la tuberculose et ne voulaient pas reconnaître leur erreur. À la place, ils m’ont délivré un autre document affirmant que « la tuberculose avait été guérie en 7 jours dans cet hôpital ». Je suis probablement la seule personne de ce pays à avoir vaincu la tuberculose en une semaine
    Si vous avez du mal à faire confiance à un radiologue ou à un médecin, il vaut mieux consulter un autre médecin quand vous pouvez en assumer le coût. Vous pouvez comparer les conclusions et voir si elles concordent. Si deux médecins ou radiologues sans lien entre eux disent la même chose, il y a de bonnes chances que ce soit assez proche de la vérité
    Cela dit, je ne sais pas trop à qui il faudrait faire davantage confiance, entre l’IA et les humains. L’IA hallucine, mais moi aussi j’ai reçu plusieurs mauvais diagnostics de la part d’humains

    • Comment est-ce possible ? On ne peut pas diagnostiquer une tuberculose uniquement à partir d’images, et un hôpital spécialisé dans la tuberculose devrait le savoir
    • J’ai vécu quelque chose de similaire. Mon fils a eu une pneumonie et, même après 10 jours d’antibiotiques, la douleur persistait. J’ai montré la radio à trois médecins ; un seul a posé le bon diagnostic : un épanchement pleural
      J’ai l’impression qu’il faudrait un lieu centralisé où les images seraient examinées par des experts de tout premier plan, plutôt que de laisser chaque médecin les interpréter seul
  • Je trouve amusant de voir ici des gens s’attendre à ce que le corps humain se comporte comme une fonction déterministe, où une entrée X devrait produire une sortie Y. Cette attente se prolonge dans le diagnostic : pour un même problème, on imagine obtenir le même diagnostic de la part de plusieurs spécialistes
    Vu la complexité du corps humain, un diagnostic est le résultat de l’expérience accumulée au cours d’une carrière, des connaissances, des méthodes de diagnostic et du matériel disponibles. Un titre comme « médecin » signifie que l’État certifie que la personne a réussi des examens et peut exercer sans danger, mais pas que tout le monde soigne de la même manière
    Certains spécialistes mettent leurs connaissances à jour tous les mois, d’autres tous les ans, et d’autres jamais. Il y a trop de variables : la région, la politique, voire la météo
    C’est pourquoi le choix du spécialiste est vraiment important. Il faut se renseigner sur sa réputation, sa façon de pratiquer et son domaine d’expertise. On peut seulement maximiser ses chances d’obtenir le bon diagnostic ; il ne faut pas s’attendre à ce que quelqu’un ait raison simplement parce qu’on l’appelle médecin

    • Pour une communauté principalement composée de gens dont le métier est de créer ce genre de fonctions, il est prévisible qu’ils s’attendent à ce que le corps humain se comporte lui aussi comme une fonction déterministe
    • Je ne suis pas sûr de comprendre l’argument. Est-ce que cela veut dire que la médecine est intrinsèquement sujette à l’erreur, et qu’une IA — surtout un ensemble de plusieurs IA spécialisées — a plus de chances de poser un meilleur diagnostic ?
  • J’ai vu beaucoup d’amis et de membres de ma famille se faire recommander une opération presque immédiatement pour des douleurs à l’épaule. Pour les personnes dont le métier est d’opérer, la chirurgie devient souvent l’option par défaut
    Moi aussi, j’ai eu à une époque une douleur assez importante à l’épaule, qui n’est pas passée pendant des mois. Je ne voulais pas me faire opérer, alors j’ai essayé les massages et l’acupuncture, mais ça n’a absolument pas aidé
    Ce qui m’a tiré d’affaire, c’est de vraiment me concentrer sur les tractions. Au début, je n’arrivais pas à en faire une seule, donc j’ai commencé par des suspensions et des tractions scapulaires, puis je suis progressivement passé aux tractions classiques. Une fois que j’ai pu en faire quelques-unes par série, je me suis entraîné avec la méthode « grease-the-groove »
    Quand je suis arrivé à environ 17 répétitions par série, j’ai arrêté le programme d’entraînement structuré ; aujourd’hui, je fais 6 séries de 7 à 8 répétitions, réparties dans la journée, 3 fois par semaine. Je fais aussi des exercices de mobilité de l’épaule https://www.youtube.com/watch?v=vP8YmmRMz6I
    Si je deviens paresseux et que je saute les séances, la gêne revient immanquablement, mais elle disparaît quand je reprends les exercices de renforcement

    • J’ai eu des problèmes d’épaule pendant des années. J’ai essayé la kiné, ainsi que des exercices de tirage/poussée, mais ces exercices aggravaient la douleur. Tant que je ne faisais pas d’exercices sollicitant l’épaule, ça allait « bien »
    • À l’inverse, quand j’ai eu un problème de coiffe des rotateurs, le chirurgien m’a recommandé plusieurs mois de kinésithérapie avant de passer au bistouri. Ça a marché. En continuant la musculation en me concentrant sur les bons mouvements de l’épaule, la douleur n’est pas revenue
      Quand un patient vient chercher une solution rapide, on dirait qu’on lui propose ce genre de solution. Quand il se renseigne un peu puis cherche la meilleure solution pour lui, en général, c’est ce qu’il obtient
  • Il y a environ deux ans, j’ai utilisé le « deep research » de ChatGPT pour enquêter sur une sinusite chronique contre laquelle je me battais depuis presque trois ans. Après avoir vu trois généralistes et consulté trois fois un ORL, j’ai entré dans l’IA toutes les observations dont je disposais.
    En particulier, l’ORL avait examiné mes sinus à l’endoscope et vu des signes de réaction allergique, mais plus tard, après un test d’allergie, il n’a pas su m’expliquer pourquoi il concluait que cela ne pouvait pas être traité avec des médicaments contre les allergies. Je lui ai posé la question plusieurs fois, mais il n’a pas répondu.
    ChatGPT a trouvé une étude du NIH indiquant que 20 % des personnes présentent une réaction allergique limitée à une zone précise du corps, qui peut ne pas apparaître lors d’un prick-test cutané sur l’épaule. Quand je lui en ai parlé, il s’est contenté de répondre : « les allergies ne fonctionnent pas comme ça ». Fin de l’histoire. Il n’a même pas envisagé de lire l’étude.
    Il m’a prescrit une CPAP et des traitements réguliers par nébuliseur. À côté de ça, le fournisseur de CPAP m’a envoyé un SMS, mais je n’arrivais pas à savoir si ce n’était pas du phishing ; j’ai demandé qui ils étaient, sans réponse.
    J’ai donc simplement décidé d’essayer de prendre chaque jour un antihistaminique de deuxième génération.
    La sinusite a disparu. Avant, j’avais une grosse sinusite au moins une fois par trimestre. Peut-être que, comme le disait ce médecin, les allergies ne fonctionnent pas de cette façon, mais les médicaments contre les allergies ont complètement résolu mon problème.
    J’en suis reconnaissant, parce que quelques années plus tôt j’avais vraiment essayé la CPAP pendant un mois, mais je n’ai jamais réussi à m’y habituer et mon sommeil était catastrophique.

    • Il y a beaucoup de choses à démêler ici, et la situation était défavorable dès le départ. D’abord, quand un test dit X, il est vraiment difficile de réfuter X. Ce n’est pas propre au monde médical, c’est un problème humain en général. Nous sommes mauvais pour revenir sur nos décisions ou les corriger, et encore plus mauvais pour examiner la possibilité de les inverser.
      Ensuite viennent la responsabilité et le temps. Surtout dans un domaine à forts enjeux comme la médecine, quand on demande à quelqu’un de réexaminer une décision, personne n’a le temps ni l’envie d’ouvrir cette boîte de Pandore.
      Si vous voulez vraiment réussir, il faut proposer les tests suggérés par la recherche avant que la boucle diagnostique ne se referme, avant que les médecins n’aient figé leur représentation de votre cas. C’est là que vous avez le plus de chances qu’ils voient ce qu’il faut voir.
      Mieux vaut être honnête et dire que vous arrivez avec une hypothèse. Les médecins remarquent très vite quand ils sont orientés, mais ils remarquent plus tard qu’un patient avait effectivement raison. Dans un système où des gens surchargés font de leur mieux, c’est comme ça qu’il faut avancer.
    • Les médicaments contre les allergies pris quotidiennement sont associés à une forte augmentation du risque d’Alzheimer à début précoce. C’est bien d’avoir trouvé quelque chose qui marche, mais cela pourrait valoir le coup d’essayer aussi les injections d’allergènes.
  • En tant que radiologue, j’ai trouvé Claude et ChatGPT vraiment très mauvais pour l’interprétation d’IRM, et je ne leur ferais absolument pas confiance. Ils ont des atouts pour explorer des documents textuels, mais ils n’interprètent pas encore assez bien l’imagerie radiologique.

    • L’IA compense moins par le compte rendu que par l’amélioration des images.
      Actuellement, le logiciel MR de Siemens Deep Resolve génère du signal (environ 50 % de plus), puis génère un pixel sur deux, et dans les séquences 3D, une coupe sur deux. Il réduit d’environ 59 % la durée de chaque séquence, et il est vraiment excellent.
      Je suis manipulateur en IRM.
    • C’est un peu comme les gens qui s’attendent à ce que ChatGPT soit très fort aux échecs. Des moteurs d’échecs aux performances surhumaines existent depuis des décennies, donc ils se disent qu’un LLM de pointe récent, entraîné avec des milliards de dollars, devrait forcément trouver ça facile.
      En fait, je serais curieux de connaître l’ELO de ChatGPT 5.5. Grâce au contenu qu’il a absorbé, je ne serais pas très surpris qu’il dépasse 2000 rien qu’avec une compréhension de base des principes des échecs.
  • Je ne comprends pas les réactions négatives. La médecine actuelle ne fonctionne que si le médecin et le patient réfléchissent tous les deux. Il y a eu très peu de cas où un médecin a simplement posé un diagnostic et où j’ai pu continuer ma journée. Quand c’est arrivé, en général, j’étais déjà sûr du problème et je savais ce qu’il me fallait. Le médecin était alors l’obstacle qui bloquait l’accès au traitement.
    Dr. GPT est un bon outil de brainstorming. Il synthétise l’information d’une façon difficile à obtenir avec les sources brutes seules. Mais il faut aussi le forcer à dire : « ça n’a pas de sens ».
    Je trouve peu solide l’argument selon lequel « les médecins ne connaissent pas les connaissances les plus récentes ». Vu la densité de tokens pendant le préentraînement et la manière dont les jeux de données de post-entraînement sont constitués, il faudra très longtemps pour s’adapter à des changements fondamentaux. Si nous avions oublié le traitement du scorbut, combien d’articles faudrait-il pour s’adapter à la redécouverte ?

  • Pour les images, je ne ferais pas confiance à l’IA. Mais une fois, ChatGPT, en se basant uniquement sur le texte d’un compte rendu d’IRM, m’a dit que le rapport était très probablement faux et a proposé un autre diagnostic. Il insistait assez fortement, alors je suis allé voir un autre médecin et j’ai repassé des examens. Pour faire court, ChatGPT avait raison.
    Encore une fois, ce n’est qu’une expérience individuelle, donc ça ne prouve pas grand-chose.

    • Anecdote : j’ai soumis à Gemini Pro l’image d’un patient atteint de zona alors qu’un médecin avait diagnostiqué une autre maladie ; il a posé le bon diagnostic, ce qui a permis un traitement adapté et une guérison.
      Je ne comprends pas pourquoi les médecins ne soumettent même pas un prompt à un LLM avant d’affirmer quelque chose de faux. Par orgueil ?
      Je comprends que la radiologie nécessite des réseaux de neurones convolutionnels spécialisés, mais pour les problèmes plus proches d’une base de connaissances, c’est encore plus vrai.
    • Je pense qu’une grande partie de l’écart en vision vient du fait que, dans une image, ce à quoi il faut prêter attention est moins structuré. À titre anecdotique, de petits modèles qwen fine-tunés, par exemple des modèles de moins de 10 milliards de paramètres, peuvent faire passer une précision inférieure à 30 % du modèle de base à 90 %. J’ai déjà vendu ce type de modèles pour des tâches de back-office rémunérées à la performance.
      Je pense qu’on va voir apparaître beaucoup de VLM spécialisés qui apportent une vraie valeur.
    • Il y a quelques jours, ChatGPT Enterprise a affirmé que le noyau 7.0.2 était plus ancien que le 6.69.
      Ces jouets ne sont absolument pas fiables. Ça ne veut pas dire qu’ils sont inutiles, mais on ne peut pas leur faire confiance.