Une étude de Stanford Law montre que l’IA obtient de meilleurs résultats que les professeurs de droit

(law.stanford.edu)

1 points par GN⁺ 2026-06-04 | 2 commentaires | Partager sur WhatsApp

Dans une étude de la Stanford Law School, les professeurs de droit ont très majoritairement préféré des réponses générées par l’IA à celles de leurs collègues pour répondre aux questions d’étudiants, un résultat susceptible d’influencer la manière dont l’enseignement du droit est dispensé
Lors d’une évaluation en aveugle menée auprès de 16 professeurs de droit d’écoles de droit américaines, près de 3 000 comparaisons anonymes ont été effectuées, et l’IA a affiché un taux de victoire de 75 % en comparaison directe avec les réponses des professeurs
Les participants ont créé 40 questions qu’un étudiant pourrait poser après un cours de droit des contrats ou pendant des permanences, y ont répondu eux-mêmes, puis ont évalué sans connaître la source des réponses produites par l’IA et par leurs collègues
Les professeurs n’ont jugé les réponses de l’IA pédagogiquement nuisibles que dans 3,5 % des cas, contre 12 % pour les réponses de leurs collègues, et le système d’IA a obtenu des performances comparables à celles du meilleur enseignant humain de l’étude
Les résultats ne justifient pas à eux seuls un déploiement généralisé de tuteurs IA, mais fournissent une base pour discuter de modes de déploiement responsables même dans des domaines où le jugement est central, comme le droit

Conception de l’étude et principaux résultats

L’étude “Law Professors Prefer AI Over Peer Answers”, dirigée par le professeur de Stanford Law School Julian Nyarko, examine si de grands modèles de langage peuvent jouer un rôle de tuteur efficace dans des cours de droit des contrats
16 professeurs de droit d’écoles de droit américaines ont participé à l’étude, et les participants ont élaboré 40 questions représentatives qu’un étudiant pourrait poser après le cours ou pendant des permanences en droit des contrats, avant d’y répondre eux-mêmes
Les professeurs ont évalué les réponses sans savoir si elles provenaient de l’IA ou d’un autre professeur participant, et, sur près de 3 000 comparaisons anonymes, les réponses de l’IA ont obtenu un taux de victoire de 75 % en confrontation directe
Les chercheurs ont ajusté la longueur et la structure des réponses de l’IA pour les aligner sur les réponses humaines, ont utilisé plusieurs méthodes d’évaluation, et ont aussi demandé aux professeurs d’évaluer si les réponses pouvaient induire l’étudiant en erreur ou le dérouter
Le système d’IA a obtenu des performances comparables à celles du meilleur enseignant humain de l’étude, et les professeurs ont indiqué que les réponses étaient pédagogiquement nuisibles dans 3,5 % des cas pour l’IA, contre 12 % pour celles de leurs collègues

Signification et limites pour l’enseignement du droit

En droit, il n’existe souvent pas de réponse unique correcte, et des arguments contradictoires peuvent tous paraître convaincants, ce qui rend essentiels le jugement, le raisonnement nuancé et la capacité à gérer l’ambiguïté
Les chercheurs ont également examiné plusieurs modèles d’IA, dont des systèmes commerciaux de tutorat et NotebookLM de Google, et les performances variaient selon les modèles
Même lorsque des limites de contexte affectaient les réponses de l’IA, les professeurs préféraient souvent ces réponses aux alternatives rédigées par des humains
Les écoles de droit doivent maintenir des standards académiques stricts dans l’intégration des outils d’IA à l’enseignement du droit, tout en prenant en compte des risques comme les hallucinations, la dépendance excessive et l’affaiblissement de l’esprit critique
L’étude a évalué la qualité des réponses produites par les outils d’IA, mais la manière de les mettre en œuvre pour améliorer le plus efficacement l’apprentissage des étudiants reste une question ouverte ; le débat doit passer de la question de savoir si l’IA peut fournir des réponses exactes et de haute qualité à celle de savoir comment la déployer de manière responsable pour qu’elle aide réellement les étudiants

2 commentaires

adieuxmonth 2026-06-04

Pfiouuuuu

GN⁺ 2026-06-04

Avis sur Hacker News

Cette étude paraît assez douteuse. Il faudrait creuser davantage, mais pour quiconque la lit, de vrais signaux d’alerte devraient clairement se déclencher
La figure 2 (page 6) semble poser beaucoup de problèmes. Il n’y a que 16 professeurs, mais on parle de 3 000 comparaisons chacun, et les résultats varient fortement d’un professeur à l’autre. La variance est très élevée, ce qui ressemble à un signe d’absence de puissance statistique significative dans l’étude
En plus, seuls les modèles de Google apparaissent dans le résultat principal, ce qui donne aussi une impression de biais évident. D’autres modèles apparaissent ailleurs, alors pourquoi sont-ils absents des résultats clés ?
Je ne suis pas spécialiste du droit, mais je m’y connais plutôt bien en statistiques, et je peux dire avec assurance que cet article sent mauvais. Je ne peux pas affirmer que c’est n’importe quoi, mais les signaux de danger sont partout
- C’est vrai, mais il y a deux ans on disait encore que l’IA était « un outil impressionnant, mais qu’elle ne remplacerait pas les travailleurs du savoir », et maintenant on en est à « l’étude montrant qu’elle a battu des travailleurs du savoir de tout premier plan pourrait avoir des défauts méthodologiques ». Dans deux ans, ce sera probablement terminé
- Plus que ça, toute la structure de l’étude semble dénuée de sens. Elle est construite sous forme de questions/réponses, puis on demande à des humains d’évaluer les réponses — or c’est littéralement ce à quoi les LLM sont entraînés. Au fond, il s’agit juste de persuader un humain d’appuyer sur le bouton « cette réponse est meilleure »
- Indépendamment du fait que l’ensemble de l’article puisse être un peu ambigu, il est intéressant de voir que, pour les instructeurs 3 et 8, le taux de nocivité est nettement plus faible que celui des LLM, sans que leur taux de préférence soit pour autant le plus élevé. La nocivité évolue en sens inverse de la préférence, mais pas parfaitement. On dirait qu’un certain charisme joue aussi, même dans les choix d’experts
- Le chiffre de 3 000 semble venir de là, et c’est expliqué dans l’article
  Il est indiqué que les professeurs, en tant qu’évaluateurs, ont effectué 2 918 comparaisons à choix forcé en aveugle, avec une médiane de 200 comparaisons par évaluateur, et qu’à chaque fois ils devaient choisir entre une réponse anonymisée d’un enseignant et celle d’un LLM, selon celle qu’ils souhaiteraient donner à un étudiant
- Quand on lit les articles récents, on voit de plus en plus de travaux du genre « interroger 8 personnes puis tirer une conclusion à partir d’avis d’experts ». Le domaine de l’IA et de la cybersécurité en est particulièrement rempli
  J’ai même vu un article qui appelait « méthodologie » le fait de mettre des entretiens et des protocoles dans ChatGPT pour en sortir un résultat. Il a été publié après évaluation par les pairs
On pourrait peut-être l’expliquer d’une manière proche des films hollywoodiens. Si un film est conçu pour satisfaire le plus grand nombre, il aura plus de chances d’être choisi que d’autres films
Un professeur humain de droit laisse transparaître sa personnalité, ses convictions et ses opinions dans son écriture, alors qu’un LLM est entraîné pour satisfaire le public le plus large possible. Cela ne veut pas dire que la réponse est meilleure. Ce n’est pas parce que Captain America serait choisi plus souvent qu’American Beauty qu’il s’agit forcément d’un meilleur film.
En tant qu’ingénieur logiciel, j’ai une certaine intuition de ce qui est risqué quand on confie une tâche à un agent
Mais quand on demande à une IA de rédiger un projet de document juridique, cette intuition n’est pas du tout aussi bien calibrée quant à ce qui peut mal tourner. Rédiger un testament, par exemple, peut sembler anodin en apparence, mais en réalité je n’en sais rien. Le système juridique est tristement célèbre pour être rempli de pièges
- J’ai beaucoup utilisé des IA LLM généralistes, comme les Claude ou GPT habituels, pour la rédaction de projets de documents juridiques. Le plus gros piège, ce sont les citations de jurisprudence hallucinées
  Elles insèrent facilement des citations plausibles d’autres affaires qui semblent démontrer parfaitement l’argument recherché, et vont même jusqu’à inventer des noms d’affaires très crédibles comme United States v. Shenzhou Electronics Inc. On peut relire plusieurs fois, ne trouver aucune fausse citation et se rassurer, puis soudain le mémoire suivant en contient trois.
  Malgré cela, un avocat qui n’utilise pas de LLM pour la recherche est en train de prendre du retard. C’est incroyablement efficace pour trouver des jurisprudences de niche que je n’aurais jamais dénichées seul. Avant, on dépendait beaucoup de la correspondance exacte des termes de recherche, ce qui était souvent fondamentalement peu utile en recherche juridique. Il faut quelque chose capable de chercher avec des critères plus flous, et l’IA le fait très bien. Mais il faut impérativement vérifier les résultats. Les LLM de Lexis Nexis ou Westlaw sont probablement meilleurs que les modèles généralistes
  Les LLM font d’excellents assistants juridiques. Si vous faites du droit, vous devriez les utiliser ne serait-ce que pour lancer des idées. Ils sont très utiles pour jouer l’avocat du diable depuis la position adverse. Un ami leur fait systématiquement jouer le rôle de l’avocat de la partie adverse afin de vérifier toutes les objections possibles
  C’est exactement comme en développement logiciel. Si le résultat produit compte, il faut vérifier la sortie
- J’ai l’impression que cela vaut pour la plupart des métiers qualifiés. L’IA est surtout bien exploitée par des personnes qui maîtrisent déjà bien la compétence ou le métier en question
  C’est un peu comme comparer mes recherches en tant qu’administrateur système avec celles de Jane à la comptabilité. Un utilisateur final non technique a bien plus de chances d’aggraver le problème, ou d’installer quelque chose de douteux depuis des résultats de recherche bourrés de publicités. Moi ou un employé du helpdesk avons beaucoup moins de chances de faire ça
  Je ne ferais pas confiance à une IA pour rédiger un document juridique important sans l’avis d’un avocat. De la même façon, je n’aimerais pas non plus dépendre de mon avocat pour écrire mon code avec une IA
- En tant qu’avocat et ingénieur logiciel, mon ressenti jusqu’ici est que le taux d’erreur des LLM est assez similaire entre le code et les projets de documents juridiques. Mais dans le contexte juridique, c’est plus problématique. Les documents juridiques n’ont pas plusieurs des garde-fous structurels présents dans le code
  Les documents juridiques n’ont ni tests automatisés, ni typage statique, ni environnement de test, ni journalisation/instrumentation d’observabilité, ni sandboxing
  Le délai entre la rédaction et le « déploiement » rend aussi la boucle de débogage bien moins efficace et plus coûteuse. Du code peut être déployé en production en quelques secondes, on voit l’erreur dans les logs et on peut déboguer aussitôt. Mais les erreurs dans un contrat ou un document déposé au tribunal ne sont découvertes qu’au bout d’au moins plusieurs jours, et souvent plusieurs années ; à ce stade, il est fréquemment déjà impossible de les corriger. Les erreurs sont donc plus difficiles à détecter comme à résoudre
  Les conséquences des erreurs sont aussi généralement bien plus graves. Parce qu’elles peuvent être irréparables, et parce qu’une erreur juridique peut mettre en danger la vie, la liberté ou un patrimoine important de quelqu’un. Bien sûr, un bug dans un système critique pour la sécurité peut être aussi grave, voire pire, qu’une erreur juridique ; ce n’est donc pas une distinction absolue. Mais, de façon générale, la plupart des logiciels sont moins risqués que la plupart des documents juridiques
  À l’inverse, les LLM semblent meilleurs pour le style et la structure de base des documents juridiques que pour le code. Suivre le format IRAC, adosser des citations à des propositions juridiques, écrire des phrases compréhensibles, ce genre de choses. Bien sûr, les hallucinations restent un problème. Côté code, ce serait l’équivalent de bonnes annotations, de la cohésion, d’un usage cohérent des design patterns, de la couverture de tests, de noms de variables clairs ou encore de bonnes pratiques comme DRY
  S’ils sont meilleurs sur ce type d’indicateurs qualitatifs, c’est peut-être parce que même les documents juridiques les plus longs ont en général une structure plus simple et moins de lignes de texte qu’une grande codebase complexe. Ou bien parce que les LLM ont été davantage entraînés sur du texte en langage naturel que sur du code, ou encore parce que le langage naturel est plus tolérant que le code. De petites différences d’expression ou de grammaire ont peu de chances de changer radicalement l’interprétation d’un document, alors qu’une erreur sur un seul caractère dans du code peut avoir des conséquences énormes
- Dire que la rédaction d’un testament est sans danger, pas du tout. Pour l’exécuteur testamentaire qui doit gérer un testament IA défectueux, certainement pas. J’ai réglé la succession de mon père ce printemps, et même la succession la plus simple a été une procédure frustrante et déroutante
- Je ne considère pas la rédaction d’un testament comme inoffensive. Si c’est mal rédigé, des proches peuvent hériter d’un énorme casse-tête et devoir subir une procédure d’homologation qui durera des mois, voire des années
Même si cette étude en particulier est mauvaise, ce n’est globalement pas si surprenant.
Une partie du travail juridique consiste à analyser de gros volumes de texte, à en tirer des conclusions, puis à rédiger d’autres textes sur cette base. C’est littéralement le domaine de prédilection des LLM.
Les avocats qui font ce type de travail devraient être tout en haut de la file d’attente du chômage. Bien avant les programmeurs, il n’y a vraiment pas de comparaison.
- En théorie, dire que c’est le domaine de prédilection des LLM ne signifie pas que les LLM peuvent effectivement faire ce travail. Il faut toujours le démontrer, indépendamment de toute intuition préalable. Le droit est un système où des vies sont en jeu et il doit être soumis au plus haut niveau de validation.
- C’est vrai que c’est le domaine de prédilection des LLM. Mais du point de vue de l’usage des LLM, la programmation présente plus d’avantages que le droit.
  On peut exécuter la logique et construire des boucles à partir de la sortie. Il est plus facile de mettre en place un apprentissage par renforcement plus utile, et aussi de créer des données d’entraînement synthétiques. L’usage d’outils et la parallélisation d’agents sont également pris en charge plus naturellement. L’intégration via API est aussi plus simple que face aux rares API fournies par les systèmes judiciaires.
  La programmation encode explicitement les abstractions au niveau des fonctions et des modules, ce qui facilite davantage la mise en graphe des connaissances, le raisonnement et la construction par-dessus, que de simples fragments de texte.
- On voit le même problème de l’IA à la fois dans la programmation et dans le droit.
  L’IA ressemble à une croûte sur une blessure. Elle comble temporairement des failles, se précipite pour remplir les vides, mais ne sera probablement pas la solution finale.
  Les modèles ont montré qu’il existait une énorme demande insatisfaite de littératie, à la fois dans le logiciel et dans le droit. Le choix est désormais soit de traiter les causes structurelles de cette demande insatisfaite, soit de les recouvrir en empilant des couches de croûtes d’IA.
- L’objet de cette étude, ce sont des universitaires. Ce n’est pas pour les dénigrer, eux ou leur travail, mais c’est très différent des opérations ou du contentieux pratiqués dans le BigLaw.
  C’est beaucoup plus centré sur l’analyse et la synthèse de textes existants, et ces textes eux-mêmes se prêtent plus facilement à l’entraînement des LLM : lois, jurisprudence, revues juridiques, manuels, etc.
  Il s’agit donc probablement du type de travail juridique le plus facile à transformer par les LLM, mais aussi potentiellement du moins valorisé. Les professeurs de droit ne sont pas payés autant que les avocats de BigLaw. Cette approche ne se généralisera donc pas telle quelle. Cela ne veut pas dire que l’IA ne percera pas dans le BigLaw, mais ce sera un autre défi.
Je comprends pourquoi la discussion sur cet article prend cette direction, mais l’étude elle-même se concentre sur la possibilité que les LLM fonctionnent comme tuteurs en droit. Étendre cela à la question de savoir si les LLM remplaceront les avocats est intéressant, mais ce n’était pas le sujet de l’étude.
Si on présente cela comme l’usage des LLM comme tuteurs juridiques pour réduire le coût de l’enseignement du droit, cela semble socialement positif. De plus, si les systèmes LLM récents peuvent accéder à des références juridiques, il paraît intuitivement plausible qu’ils puissent répondre de façon complète aux questions posées par les étudiants, tout en fournissant des pistes ou des références directes vers le matériel pédagogique ou les sources primaires. Les résultats de l’étude semblent aller dans ce sens.
Les auteurs soulignent explicitement et volontairement que beaucoup de questions juridiques n’appellent pas une réponse calculée et isolée, mais nécessitent une contextualisation. Les résultats suggèrent que des systèmes basés sur des LLM peuvent, grâce à la « génération d’un algorithme de meilleur ajustement probabiliste » propre aux modèles de langage modernes, contextualiser de manière adéquate les questions des étudiants, expliquer les compromis ou les complexités implicites dans ces questions, puis, point crucial, expliquer cette complexité aux étudiants d’une manière conforme aux standards professionnels des enseignants en droit.
En pratique, j’espère que ces résultats donneront un peu plus confiance aux lecteurs de HN lorsqu’ils posent des questions juridiques à un LLM, et qu’ils peuvent espérer une réponse expliquant la complexité du droit liée à leur question. C’est une bonne nouvelle et, si le temps le permet, c’est probablement le minimum de travail préparatoire que nous devrions faire avant de consulter un véritable avocat.
En revanche, je ne pense pas que cette étude indique que les LLM soient réellement prêts à fournir des conseils juridiques directs. C’est comparable au fait qu’un manuel de droit ne remplace pas un conseil juridique, ou plus précisément au fait que tomber par hasard sur une affaire juridique à peu près semblable à la mienne ne garantit pas le même résultat.
- Cela semble montrer que les LLM sont suffisamment intelligents pour être utilisés dans un contexte d’enseignement du droit.
La Figure I.1 en dit long. La longueur de la réponse ressort comme le prédicteur le plus fort du taux de victoire. Cela pourrait venir d’un défaut méthodologique de l’étude.
On a demandé aux professeurs de répondre de manière concise. C’était du type : « veuillez rédiger brièvement ; chaque réponse ne devrait pas prendre plus de 3 minutes », ce qui les a probablement poussés à écrire court. Dans un tel cadre, il se peut aussi que les professeurs n’aient pas consacré beaucoup d’efforts à leurs réponses écrites. Ce n’est pas le titre que les auteurs ont en tête.
Je suis surpris que Stanford Law ait validé un titre de communiqué aussi excessif. Quelque chose comme : « pour des questions typiques de contrats en première année de droit, les étudiants ont préféré les réponses générées par l’IA à celles générées par les professeurs de droit » aurait sans doute été plus juste.
- Le titre corrigé est exact. C’est étrange d’entendre des universitaires formuler des affirmations gonflées comme s’ils cherchaient à faire monter leur valorisation comme des PDG de grands laboratoires de recherche.
Mon hypothèse la plus probable est que Gemini a été entraîné sur le manuel même que ces questions cherchaient à évaluer, et qu’il était donc plus fort sur le rappel explicite de ces questions ou de questions proches.
D’après ce qui est écrit dans la méthodologie de l’article, il s’agit d’un cours d’introduction assez limité.
- En plus de cela, cette étude a été menée au HAI de Stanford, semble présenter un biais manifeste, et l’article n’inclut curieusement aucune déclaration de conflit d’intérêts.
  Correction : je viens d’apprendre que Google est un donateur majeur du HAI. Dans ce cas, cette étude a été au moins partiellement financée par Google. C’est probablement aussi pour cela que les auteurs n’ont pas pu déclarer l’absence de conflit d’intérêts.
Le domaine juridique est intrinsèquement idéal pour les modèles de langage d’IA, parce qu’au fond tout repose sur des textes interconnectés.
Je pense qu’on pourrait y voir une vague de licenciements encore plus importante que dans l’IT. Mais il y aura probablement un lobbying plus puissant, et une tendance à énormément gonfler la valeur de son propre travail pour empêcher toute intrusion extérieure.
- En tant qu’avocat, je pense que cette intuition sur les LLM est juste. Le droit est un jeu de langage dans lequel les LLM excellent.
  Mais la vague a déjà commencé, et elle va être énorme. Les clients entreprises exigent l’usage de l’IA. Ils ne veulent pas payer pour qu’un collaborateur passe des heures à rédiger un brouillon puis qu’un associé le relise. Ils veulent que l’associé senior utilise l’IA puis se contente de corriger.
Ce que les LLM ne peuvent pas faire, c’est expliquer, en contre-interrogatoire, pourquoi ils ont dit telle chose. Ils ne font qu’halluciner la meilleure explication possible de la raison pour laquelle quelqu’un aurait pu dire ce qu’ils ont dit, et peuvent tout aussi bien formuler de manière plausible pourquoi quelqu’un d’autre aurait pu dire autre chose
La question « Pourquoi avoir dit ceci et pas cela ? » ne force pas à expliciter le fondement de l’énoncé ; elle ne fait que produire un nouvel énoncé plus complexe
- C’est vrai dans les cas simples
  Mais il existe des techniques de construction de contexte pour les LLM qui figent le résultat final dans une structure de données. Cette structure conserve l’organisation des affirmations qui soutiennent la conclusion contenue dans le texte produit. L’organisation de la logique dans le langage est un domaine riche, avec de nombreux motifs, mais celui que j’ai préféré est le Claim Dependency Graph, qui modélise les relations entre affirmations atomiques sous forme d’arêtes de graphe
  On peut effectuer beaucoup d’opérations sur ce type de structure, et « reconstruire comment cette conclusion a été atteinte » en fait clairement partie
- Les humains ont de véritables motivations qui structurent les pensées qu’ils expriment. Les LLM, eux, en viennent à produire des pensées nouvellement générées en réponse au fil des questions
- Cela vaut probablement aussi pour les humains. Dans une conversation, nous répondons souvent instinctivement, puis nous ne construisons une rationalisation a posteriori que lorsqu’on nous le demande
  Même pour des pensées plus mûrement réfléchies, si nous avons de la chance, nous pouvons nous souvenir d’une « trace de raisonnement », mais notre introspection s’arrête là. À moins d’être neuroscientifique, nous ne savons même pas combien nous avons de neurones, encore moins comment ils produisent la pensée
  Le raisonnement motivé entrave encore davantage l’introspection, et si l’on y ajoute la malhonnêteté et les erreurs de communication, nous ne parvenons même pas à nous transmettre correctement les informations limitées qu’il nous reste
  La recherche sur l’interprétabilité des modèles a beaucoup progressé. De manière controversée, on peut même soutenir qu’on sait déjà mieux expliquer la prise de décision d’une IA que celle du cerveau humain
- Si les LLM hallucinent, c’est parce que les humains hallucinent aussi
  Demander à un LLM d’annoter ses sources peut, comme chez l’humain, fortement améliorer le pattern matching qui imite de près le raisonnement
  Je comprends ce que vise la question « Pourquoi avoir dit ceci et pas cela ? ». J’ai simplement vu d’autres façons de poser la question pour éviter que les LLM ne sur-réagissent dans l’autre sens

Une étude de Stanford Law montre que l’IA obtient de meilleurs résultats que les professeurs de droit

Conception de l’étude et principaux résultats

Signification et limites pour l’enseignement du droit

À lire aussi

2 commentaires

Avis sur Hacker News