Combattre le feu par le feu : étendre les examens oraux grâce aux agents vocaux d’IA
(behind-the-enemy-lines.com)- Avec la généralisation des grands modèles de langage (LLM), les devoirs et examens classiques ne permettent plus de mesurer la compréhension réelle des étudiants ; l’équipe enseignante a donc expérimenté des examens oraux en temps réel à l’aide de l’IA vocale d’ElevenLabs
- L’examen se compose de deux parties, l’explication du projet et des questions de mise en situation, dans lesquelles l’étudiant doit expliquer directement à l’IA les fondements de ses décisions et son raisonnement
- Claude, Gemini et ChatGPT ont noté conjointement selon une approche de délibération afin d’améliorer la cohérence et la qualité du feedback, révélant aussi un point faible du cours réel (la conception expérimentale)
- 36 étudiants sur 9 jours ont été évalués, pour une moyenne de 25 minutes chacun, avec un coût de 0,42 dollar par étudiant, soit un montant très faible
- Les examens oraux par IA pourraient devenir un nouveau modèle d’évaluation extensible centré sur la compréhension
Constat du problème et contexte d’adoption des examens oraux
- La qualité des travaux étudiants était anormalement élevée, suscitant des soupçons de rédaction par IA, et de nombreux cas ont montré qu’en cas de questions aléatoires, les étudiants étaient incapables de s’expliquer eux-mêmes
- Avec l’accessibilité des LLM, la fiabilité des devoirs et examens traditionnels s’est effondrée, faisant émerger l’examen oral comme alternative capable d’évaluer le raisonnement en temps réel
- Cependant, les examens oraux ont la limite de ne pas être exploitables à grande échelle ; pour y remédier, des agents vocaux d’IA ont été utilisés
Configuration de l’agent vocal basé sur ElevenLabs
- ElevenLabs Conversational AI a été utilisé pour intégrer des éléments complexes comme la reconnaissance vocale, la synthèse vocale et la gestion des tours de parole
- Des variables dynamiques transmettaient le nom de l’étudiant et les informations sur le projet, et une structure de workflow séparait les agents d’authentification, de projet et de cas pratiques
- Agent d’authentification : vérification de l’identifiant étudiant
- Agent de projet : questions fondées sur les documents remis
- Agent de cas pratique : sélection aléatoire d’un cas puis interrogation
- La séparation en plusieurs petits agents a permis de prévenir les dérives conversationnelles et de faciliter le débogage
Déroulement de l’examen et résultats chiffrés
- Au total, 36 étudiants sur 9 jours, pour une durée moyenne de 25 minutes (minimum 9, maximum 64)
- En moyenne, 65 échanges de messages, pour un coût total de 15 dollars (0,42 dollar par étudiant)
- 89 % des résultats de notation par LLM concordaient à 1 point près, et l’examen le plus court (9 minutes) a obtenu la meilleure note (19/20)
- Par rapport à une correction humaine, cela représente plus de 50 fois moins de coûts, tout en automatisant l’évaluation, l’enregistrement et le feedback en temps réel
Tâtonnements et mesures d’amélioration
- Feedback étudiant indiquant un ton de voix intimidant → tests A/B prévus avec différentes voix
- Problème d’empilement des questions → ajout de la règle « une seule question à la fois »
- Altération du sens lors de la répétition des questions → consigne explicite de « répéter la phrase à l’identique »
- Temps de réflexion insuffisant → délai d’attente porté à 10 secondes
- Échec de la sélection aléatoire des cas → correction via un mapping aléatoire au niveau du code
Notation délibérative par LLM (council grading)
- Claude, Gemini et ChatGPT notent indépendamment puis se relisent mutuellement et ajustent leurs notes
- Le taux de désaccord lors de la première notation était élevé, mais après une seconde délibération, le taux de concordance à 1 point près est passé de 62 % à 85 %
- Gemini a été ajusté en moyenne de 2 points à la baisse, tandis que la cohérence entre Claude et OpenAI était élevée
- Les écarts de notation étaient les plus importants sur l’élément conception expérimentale, ce qui a été attribué à l’ambiguïté des réponses étudiantes
- La notation par IA est plus stricte mais équitable que celle des humains, et son feedback est précis et orienté vers l’action
Enseignements pédagogiques et diagnostic
- L’analyse des performances par thème montre que la conception expérimentale, avec une moyenne de 1,94/4, est la plus faible
- Note de 0 : 8 %, note de 1 : 19 %, note de 2 : 42 %, note de 4 : 0 %
- Il est apparu que la cause venait d’une explication insuffisante des tests A/B dans le cours, confirmant la nécessité pour l’équipe enseignante d’améliorer son enseignement
- Aucune corrélation entre la durée de l’examen et la note (r=-0.03) ; les réponses courtes et claires étaient associées à de meilleures notes
Prévention de la triche et transparence
- Les étudiants devaient obligatoirement utiliser webcam et enregistrement audio, afin de bloquer toute aide extérieure
- La structure de l’examen et les types de questions étaient régis par des consignes publiées, éliminant le risque de fuite des sujets
- Les étudiants pouvaient s’entraîner de manière répétée avec la même structure, renforçant ainsi l’apprentissage réel
Réaction des étudiants
- Seuls 13 % préféraient l’examen oral par IA, 57 % préféraient l’examen écrit traditionnel, et 83 % ont déclaré avoir ressenti davantage de stress
- Toutefois, 70 % ont reconnu qu’il évaluait bien la compréhension réelle, ce qui témoigne d’une forte confiance dans l’évaluation
- La flexibilité de pouvoir passer l’examen au moment et à l’endroit de son choix a été perçue positivement
- Améliorations demandées : ralentir le rythme, adopter une voix plus calme, poser une seule question à la fois
Plan d’amélioration futur
- Réglage de la vitesse et diversification des voix, questions RAG fondées sur les travaux remis par l’étudiant, distribution des cas via une graine aléatoire explicite
- Mise en place d’un déclencheur de relecture humaine en cas de désaccord entre LLM sur la note
- Renforcement de l’accessibilité : mode d’entraînement, temps supplémentaire, moyens alternatifs
Conclusion : une évaluation centrée sur la compréhension, extensible grâce à l’IA
- Les devoirs et examens écrits sont neutralisés à l’ère des LLM, ce qui impose de passer à une évaluation du raisonnement en temps réel
- Les examens oraux par IA mesurent compréhension, jugement et pensée improvisée, et constituent une nouvelle forme d’évaluation exploitable à grande échelle
- Ils permettent de renforcer l’apprentissage par la répétition des entraînements sans risque de fuite des sujets
- « Fight fire with fire » — une innovation d’évaluation qui résout par l’IA les problèmes créés par l’IA
1 commentaires
Avis Hacker News
J’ai l’impression que les données et les conclusions présentées dans l’article ne concordent pas
Même après avoir discuté avec une IA, les étudiants préféraient toujours les examens écrits
Les universités organisent des examens écrits en empêchant la triche depuis des siècles, et après le Covid elles ont introduit la « roue carrée » de l’évaluation en ligne, alors qu’en réalité il vaudrait mieux revenir à la roue ronde
Il n’a même pas vérifié la précision de l’évaluation par LLM. Au final, on a l’impression qu’il a fixé sa conclusion à l’avance puis adapté les données
Dire que « les examens à faire chez soi sont terminés » est une évidence, pas le résultat de l’expérience
Aujourd’hui, il est devenu trop facile de tricher même seul
En outre, les méthodes d’évaluation devraient varier selon les disciplines, et les domaines récents comme l’informatique manquent encore de maturité en matière d’évaluation
Enfin, la préférence des étudiants n’est pas un critère pour juger de la qualité d’un examen
En pratique, il faut souvent expliquer le raisonnement derrière ses décisions devant d’autres personnes
Il est compréhensible qu’une génération ayant eu moins d’expériences en présentiel pendant le Covid ait peur de parler, mais ce type d’entraînement à surmonter l’anxiété peut au contraire être utile
Comme le risque de triche dans les examens à faire chez soi a augmenté, l’oral peut être une meilleure alternative même s’il n’est pas parfait
Avant, tous les examens se déroulaient sans aucune possibilité d’intervention de l’IA
On écrivait à la main au stylo, dans un gymnase surveillé par des examinateurs
Tricher signifiait l’exclusion, et seuls 1 % de plusieurs milliers d’étudiants obtenaient leur diplôme
Quand j’entends dire qu’il faut changer les examens à cause de l’IA, ça me paraît fou. La solution existait déjà
Au final, c’était une structure qui rejetait toute la responsabilité sur les étudiants, alors que le problème venait de la paresse des professeurs et du recyclage des sujets d’examen
La vraie solution consiste à créer de nouveaux sujets à chaque fois et à varier les épreuves
Je pense qu’il vaudrait mieux faire passer l’examen sur des ordinateurs fournis par l’établissement avec un environnement de développement
Si c’est vrai, alors chercher un format d’examen oral scalable a du sens
Il n’est pas nécessaire d’être obsédé par la scalabilité
Les universités ont de l’argent, les professeurs n’ont qu’à faire eux-mêmes les examens oraux
Dans les écoles doctorales allemandes aussi, on passait souvent des oraux, et ça fonctionnait bien
S’appuyer sur l’IA ressemble à un symbole de paresse
L’IA est utile pour les tâches répétitives, mais dans des situations adversariales, il est difficile de lui faire confiance
Moi aussi, j’ai passé des examens oraux en licence, et la variation d’attitude du professeur était si forte que la tension était extrême
Je doute qu’une IA puisse produire cette pression émotionnelle
Personnellement, ce sont plutôt les petites erreurs de l’IA qui m’agacent
Mais dans ce genre de situation, j’ai le cerveau qui se vide et je n’arrive plus à dire un mot. C’est vraiment pénible
Dans un processus de recrutement, on donnait autrefois des devoirs à faire chez soi, mais certains candidats n’étaient pas capables d’expliquer le code qu’ils avaient soumis
Depuis l’arrivée des LLM, la tentation de faire rédiger à la place par une IA est bien plus forte
Pourtant, nous devons évaluer la capacité de résolution de problèmes et de communication des candidats
Un entretien qui autorise les LLM finit par se transformer en « test de maîtrise de l’usage de l’IA »
Je ne suis pas d’accord avec la méthode de l’article, mais le problème soulevé est bien réel
La prochaine étape sera peut-être une IA qui répond à l’oral à la place de l’IA interrogatrice
Au final, l’être humain devra redevenir central
À l’avenir, ce sera encore plus sophistiqué avec des lunettes intelligentes, des micros à conduction osseuse, etc.
Au final, seuls les étudiants honnêtes mais souffrant d’anxiété sociale seront désavantagés
Ce serait bien d’organiser pendant le semestre des oraux blancs volontaires
Les étudiants pourraient s’habituer au format et aussi au ton de la voix
Dire qu’un oral est impossible avec environ 36 étudiants est surprenant
C’est précisément ce type de répétition qui correspond au véritable apprentissage
Qu’on me rembourse mes 25 $, mais je ne veux surtout pas qu’un LLM me fasse passer un examen
Si seuls certains étudiants sont tirés au sort, cela peut susciter à la fois de la motivation ou de la frustration
Même un oral de 10 minutes avec les meilleurs étudiants reste tout à fait possible
Rien qu’à imaginer être interrogé par une application vocale d’IA, ça semble affreux
Si cette méthode perdure, il faudra peut-être plutôt un modèle éducatif sans évaluation
J’en suis venu à dire facilement des choses que je n’aurais jamais dites à un humain
Je suis justement l’auteur de ce billet de blog
Nous avons simplement tenté une nouvelle approche dans notre cours d’IA
Il ne s’agissait pas de supprimer les examens écrits, mais d’ajouter l’oral comme un outil supplémentaire
L’objectif était de vérifier, dans le cadre d’un projet d’équipe, si l’étudiant comprenait réellement son propre travail
Les étudiants qui avaient eu une mauvaise note à l’oral avaient, comme prévu, une faible compréhension du projet
Avec 36 étudiants, des entretiens directs restent possibles, mais au-delà de 100, cela devient difficile
Surtout, certaines études indiquaient que l’IA fournit une évaluation cohérente parce qu’elle ne se fatigue pas. C’est pour cela que je lui ai fait confiance
Ce n’est pas différent d’utiliser un chariot élévateur dans une salle de sport
Cela peut passer pour des matières simples de niveau MBA, mais dans des matières qui exigent un jugement nuancé, l’IA n’est pas équitable
Pour ce type d’examen de simple vérification, je pense qu’il vaudrait encore mieux passer un QCM sur une borne
À notre époque, tous les examens étaient oraux
Les gros examens duraient deux jours, mais les professeurs et les assistants organisaient six sessions par an
L’une des raisons était la différence d’interprétation culturelle de l’équité
Dans des environnements très divers, les examens oraux peuvent alimenter des controverses sur les biais
S’ils peuvent faire corriger par une IA pour 5 $ et passer 20 heures à faire défiler leur téléphone, ils choisiront cette option