Combattre le feu par le feu : étendre les examens oraux grâce aux agents vocaux d’IA

(behind-the-enemy-lines.com)

2 points par GN⁺ 2026-01-05 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Avec la généralisation des grands modèles de langage (LLM), les devoirs et examens classiques ne permettent plus de mesurer la compréhension réelle des étudiants ; l’équipe enseignante a donc expérimenté des examens oraux en temps réel à l’aide de l’IA vocale d’ElevenLabs
L’examen se compose de deux parties, l’explication du projet et des questions de mise en situation, dans lesquelles l’étudiant doit expliquer directement à l’IA les fondements de ses décisions et son raisonnement
Claude, Gemini et ChatGPT ont noté conjointement selon une approche de délibération afin d’améliorer la cohérence et la qualité du feedback, révélant aussi un point faible du cours réel (la conception expérimentale)
36 étudiants sur 9 jours ont été évalués, pour une moyenne de 25 minutes chacun, avec un coût de 0,42 dollar par étudiant, soit un montant très faible
Les examens oraux par IA pourraient devenir un nouveau modèle d’évaluation extensible centré sur la compréhension

Constat du problème et contexte d’adoption des examens oraux

La qualité des travaux étudiants était anormalement élevée, suscitant des soupçons de rédaction par IA, et de nombreux cas ont montré qu’en cas de questions aléatoires, les étudiants étaient incapables de s’expliquer eux-mêmes
Avec l’accessibilité des LLM, la fiabilité des devoirs et examens traditionnels s’est effondrée, faisant émerger l’examen oral comme alternative capable d’évaluer le raisonnement en temps réel
Cependant, les examens oraux ont la limite de ne pas être exploitables à grande échelle ; pour y remédier, des agents vocaux d’IA ont été utilisés

ElevenLabs Conversational AI a été utilisé pour intégrer des éléments complexes comme la reconnaissance vocale, la synthèse vocale et la gestion des tours de parole
Des variables dynamiques transmettaient le nom de l’étudiant et les informations sur le projet, et une structure de workflow séparait les agents d’authentification, de projet et de cas pratiques
- Agent d’authentification : vérification de l’identifiant étudiant
- Agent de projet : questions fondées sur les documents remis
- Agent de cas pratique : sélection aléatoire d’un cas puis interrogation
La séparation en plusieurs petits agents a permis de prévenir les dérives conversationnelles et de faciliter le débogage

Au total, 36 étudiants sur 9 jours, pour une durée moyenne de 25 minutes (minimum 9, maximum 64)
En moyenne, 65 échanges de messages, pour un coût total de 15 dollars (0,42 dollar par étudiant)
89 % des résultats de notation par LLM concordaient à 1 point près, et l’examen le plus court (9 minutes) a obtenu la meilleure note (19/20)
Par rapport à une correction humaine, cela représente plus de 50 fois moins de coûts, tout en automatisant l’évaluation, l’enregistrement et le feedback en temps réel

Feedback étudiant indiquant un ton de voix intimidant → tests A/B prévus avec différentes voix
Problème d’empilement des questions → ajout de la règle « une seule question à la fois »
Altération du sens lors de la répétition des questions → consigne explicite de « répéter la phrase à l’identique »
Temps de réflexion insuffisant → délai d’attente porté à 10 secondes
Échec de la sélection aléatoire des cas → correction via un mapping aléatoire au niveau du code

Claude, Gemini et ChatGPT notent indépendamment puis se relisent mutuellement et ajustent leurs notes
Le taux de désaccord lors de la première notation était élevé, mais après une seconde délibération, le taux de concordance à 1 point près est passé de 62 % à 85 %
Gemini a été ajusté en moyenne de 2 points à la baisse, tandis que la cohérence entre Claude et OpenAI était élevée
Les écarts de notation étaient les plus importants sur l’élément conception expérimentale, ce qui a été attribué à l’ambiguïté des réponses étudiantes
La notation par IA est plus stricte mais équitable que celle des humains, et son feedback est précis et orienté vers l’action

L’analyse des performances par thème montre que la conception expérimentale, avec une moyenne de 1,94/4, est la plus faible
- Note de 0 : 8 %, note de 1 : 19 %, note de 2 : 42 %, note de 4 : 0 %
Il est apparu que la cause venait d’une explication insuffisante des tests A/B dans le cours, confirmant la nécessité pour l’équipe enseignante d’améliorer son enseignement
Aucune corrélation entre la durée de l’examen et la note (r=-0.03) ; les réponses courtes et claires étaient associées à de meilleures notes

Les étudiants devaient obligatoirement utiliser webcam et enregistrement audio, afin de bloquer toute aide extérieure
La structure de l’examen et les types de questions étaient régis par des consignes publiées, éliminant le risque de fuite des sujets
Les étudiants pouvaient s’entraîner de manière répétée avec la même structure, renforçant ainsi l’apprentissage réel

Seuls 13 % préféraient l’examen oral par IA, 57 % préféraient l’examen écrit traditionnel, et 83 % ont déclaré avoir ressenti davantage de stress
Toutefois, 70 % ont reconnu qu’il évaluait bien la compréhension réelle, ce qui témoigne d’une forte confiance dans l’évaluation
La flexibilité de pouvoir passer l’examen au moment et à l’endroit de son choix a été perçue positivement
Améliorations demandées : ralentir le rythme, adopter une voix plus calme, poser une seule question à la fois

Réglage de la vitesse et diversification des voix, questions RAG fondées sur les travaux remis par l’étudiant, distribution des cas via une graine aléatoire explicite
Mise en place d’un déclencheur de relecture humaine en cas de désaccord entre LLM sur la note
Renforcement de l’accessibilité : mode d’entraînement, temps supplémentaire, moyens alternatifs

Les devoirs et examens écrits sont neutralisés à l’ère des LLM, ce qui impose de passer à une évaluation du raisonnement en temps réel
Les examens oraux par IA mesurent compréhension, jugement et pensée improvisée, et constituent une nouvelle forme d’évaluation exploitable à grande échelle
Ils permettent de renforcer l’apprentissage par la répétition des entraînements sans risque de fuite des sujets
« Fight fire with fire » — une innovation d’évaluation qui résout par l’IA les problèmes créés par l’IA