2 points par GN⁺ 2026-01-05 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Avec la généralisation des grands modèles de langage (LLM), les devoirs et examens classiques ne permettent plus de mesurer la compréhension réelle des étudiants ; l’équipe enseignante a donc expérimenté des examens oraux en temps réel à l’aide de l’IA vocale d’ElevenLabs
  • L’examen se compose de deux parties, l’explication du projet et des questions de mise en situation, dans lesquelles l’étudiant doit expliquer directement à l’IA les fondements de ses décisions et son raisonnement
  • Claude, Gemini et ChatGPT ont noté conjointement selon une approche de délibération afin d’améliorer la cohérence et la qualité du feedback, révélant aussi un point faible du cours réel (la conception expérimentale)
  • 36 étudiants sur 9 jours ont été évalués, pour une moyenne de 25 minutes chacun, avec un coût de 0,42 dollar par étudiant, soit un montant très faible
  • Les examens oraux par IA pourraient devenir un nouveau modèle d’évaluation extensible centré sur la compréhension

Constat du problème et contexte d’adoption des examens oraux

  • La qualité des travaux étudiants était anormalement élevée, suscitant des soupçons de rédaction par IA, et de nombreux cas ont montré qu’en cas de questions aléatoires, les étudiants étaient incapables de s’expliquer eux-mêmes
  • Avec l’accessibilité des LLM, la fiabilité des devoirs et examens traditionnels s’est effondrée, faisant émerger l’examen oral comme alternative capable d’évaluer le raisonnement en temps réel
  • Cependant, les examens oraux ont la limite de ne pas être exploitables à grande échelle ; pour y remédier, des agents vocaux d’IA ont été utilisés

Configuration de l’agent vocal basé sur ElevenLabs

  • ElevenLabs Conversational AI a été utilisé pour intégrer des éléments complexes comme la reconnaissance vocale, la synthèse vocale et la gestion des tours de parole
  • Des variables dynamiques transmettaient le nom de l’étudiant et les informations sur le projet, et une structure de workflow séparait les agents d’authentification, de projet et de cas pratiques
    • Agent d’authentification : vérification de l’identifiant étudiant
    • Agent de projet : questions fondées sur les documents remis
    • Agent de cas pratique : sélection aléatoire d’un cas puis interrogation
  • La séparation en plusieurs petits agents a permis de prévenir les dérives conversationnelles et de faciliter le débogage

Déroulement de l’examen et résultats chiffrés

  • Au total, 36 étudiants sur 9 jours, pour une durée moyenne de 25 minutes (minimum 9, maximum 64)
  • En moyenne, 65 échanges de messages, pour un coût total de 15 dollars (0,42 dollar par étudiant)
  • 89 % des résultats de notation par LLM concordaient à 1 point près, et l’examen le plus court (9 minutes) a obtenu la meilleure note (19/20)
  • Par rapport à une correction humaine, cela représente plus de 50 fois moins de coûts, tout en automatisant l’évaluation, l’enregistrement et le feedback en temps réel

Tâtonnements et mesures d’amélioration

  • Feedback étudiant indiquant un ton de voix intimidant → tests A/B prévus avec différentes voix
  • Problème d’empilement des questions → ajout de la règle « une seule question à la fois »
  • Altération du sens lors de la répétition des questions → consigne explicite de « répéter la phrase à l’identique »
  • Temps de réflexion insuffisant → délai d’attente porté à 10 secondes
  • Échec de la sélection aléatoire des cas → correction via un mapping aléatoire au niveau du code

Notation délibérative par LLM (council grading)

  • Claude, Gemini et ChatGPT notent indépendamment puis se relisent mutuellement et ajustent leurs notes
  • Le taux de désaccord lors de la première notation était élevé, mais après une seconde délibération, le taux de concordance à 1 point près est passé de 62 % à 85 %
  • Gemini a été ajusté en moyenne de 2 points à la baisse, tandis que la cohérence entre Claude et OpenAI était élevée
  • Les écarts de notation étaient les plus importants sur l’élément conception expérimentale, ce qui a été attribué à l’ambiguïté des réponses étudiantes
  • La notation par IA est plus stricte mais équitable que celle des humains, et son feedback est précis et orienté vers l’action

Enseignements pédagogiques et diagnostic

  • L’analyse des performances par thème montre que la conception expérimentale, avec une moyenne de 1,94/4, est la plus faible
    • Note de 0 : 8 %, note de 1 : 19 %, note de 2 : 42 %, note de 4 : 0 %
  • Il est apparu que la cause venait d’une explication insuffisante des tests A/B dans le cours, confirmant la nécessité pour l’équipe enseignante d’améliorer son enseignement
  • Aucune corrélation entre la durée de l’examen et la note (r=-0.03) ; les réponses courtes et claires étaient associées à de meilleures notes

Prévention de la triche et transparence

  • Les étudiants devaient obligatoirement utiliser webcam et enregistrement audio, afin de bloquer toute aide extérieure
  • La structure de l’examen et les types de questions étaient régis par des consignes publiées, éliminant le risque de fuite des sujets
  • Les étudiants pouvaient s’entraîner de manière répétée avec la même structure, renforçant ainsi l’apprentissage réel

Réaction des étudiants

  • Seuls 13 % préféraient l’examen oral par IA, 57 % préféraient l’examen écrit traditionnel, et 83 % ont déclaré avoir ressenti davantage de stress
  • Toutefois, 70 % ont reconnu qu’il évaluait bien la compréhension réelle, ce qui témoigne d’une forte confiance dans l’évaluation
  • La flexibilité de pouvoir passer l’examen au moment et à l’endroit de son choix a été perçue positivement
  • Améliorations demandées : ralentir le rythme, adopter une voix plus calme, poser une seule question à la fois

Plan d’amélioration futur

  • Réglage de la vitesse et diversification des voix, questions RAG fondées sur les travaux remis par l’étudiant, distribution des cas via une graine aléatoire explicite
  • Mise en place d’un déclencheur de relecture humaine en cas de désaccord entre LLM sur la note
  • Renforcement de l’accessibilité : mode d’entraînement, temps supplémentaire, moyens alternatifs

Conclusion : une évaluation centrée sur la compréhension, extensible grâce à l’IA

  • Les devoirs et examens écrits sont neutralisés à l’ère des LLM, ce qui impose de passer à une évaluation du raisonnement en temps réel
  • Les examens oraux par IA mesurent compréhension, jugement et pensée improvisée, et constituent une nouvelle forme d’évaluation exploitable à grande échelle
  • Ils permettent de renforcer l’apprentissage par la répétition des entraînements sans risque de fuite des sujets
  • « Fight fire with fire » — une innovation d’évaluation qui résout par l’IA les problèmes créés par l’IA

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.