2 points par GN⁺ 2026-01-05 | 1 commentaires | Partager sur WhatsApp
  • Avec la généralisation des grands modèles de langage (LLM), les devoirs et examens classiques ne permettent plus de mesurer la compréhension réelle des étudiants ; l’équipe enseignante a donc expérimenté des examens oraux en temps réel à l’aide de l’IA vocale d’ElevenLabs
  • L’examen se compose de deux parties, l’explication du projet et des questions de mise en situation, dans lesquelles l’étudiant doit expliquer directement à l’IA les fondements de ses décisions et son raisonnement
  • Claude, Gemini et ChatGPT ont noté conjointement selon une approche de délibération afin d’améliorer la cohérence et la qualité du feedback, révélant aussi un point faible du cours réel (la conception expérimentale)
  • 36 étudiants sur 9 jours ont été évalués, pour une moyenne de 25 minutes chacun, avec un coût de 0,42 dollar par étudiant, soit un montant très faible
  • Les examens oraux par IA pourraient devenir un nouveau modèle d’évaluation extensible centré sur la compréhension

Constat du problème et contexte d’adoption des examens oraux

  • La qualité des travaux étudiants était anormalement élevée, suscitant des soupçons de rédaction par IA, et de nombreux cas ont montré qu’en cas de questions aléatoires, les étudiants étaient incapables de s’expliquer eux-mêmes
  • Avec l’accessibilité des LLM, la fiabilité des devoirs et examens traditionnels s’est effondrée, faisant émerger l’examen oral comme alternative capable d’évaluer le raisonnement en temps réel
  • Cependant, les examens oraux ont la limite de ne pas être exploitables à grande échelle ; pour y remédier, des agents vocaux d’IA ont été utilisés

Configuration de l’agent vocal basé sur ElevenLabs

  • ElevenLabs Conversational AI a été utilisé pour intégrer des éléments complexes comme la reconnaissance vocale, la synthèse vocale et la gestion des tours de parole
  • Des variables dynamiques transmettaient le nom de l’étudiant et les informations sur le projet, et une structure de workflow séparait les agents d’authentification, de projet et de cas pratiques
    • Agent d’authentification : vérification de l’identifiant étudiant
    • Agent de projet : questions fondées sur les documents remis
    • Agent de cas pratique : sélection aléatoire d’un cas puis interrogation
  • La séparation en plusieurs petits agents a permis de prévenir les dérives conversationnelles et de faciliter le débogage

Déroulement de l’examen et résultats chiffrés

  • Au total, 36 étudiants sur 9 jours, pour une durée moyenne de 25 minutes (minimum 9, maximum 64)
  • En moyenne, 65 échanges de messages, pour un coût total de 15 dollars (0,42 dollar par étudiant)
  • 89 % des résultats de notation par LLM concordaient à 1 point près, et l’examen le plus court (9 minutes) a obtenu la meilleure note (19/20)
  • Par rapport à une correction humaine, cela représente plus de 50 fois moins de coûts, tout en automatisant l’évaluation, l’enregistrement et le feedback en temps réel

Tâtonnements et mesures d’amélioration

  • Feedback étudiant indiquant un ton de voix intimidant → tests A/B prévus avec différentes voix
  • Problème d’empilement des questions → ajout de la règle « une seule question à la fois »
  • Altération du sens lors de la répétition des questions → consigne explicite de « répéter la phrase à l’identique »
  • Temps de réflexion insuffisant → délai d’attente porté à 10 secondes
  • Échec de la sélection aléatoire des cas → correction via un mapping aléatoire au niveau du code

Notation délibérative par LLM (council grading)

  • Claude, Gemini et ChatGPT notent indépendamment puis se relisent mutuellement et ajustent leurs notes
  • Le taux de désaccord lors de la première notation était élevé, mais après une seconde délibération, le taux de concordance à 1 point près est passé de 62 % à 85 %
  • Gemini a été ajusté en moyenne de 2 points à la baisse, tandis que la cohérence entre Claude et OpenAI était élevée
  • Les écarts de notation étaient les plus importants sur l’élément conception expérimentale, ce qui a été attribué à l’ambiguïté des réponses étudiantes
  • La notation par IA est plus stricte mais équitable que celle des humains, et son feedback est précis et orienté vers l’action

Enseignements pédagogiques et diagnostic

  • L’analyse des performances par thème montre que la conception expérimentale, avec une moyenne de 1,94/4, est la plus faible
    • Note de 0 : 8 %, note de 1 : 19 %, note de 2 : 42 %, note de 4 : 0 %
  • Il est apparu que la cause venait d’une explication insuffisante des tests A/B dans le cours, confirmant la nécessité pour l’équipe enseignante d’améliorer son enseignement
  • Aucune corrélation entre la durée de l’examen et la note (r=-0.03) ; les réponses courtes et claires étaient associées à de meilleures notes

Prévention de la triche et transparence

  • Les étudiants devaient obligatoirement utiliser webcam et enregistrement audio, afin de bloquer toute aide extérieure
  • La structure de l’examen et les types de questions étaient régis par des consignes publiées, éliminant le risque de fuite des sujets
  • Les étudiants pouvaient s’entraîner de manière répétée avec la même structure, renforçant ainsi l’apprentissage réel

Réaction des étudiants

  • Seuls 13 % préféraient l’examen oral par IA, 57 % préféraient l’examen écrit traditionnel, et 83 % ont déclaré avoir ressenti davantage de stress
  • Toutefois, 70 % ont reconnu qu’il évaluait bien la compréhension réelle, ce qui témoigne d’une forte confiance dans l’évaluation
  • La flexibilité de pouvoir passer l’examen au moment et à l’endroit de son choix a été perçue positivement
  • Améliorations demandées : ralentir le rythme, adopter une voix plus calme, poser une seule question à la fois

Plan d’amélioration futur

  • Réglage de la vitesse et diversification des voix, questions RAG fondées sur les travaux remis par l’étudiant, distribution des cas via une graine aléatoire explicite
  • Mise en place d’un déclencheur de relecture humaine en cas de désaccord entre LLM sur la note
  • Renforcement de l’accessibilité : mode d’entraînement, temps supplémentaire, moyens alternatifs

Conclusion : une évaluation centrée sur la compréhension, extensible grâce à l’IA

  • Les devoirs et examens écrits sont neutralisés à l’ère des LLM, ce qui impose de passer à une évaluation du raisonnement en temps réel
  • Les examens oraux par IA mesurent compréhension, jugement et pensée improvisée, et constituent une nouvelle forme d’évaluation exploitable à grande échelle
  • Ils permettent de renforcer l’apprentissage par la répétition des entraînements sans risque de fuite des sujets
  • « Fight fire with fire » — une innovation d’évaluation qui résout par l’IA les problèmes créés par l’IA

1 commentaires

 
GN⁺ 2026-01-05
Avis Hacker News
  • J’ai l’impression que les données et les conclusions présentées dans l’article ne concordent pas
    Même après avoir discuté avec une IA, les étudiants préféraient toujours les examens écrits
    Les universités organisent des examens écrits en empêchant la triche depuis des siècles, et après le Covid elles ont introduit la « roue carrée » de l’évaluation en ligne, alors qu’en réalité il vaudrait mieux revenir à la roue ronde

    • Il est surprenant que l’auteur parle d’un « grand succès » alors que les résultats de l’expérience n’étaient clairement pas bons
      Il n’a même pas vérifié la précision de l’évaluation par LLM. Au final, on a l’impression qu’il a fixé sa conclusion à l’avance puis adapté les données
    • La phrase citée n’est pas une conclusion mais une simple affirmation
      Dire que « les examens à faire chez soi sont terminés » est une évidence, pas le résultat de l’expérience
      Aujourd’hui, il est devenu trop facile de tricher même seul
      En outre, les méthodes d’évaluation devraient varier selon les disciplines, et les domaines récents comme l’informatique manquent encore de maturité en matière d’évaluation
      Enfin, la préférence des étudiants n’est pas un critère pour juger de la qualité d’un examen
    • Le fait que les étudiants préfèrent les examens écrits ne signifie pas que ce soit la meilleure solution
      En pratique, il faut souvent expliquer le raisonnement derrière ses décisions devant d’autres personnes
      Il est compréhensible qu’une génération ayant eu moins d’expériences en présentiel pendant le Covid ait peur de parler, mais ce type d’entraînement à surmonter l’anxiété peut au contraire être utile
    • Dans les cours en ligne, les examens écrits sont difficiles
      Comme le risque de triche dans les examens à faire chez soi a augmenté, l’oral peut être une meilleure alternative même s’il n’est pas parfait
    • La course entre triche et surveillance entre étudiants et enseignants dure depuis des siècles
  • Avant, tous les examens se déroulaient sans aucune possibilité d’intervention de l’IA
    On écrivait à la main au stylo, dans un gymnase surveillé par des examinateurs
    Tricher signifiait l’exclusion, et seuls 1 % de plusieurs milliers d’étudiants obtenaient leur diplôme
    Quand j’entends dire qu’il faut changer les examens à cause de l’IA, ça me paraît fou. La solution existait déjà

    • Il n’y a rien de glorieux dans un système où 99 % des étudiants échouent
      Au final, c’était une structure qui rejetait toute la responsabilité sur les étudiants, alors que le problème venait de la paresse des professeurs et du recyclage des sujets d’examen
      La vraie solution consiste à créer de nouveaux sujets à chaque fois et à varier les épreuves
    • Je doute que faire écrire du code C++ à la main soit vraiment la meilleure manière d’évaluer
      Je pense qu’il vaudrait mieux faire passer l’examen sur des ordinateurs fournis par l’établissement avec un environnement de développement
    • Certains soutiennent que l’oral est meilleur pour diagnostiquer la compréhension
      Si c’est vrai, alors chercher un format d’examen oral scalable a du sens
    • Un taux d’échec de 99 % est difficile à croire. Une telle université devrait fermer
  • Il n’est pas nécessaire d’être obsédé par la scalabilité
    Les universités ont de l’argent, les professeurs n’ont qu’à faire eux-mêmes les examens oraux
    Dans les écoles doctorales allemandes aussi, on passait souvent des oraux, et ça fonctionnait bien

    • En Europe, les examens oraux sont courants, comme la Matura ou la soutenance de thèse
      S’appuyer sur l’IA ressemble à un symbole de paresse
      L’IA est utile pour les tâches répétitives, mais dans des situations adversariales, il est difficile de lui faire confiance
  • Moi aussi, j’ai passé des examens oraux en licence, et la variation d’attitude du professeur était si forte que la tension était extrême
    Je doute qu’une IA puisse produire cette pression émotionnelle
    Personnellement, ce sont plutôt les petites erreurs de l’IA qui m’agacent

    • En Italie, l’oral fait partie de tous les examens, de l’école primaire à l’université
      Mais dans ce genre de situation, j’ai le cerveau qui se vide et je n’arrive plus à dire un mot. C’est vraiment pénible
  • Dans un processus de recrutement, on donnait autrefois des devoirs à faire chez soi, mais certains candidats n’étaient pas capables d’expliquer le code qu’ils avaient soumis
    Depuis l’arrivée des LLM, la tentation de faire rédiger à la place par une IA est bien plus forte
    Pourtant, nous devons évaluer la capacité de résolution de problèmes et de communication des candidats
    Un entretien qui autorise les LLM finit par se transformer en « test de maîtrise de l’usage de l’IA »
    Je ne suis pas d’accord avec la méthode de l’article, mais le problème soulevé est bien réel

    • L’expression « synthetic pronouns » est intéressante
  • La prochaine étape sera peut-être une IA qui répond à l’oral à la place de l’IA interrogatrice
    Au final, l’être humain devra redevenir central

    • Déjà, un simple téléprompteur suffit à tromper
      À l’avenir, ce sera encore plus sophistiqué avec des lunettes intelligentes, des micros à conduction osseuse, etc.
      Au final, seuls les étudiants honnêtes mais souffrant d’anxiété sociale seront désavantagés
    • Si l’espace d’examen se remplit de dizaines de cabines téléphoniques, ce sera encore pire que des cloisons de bureau
  • Ce serait bien d’organiser pendant le semestre des oraux blancs volontaires
    Les étudiants pourraient s’habituer au format et aussi au ton de la voix
    Dire qu’un oral est impossible avec environ 36 étudiants est surprenant

    • Comme mentionné à la fin de l’article, l’IA génère de nouvelles questions à chaque fois, ce qui permet de s’entraîner sans risque de fuite
      C’est précisément ce type de répétition qui correspond au véritable apprentissage
    • Si un chargé de TD est payé 25 $ de l’heure, l’oral est tout à fait faisable
      Qu’on me rembourse mes 25 $, mais je ne veux surtout pas qu’un LLM me fasse passer un examen
    • À l’université Charles de Prague, même des groupes de plus de 200 étudiants ont passé des oraux
    • Tout dépend de la profondeur et de la fréquence des oraux
      Si seuls certains étudiants sont tirés au sort, cela peut susciter à la fois de la motivation ou de la frustration
    • Au fond, c’est simplement l’idée de remplacer l’examen par un chatbot pour économiser de l’argent
      Même un oral de 10 minutes avec les meilleurs étudiants reste tout à fait possible
  • Rien qu’à imaginer être interrogé par une application vocale d’IA, ça semble affreux
    Si cette méthode perdure, il faudra peut-être plutôt un modèle éducatif sans évaluation

    • Au final, revenir aux examens manuscrits est peut-être la solution la plus réaliste
    • J’ai récemment passé moi aussi un entretien avec une IA, et je ne ressentais aucune culpabilité à lui mentir
      J’en suis venu à dire facilement des choses que je n’aurais jamais dites à un humain
    • Si les examens disparaissent complètement, la motivation pour apprendre ne se maintiendra pas
  • Je suis justement l’auteur de ce billet de blog
    Nous avons simplement tenté une nouvelle approche dans notre cours d’IA
    Il ne s’agissait pas de supprimer les examens écrits, mais d’ajouter l’oral comme un outil supplémentaire
    L’objectif était de vérifier, dans le cadre d’un projet d’équipe, si l’étudiant comprenait réellement son propre travail
    Les étudiants qui avaient eu une mauvaise note à l’oral avaient, comme prévu, une faible compréhension du projet
    Avec 36 étudiants, des entretiens directs restent possibles, mais au-delà de 100, cela devient difficile
    Surtout, certaines études indiquaient que l’IA fournit une évaluation cohérente parce qu’elle ne se fatigue pas. C’est pour cela que je lui ai fait confiance

    • On dit qu’autoriser l’usage des LLM va de soi, mais je ne suis pas d’accord
      Ce n’est pas différent d’utiliser un chariot élévateur dans une salle de sport
      Cela peut passer pour des matières simples de niveau MBA, mais dans des matières qui exigent un jugement nuancé, l’IA n’est pas équitable
      Pour ce type d’examen de simple vérification, je pense qu’il vaudrait encore mieux passer un QCM sur une borne
  • À notre époque, tous les examens étaient oraux
    Les gros examens duraient deux jours, mais les professeurs et les assistants organisaient six sessions par an

    • En licence et en master de physique aussi, l’oral était la norme, mais il a disparu en doctorat
      L’une des raisons était la différence d’interprétation culturelle de l’équité
      Dans des environnements très divers, les examens oraux peuvent alimenter des controverses sur les biais
    • Les professeurs restent des humains
      S’ils peuvent faire corriger par une IA pour 5 $ et passer 20 heures à faire défiler leur téléphone, ils choisiront cette option