11 points par davespark 2026-01-08 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Expérience d’examen oral IA d’un professeur de NYU

Contexte

  • Limites de l’évaluation traditionnelle des devoirs à l’ère de l’IA : les étudiants rédigent parfaitement leurs travaux avec l’IA, mais leur compréhension réelle se révèle insuffisante
  • Professeur Panos Ipeirotis (Stern School of Business de NYU) : une expérience à contre-courant consistant à utiliser l’IA pour répondre à la triche à l’IA

Aperçu de l’expérience

  • Cours : gestion de produit IA/ML
  • Participants : 36 étudiants
  • Méthode : examen oral à l’aide d’un agent vocal IA d’ElevenLabs
  • Contenu : questions sur les projets des étudiants + questions sur les études de cas du cours
  • Durée : 9 jours, 25 minutes en moyenne par étudiant
  • Coût total : 15 dollars (42 cents par étudiant)
    • Claude : 8 dollars, Gemini : 2 dollars, OpenAI : 30 cents, ElevenLabs : 5 dollars

Comparaison des coûts

  • Examen IA : 15 dollars
  • Correction humaine : 750 dollars (36 étudiants × 25 minutes × 2 personnes × 25 dollars/heure)
  • Avantage : rend les examens oraux possibles dans les cours à grande échelle

Problèmes initiaux

  • Ton de l’agent : perçu comme strict et arrogant (plainte d’un étudiant : « il m’a crié dessus »)
  • Problèmes de comportement : plusieurs questions posées en même temps, reformulation en cas de répétition, interruptions trop rapides
  • Biais de pseudo-aléatoire : malgré l’instruction de faire un « choix aléatoire », l’agent favorisait un cas précis (Zillow à 88 %)
    • Raison : les données d’entraînement des LLM reflètent des biais humains

Méthode de notation

  • Approche : application du « Council of LLMs » d’Andrej Karpathy
    • Claude, Gemini et ChatGPT évaluent indépendamment → se relisent mutuellement → révisent
  • Résultat : écart important dans les notes initiales (Gemini 17 points vs Claude 13,4 points), mais après révision, 60 % convergent à moins d’1 point d’écart
  • Qualité du feedback : l’IA s’est montrée meilleure que les humains (résumé structuré + citations directes)

Constats

  • Écart selon les sujets : faiblesse sur le thème des « expériences » (moyenne de 1,94/4) → le professeur reconnaît un problème pédagogique (A/B testing négligé)
  • Durée de l’examen et note : aucune corrélation (meilleure note en 9 minutes, performance moyenne en 64 minutes)

Évaluation des étudiants

  • Préférence pour le format IA : 13 % (deux fois moins que la préférence pour l’humain)
  • Stress : 83 % plus élevé
  • Équité : 70 % estiment que cela évalue bien la compréhension réelle (critère le mieux noté)

Conclusion

  • L’examen oral par IA : scalable, peu coûteux et équitable
  • Avantages : les questions sont régénérées à chaque fois (donc pas de fuite), possibilité de s’entraîner
  • Ironie : une solution IA à la triche à l’IA
  • L’expérience suggère un possible changement dans l’évaluation pédagogique, tout en en révélant les limites

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.