Détecter la triche à l’IA pour 42 cents par étudiant : l’expérience d’examen oral IA d’un professeur de NYU

(aisparkup.com)

11 points par davespark 2026-01-08 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Expérience d’examen oral IA d’un professeur de NYU

Contexte

Limites de l’évaluation traditionnelle des devoirs à l’ère de l’IA : les étudiants rédigent parfaitement leurs travaux avec l’IA, mais leur compréhension réelle se révèle insuffisante
Professeur Panos Ipeirotis (Stern School of Business de NYU) : une expérience à contre-courant consistant à utiliser l’IA pour répondre à la triche à l’IA

Aperçu de l’expérience

Cours : gestion de produit IA/ML
Participants : 36 étudiants
Méthode : examen oral à l’aide d’un agent vocal IA d’ElevenLabs
Contenu : questions sur les projets des étudiants + questions sur les études de cas du cours
Durée : 9 jours, 25 minutes en moyenne par étudiant
Coût total : 15 dollars (42 cents par étudiant)
- Claude : 8 dollars, Gemini : 2 dollars, OpenAI : 30 cents, ElevenLabs : 5 dollars

Comparaison des coûts

Examen IA : 15 dollars
Correction humaine : 750 dollars (36 étudiants × 25 minutes × 2 personnes × 25 dollars/heure)
Avantage : rend les examens oraux possibles dans les cours à grande échelle

Problèmes initiaux

Ton de l’agent : perçu comme strict et arrogant (plainte d’un étudiant : « il m’a crié dessus »)
Problèmes de comportement : plusieurs questions posées en même temps, reformulation en cas de répétition, interruptions trop rapides
Biais de pseudo-aléatoire : malgré l’instruction de faire un « choix aléatoire », l’agent favorisait un cas précis (Zillow à 88 %)
- Raison : les données d’entraînement des LLM reflètent des biais humains

Méthode de notation

Approche : application du « Council of LLMs » d’Andrej Karpathy
- Claude, Gemini et ChatGPT évaluent indépendamment → se relisent mutuellement → révisent
Résultat : écart important dans les notes initiales (Gemini 17 points vs Claude 13,4 points), mais après révision, 60 % convergent à moins d’1 point d’écart
Qualité du feedback : l’IA s’est montrée meilleure que les humains (résumé structuré + citations directes)

Constats

Écart selon les sujets : faiblesse sur le thème des « expériences » (moyenne de 1,94/4) → le professeur reconnaît un problème pédagogique (A/B testing négligé)
Durée de l’examen et note : aucune corrélation (meilleure note en 9 minutes, performance moyenne en 64 minutes)

Évaluation des étudiants

Préférence pour le format IA : 13 % (deux fois moins que la préférence pour l’humain)
Stress : 83 % plus élevé
Équité : 70 % estiment que cela évalue bien la compréhension réelle (critère le mieux noté)

Conclusion

L’examen oral par IA : scalable, peu coûteux et équitable
Avantages : les questions sont régénérées à chaque fois (donc pas de fuite), possibilité de s’entraîner
Ironie : une solution IA à la triche à l’IA
L’expérience suggère un possible changement dans l’évaluation pédagogique, tout en en révélant les limites

À lire aussi