Détecter la triche à l’IA pour 42 cents par étudiant : l’expérience d’examen oral IA d’un professeur de NYU
(aisparkup.com)Expérience d’examen oral IA d’un professeur de NYU
Contexte
- Limites de l’évaluation traditionnelle des devoirs à l’ère de l’IA : les étudiants rédigent parfaitement leurs travaux avec l’IA, mais leur compréhension réelle se révèle insuffisante
- Professeur Panos Ipeirotis (Stern School of Business de NYU) : une expérience à contre-courant consistant à utiliser l’IA pour répondre à la triche à l’IA
Aperçu de l’expérience
- Cours : gestion de produit IA/ML
- Participants : 36 étudiants
- Méthode : examen oral à l’aide d’un agent vocal IA d’ElevenLabs
- Contenu : questions sur les projets des étudiants + questions sur les études de cas du cours
- Durée : 9 jours, 25 minutes en moyenne par étudiant
- Coût total : 15 dollars (42 cents par étudiant)
- Claude : 8 dollars, Gemini : 2 dollars, OpenAI : 30 cents, ElevenLabs : 5 dollars
Comparaison des coûts
- Examen IA : 15 dollars
- Correction humaine : 750 dollars (36 étudiants × 25 minutes × 2 personnes × 25 dollars/heure)
- Avantage : rend les examens oraux possibles dans les cours à grande échelle
Problèmes initiaux
- Ton de l’agent : perçu comme strict et arrogant (plainte d’un étudiant : « il m’a crié dessus »)
- Problèmes de comportement : plusieurs questions posées en même temps, reformulation en cas de répétition, interruptions trop rapides
- Biais de pseudo-aléatoire : malgré l’instruction de faire un « choix aléatoire », l’agent favorisait un cas précis (Zillow à 88 %)
- Raison : les données d’entraînement des LLM reflètent des biais humains
Méthode de notation
- Approche : application du « Council of LLMs » d’Andrej Karpathy
- Claude, Gemini et ChatGPT évaluent indépendamment → se relisent mutuellement → révisent
- Résultat : écart important dans les notes initiales (Gemini 17 points vs Claude 13,4 points), mais après révision, 60 % convergent à moins d’1 point d’écart
- Qualité du feedback : l’IA s’est montrée meilleure que les humains (résumé structuré + citations directes)
Constats
- Écart selon les sujets : faiblesse sur le thème des « expériences » (moyenne de 1,94/4) → le professeur reconnaît un problème pédagogique (A/B testing négligé)
- Durée de l’examen et note : aucune corrélation (meilleure note en 9 minutes, performance moyenne en 64 minutes)
Évaluation des étudiants
- Préférence pour le format IA : 13 % (deux fois moins que la préférence pour l’humain)
- Stress : 83 % plus élevé
- Équité : 70 % estiment que cela évalue bien la compréhension réelle (critère le mieux noté)
Conclusion
- L’examen oral par IA : scalable, peu coûteux et équitable
- Avantages : les questions sont régénérées à chaque fois (donc pas de fuite), possibilité de s’entraîner
- Ironie : une solution IA à la triche à l’IA
- L’expérience suggère un possible changement dans l’évaluation pédagogique, tout en en révélant les limites
Aucun commentaire pour le moment.