- On observe récemment une baisse globale de la qualité des outils d’assistance au code par IA, avec une tendance où la vitesse de travail et la précision des résultats se dégradent par rapport à auparavant
- Les derniers grands modèles de langage (LLM) réduisent les erreurs de syntaxe, mais produisent plus souvent des échecs silencieux (silent failure) : le code s’exécute, mais le résultat est faux
- Dans des expériences, GPT-5 masque le problème en inventant des valeurs sans révéler l’origine de l’erreur, tandis que GPT-4 et les anciennes versions de Claude exposent plus clairement les problèmes de données ou de code
- Cette évolution est liée au fait que la qualité des données s’est brouillée à mesure que l’acceptation par l’utilisateur est devenue un signal d’apprentissage
- Sans investissement dans des données de haute qualité et une validation par des experts, plutôt que dans le seul succès d’exécution à court terme, le risque augmente de voir les modèles réapprendre les erreurs qu’ils produisent eux-mêmes
Dégradation des performances des assistants de code par IA
- Ces derniers mois, on constate une baisse simultanée de l’efficacité de travail et de la fiabilité du code des assistants de code par IA
- Des tâches qui prenaient 5 heures avec une aide IA peuvent désormais nécessiter 7 à 8 heures, voire davantage
- Certains utilisateurs reviennent même à des LLM de génération précédente pour des raisons de stabilité
- Cette évolution a été observée de façon répétée dans des environnements de test où le code généré par l’IA est exécuté sans intervention humaine
Des « échecs silencieux » plus marqués dans les nouveaux modèles
- Autrefois, les problèmes étaient surtout des erreurs de syntaxe ou des erreurs logiques manifestes, immédiatement visibles à l’exécution
- Les modèles récents ont davantage tendance à générer du code qui semble fonctionner mais dont le sens est incorrect
- Suppression des vérifications de sécurité
- Génération de fausses valeurs pour respecter uniquement le format de sortie
- Ces erreurs discrètes sont détectées plus tard et entraînent ensuite des coûts et de la confusion plus importants
- Cela entre en collision frontale avec la raison pour laquelle les langages de programmation modernes sont conçus pour échouer vite et clairement
Des différences révélées par un test simple
- Une erreur dans du code Python référençant une colonne inexistante a été soumise à plusieurs versions de ChatGPT
- GPT-4 : réponses pointant majoritairement la cause de l’erreur ou orientant vers le débogage
- GPT-4.1 : incite à afficher les colonnes du DataFrame pour vérifier le problème
- GPT-5 : effectue le calcul à l’aide d’index réels, donnant l’illusion d’une exécution réussie, mais en produisant des valeurs dénuées de sens
- Une évolution similaire a aussi été constatée sur les modèles Claude
- Les anciennes versions se concentraient sur la reconnaissance du problème
- Les nouvelles versions proposent des solutions qui ignorent l’erreur ou la contournent
Le lien entre méthode d’apprentissage et perte de qualité
- Les premiers modèles étaient surtout entraînés sur de grandes quantités de code existant ; ils faisaient davantage d’erreurs, mais ne masquaient pas le problème lui-même
- Avec l’intégration dans les IDE, le comportement des utilisateurs (acceptation du code, succès de l’exécution) a ensuite été utilisé comme signal d’apprentissage
- Avec l’augmentation des utilisateurs débutants, des signaux assimilant “code qui s’exécute” à “bon code” se sont accumulés, et les modèles les ont appris
- En conséquence, des schémas imprécis comme la suppression des contrôles de sécurité ou la génération de fausses données se sont renforcés
- À mesure que les fonctions de codage automatisé se multiplient, la validation humaine diminue, ce qui pousse les modèles à répéter un apprentissage erroné
Les orientations nécessaires pour la suite
- Les assistants de code par IA restent des outils qui améliorent fortement la productivité des développeurs et l’accessibilité
- Mais un apprentissage centré sur le seul succès d’exécution dégrade la qualité du code à long terme
- Il est indispensable de disposer de données de haute qualité annotées par des experts et d’un processus de réentraînement responsable
- Sinon, les modèles risquent fortement de tomber dans une boucle sorties erronées → apprentissage erroné → sorties encore plus mauvaises
Aucun commentaire pour le moment.