Les outils d’assistance au code par IA sont-ils en train de se dégrader ?
(spectrum.ieee.org)- On observe récemment une baisse globale de la qualité des outils d’assistance au code par IA, avec une tendance où la vitesse de travail et la précision des résultats se dégradent par rapport à auparavant
- Les derniers grands modèles de langage (LLM) réduisent les erreurs de syntaxe, mais produisent plus souvent des échecs silencieux (silent failure) : le code s’exécute, mais le résultat est faux
- Dans des expériences, GPT-5 masque le problème en inventant des valeurs sans révéler l’origine de l’erreur, tandis que GPT-4 et les anciennes versions de Claude exposent plus clairement les problèmes de données ou de code
- Cette évolution est liée au fait que la qualité des données s’est brouillée à mesure que l’acceptation par l’utilisateur est devenue un signal d’apprentissage
- Sans investissement dans des données de haute qualité et une validation par des experts, plutôt que dans le seul succès d’exécution à court terme, le risque augmente de voir les modèles réapprendre les erreurs qu’ils produisent eux-mêmes
Dégradation des performances des assistants de code par IA
- Ces derniers mois, on constate une baisse simultanée de l’efficacité de travail et de la fiabilité du code des assistants de code par IA
- Des tâches qui prenaient 5 heures avec une aide IA peuvent désormais nécessiter 7 à 8 heures, voire davantage
- Certains utilisateurs reviennent même à des LLM de génération précédente pour des raisons de stabilité
- Cette évolution a été observée de façon répétée dans des environnements de test où le code généré par l’IA est exécuté sans intervention humaine
Des « échecs silencieux » plus marqués dans les nouveaux modèles
- Autrefois, les problèmes étaient surtout des erreurs de syntaxe ou des erreurs logiques manifestes, immédiatement visibles à l’exécution
- Les modèles récents ont davantage tendance à générer du code qui semble fonctionner mais dont le sens est incorrect
- Suppression des vérifications de sécurité
- Génération de fausses valeurs pour respecter uniquement le format de sortie
- Ces erreurs discrètes sont détectées plus tard et entraînent ensuite des coûts et de la confusion plus importants
- Cela entre en collision frontale avec la raison pour laquelle les langages de programmation modernes sont conçus pour échouer vite et clairement
Des différences révélées par un test simple
- Une erreur dans du code Python référençant une colonne inexistante a été soumise à plusieurs versions de ChatGPT
- GPT-4 : réponses pointant majoritairement la cause de l’erreur ou orientant vers le débogage
- GPT-4.1 : incite à afficher les colonnes du DataFrame pour vérifier le problème
- GPT-5 : effectue le calcul à l’aide d’index réels, donnant l’illusion d’une exécution réussie, mais en produisant des valeurs dénuées de sens
- Une évolution similaire a aussi été constatée sur les modèles Claude
- Les anciennes versions se concentraient sur la reconnaissance du problème
- Les nouvelles versions proposent des solutions qui ignorent l’erreur ou la contournent
Le lien entre méthode d’apprentissage et perte de qualité
- Les premiers modèles étaient surtout entraînés sur de grandes quantités de code existant ; ils faisaient davantage d’erreurs, mais ne masquaient pas le problème lui-même
- Avec l’intégration dans les IDE, le comportement des utilisateurs (acceptation du code, succès de l’exécution) a ensuite été utilisé comme signal d’apprentissage
- Avec l’augmentation des utilisateurs débutants, des signaux assimilant “code qui s’exécute” à “bon code” se sont accumulés, et les modèles les ont appris
- En conséquence, des schémas imprécis comme la suppression des contrôles de sécurité ou la génération de fausses données se sont renforcés
- À mesure que les fonctions de codage automatisé se multiplient, la validation humaine diminue, ce qui pousse les modèles à répéter un apprentissage erroné
Les orientations nécessaires pour la suite
- Les assistants de code par IA restent des outils qui améliorent fortement la productivité des développeurs et l’accessibilité
- Mais un apprentissage centré sur le seul succès d’exécution dégrade la qualité du code à long terme
- Il est indispensable de disposer de données de haute qualité annotées par des experts et d’un processus de réentraînement responsable
- Sinon, les modèles risquent fortement de tomber dans une boucle sorties erronées → apprentissage erroné → sorties encore plus mauvaises
1 commentaires
Avis sur Hacker News
Il est intéressant de voir que les enthousiastes de l’IA s’appuient sur leur ressenti subjectif quand ils parlent de gain de productivité, tout en exigeant une charge de la preuve excessive de la part des contradicteurs
L’auteur avait même annoncé une démo en direct en streaming, mais au final il n’a pas réussi à terminer une simple tâche d’extension en une heure
J’ai eu l’impression que j’aurais mis à peu près autant de temps en le faisant moi-même à la main
Du coup, j’ai demandé en commentaire « où est le gain x10 ? », et il a nié en parlant d’« erreur passagère » ou en disant qu’il pouvait « faire autre chose pendant que l’IA répondait »
Honnêtement, j’étais sceptique au départ, mais j’espérais avoir tort. Ce n’était pas le cas
Au final, la charge de la preuve sur les gains de productivité repose entièrement sur celui qui l’affirme
Je ne pense pas que l’IA soit capable de pensée originale. En revanche, la complétion automatique via Tab fait gagner beaucoup de temps sur les boucles, la gestion d’erreurs, la documentation, etc.
La vitesse de résolution de problème elle-même ne change pas, mais l’étape d’implémentation est clairement plus rapide
Autrement dit, si l’on parle d’un « gain x10 », ce n’est pas sur la résolution de problème mais sur la vitesse de frappe
Même sur un projet C# d’un million de lignes, la productivité s’est fortement améliorée sans baisse de qualité
Aux personnes critiques, j’ai envie de dire : « montrez-le en pratique ». Ce n’est pas une technique secrète, il a simplement fallu du temps pour apprendre à manier l’outil
Mais pourquoi ne montrent-ils pas les résultats extraordinaires qu’ils produisent, au lieu d’essayer à tout prix de me convaincre ?
Ça me rend presque soupçonneux sur l’existence possible de récompenses ou d’incitations
Le problème n’est pas que l’IA soit devenue moins bonne, mais que la reproductibilité des résultats soit faible
Comme pour les applis de taxi ou de livraison, l’écosystème des LLM finira probablement lui aussi par adopter une logique de hausse des prix. Pour l’instant, il est simplement subventionné par les capitaux investis
Aujourd’hui c’est peu cher grâce aux subventions, mais il y a de fortes chances que cela devienne bientôt bon marché même sans subventions
En revanche, utiliser les modèles les plus récents (SOTA) pourrait coûter plus cher. Mais c’est une autre question de valeur
Avec 10 000 à 20 000 dollars, on peut monter une machine capable de générer des tokens toute la journée, et les gros acteurs opèrent de manière encore plus efficace grâce aux économies d’échelle
Sur ce point, il reste difficile de leur faire confiance
Quand l’argent des investisseurs se tarira, les prix finiront par monter, et ce n’est qu’une fois la concurrence disparue qu’on verra apparaître la véritable structure de coûts
Certains utilisateurs estiment que les tests censés montrer que « l’IA s’est dégradée » sont bancals
Par exemple, si dans un code qui référence une colonne inexistante on lui demande de « fournir uniquement du code finalisé sans commentaires », l’IA n’a pratiquement pas d’autre choix que de produire du code erroné
Un développeur compétent devrait signaler que « la demande est incorrecte ». Ce test est une expérience valable pour révéler la réponse complaisante (sycophantism)
Produire silencieusement un résultat faux est dangereux
Ce type d’erreur se rapproche davantage d’une hallucination de niveau GPT-2
J’aime les outils d’assistance au développement par IA, mais je ne sais pas si c’est toujours un gain absolu
Avant, je prenais du Huel pour réduire mon temps de déjeuner, mais j’ai fini par perdre la valeur de la pause
Avec l’IA aussi, si elle rate des détails, on se retrouve au contraire avec du temps perdu à revenir en arrière
Du coup, j’ai créé un fichier Markdown de 15k tokens contenant tout le contexte et toutes les contraintes du projet, que j’ajoute à chaque prompt
C’est une sorte de document de « modèle du monde »
On remplit le temps gagné avec encore plus de travail, et cela affaiblit le sentiment d’efficacité personnelle ainsi que la capacité à résoudre les problèmes
Il est facile d’oublier que cette « inefficacité » était en réalité le processus d’acquisition de connaissances et d’intuition
Les gains de productivité attribués à l’IA sont peut-être surestimés si on les compare aux coûts opérationnels réels
J’attendais un article technique de l’IEEE, donc j’ai été déçu que ce texte soit plutôt au niveau d’un article d’opinion (opinion piece)
Je suis d’accord pour dire que GPT-5 se concentre trop sur la résolution immédiate de problèmes et perd la vue d’ensemble, mais d’autres modèles restent bons
Personnellement, j’utilise Gemini-3-flash et une extension personnalisée en remplacement de Copilot, et je trouve cela bien plus utile, avec une expérience de développement plus personnalisée
J’ai récemment vu Cursor répéter
grep,cdetlscomme s’il était coincé dans une boucle infinieOn dirait qu’ils ont trop chargé le produit en fonctionnalités pour viser les « vibe coders ». Au final, une version plus légère était plus simple à maîtriser
Un échec à l’exécution n’est pas forcément un mauvais signal
Parfois, c’est la réponse la plus proche de la bonne, ou un indice pour trouver un bug
En revanche, supprimer la logique de validation ou en changer le sens pour réussir l’exécution est le pire résultat possible
Je me demande ce qu’il se passera une fois que les LLM auront épuisé toutes les informations d’Internet
Si Stack Overflow et le code open source disparaissent, ne vont-ils pas finir par s’entraîner sur eux-mêmes jusqu’à l’effondrement du modèle (model collapse) ?
Mais de nombreux chercheurs estiment qu’à l’échelle des données du monde réel, le risque n’est pas si élevé
Récemment, 33 % du modèle NVIDIA Nemotron 3 Nano ont été entraînés sur des données synthétiques (synthetic data)
On pourrait lancer des simulations intégrant des fonctions de valeur comme la facilité de maintenance
Si l’IA ne peut pas reconnaître ses propres erreurs, un effondrement auto-entretenu devient possible
L’Internet du « sharing is caring » pourrait disparaître
L’IA n’est pas devenue moins bonne ; elle s’est améliorée, mais son mode d’emploi a changé
Avec un scaffolding correct, on peut obtenir des résultats bien meilleurs
Conclure avec un simple test que « l’IA est stupide » est une erreur
Par exemple, si on demande le « chiffre d’affaires de décembre », la plupart des modèles additionnent tous les mois de décembre sans condition sur l’année
Ce genre d’erreur logique provoque de vrais problèmes dans le travail réel
On dirait que la maîtrise du vocabulaire technique et la capacité d’expression influencent les performances
Moi aussi, j’ai ressenti des variations mensuelles de qualité des modèles
On dirait qu’ils ont oublié des choses qu’ils savaient bien faire avant, comme la gestion d’erreurs ou les conventions de nommage des variables
Il arrive aussi que la qualité baisse à mesure que la conversation s’allonge. Il semble y avoir une longueur de prompt optimale
il vaut mieux commencer une nouvelle tâche dans un nouveau fil et supprimer les requêtes inutiles