Les récents progrès des modèles d’IA semblent surtout être du pipeau

(lesswrong.com)

6 points par GN⁺ 2025-04-07 | 5 commentaires | Partager sur WhatsApp

Il y a 9 mois, l’auteur a jugé que l’IA était suffisamment performante en analyse de sécurité du code pour réellement remplacer des humains, et a donc créé une startup
Au début, le passage de GPT-4o à Claude 3.5 Sonnet a apporté une amélioration qualitative majeure dans l’explication des vulnérabilités de sécurité et l’évaluation de leur gravité
Mais par la suite, la plupart des modèles, y compris Claude 3.6 et 3.7, n’ont montré aucune amélioration concrète sur les benchmarks internes ni sur la détection de bugs
Les gains de performance venaient surtout d’améliorations d’ingénierie générales, et non des modèles d’IA eux-mêmes
D’autres startups ont vécu une expérience similaire, la plupart traversant le cycle annonce d’un nouveau modèle → bons résultats sur benchmark → gains réels minimes
L’auteur estime que les progrès actuels des modèles d’IA ne sont pas à un niveau significatif en matière d’utilité économique ou de capacité de généralisation

L’écart entre les benchmarks d’IA et les performances réelles

Les modèles d’IA obtiennent de bons résultats aux tests, mais cela ne se traduit presque pas dans les capacités en situation de travail réelle
Les benchmarks se concentrent surtout sur des problèmes courts et isolés, ce qui les rend inadaptés aux applications réelles
Par exemple, les modèles Claude ont du mal à conserver une mémoire de long terme, au point de ne pas réussir à terminer un jeu Pokémon
Des benchmarks comme « Humanity’s Last Exam » paraissent importants à première vue, mais n’évaluent pas correctement l’utilité réelle
À l’avenir, l’auteur ne compte faire confiance qu’à des benchmarks fondés sur l’usage réel, comme Claude Plays Pokemon, pour évaluer les performances de l’IA

Problèmes de fiabilité des laboratoires d’IA

Les laboratoires d’IA sont engagés dans une compétition d’ampleur civilisationnelle, et certains ont intérêt à exagérer les performances ou à ne publier sélectivement que les bons résultats
En pratique, la plupart des benchmarks utilisés par OpenAI, Anthropic et d’autres reposent sur des jeux de test publics, avec donc une possibilité de manipulation
À l’exception d’évaluations semi-fermées comme ARC-AGI, presque tous les résultats pourraient provenir de jeux de données déjà utilisés pour l’entraînement
L’interprétation la plus optimiste est que le problème ne vient pas d’une limite technique, mais de la triche humaine

Pourquoi les benchmarks ne reflètent structurellement pas l’utilité réelle

Les tests de QI chez les humains sont corrélés à divers accomplissements réels, mais ce n’est pas le cas des benchmarks d’IA
Les benchmarks d’IA sont majoritairement composés de puzzles indépendants ou de résolution de problèmes à court terme
L’IA reste très faible sur des aspects essentiels dans les problèmes réels, comme la mémoire, la conscience de la situation ou le suivi d’objectifs
Les benchmarks sont pratiques pour le développement et l’évaluation, mais ont peu de rapport avec les capacités globales dans le monde réel

Les modèles d’IA sont peut-être intelligents, mais leurs performances pourraient être limitées par des problèmes d’alignement

L’entreprise de l’auteur utilise l’IA pour de vraies vérifications de sécurité du code, mais les modèles comprennent mal le contexte de la tâche
Les modèles ne parviennent pas à suivre l’instruction consistant à ne signaler que les problèmes ayant un impact réel sur le service, et produisent souvent des alertes inutiles
Cela viendrait du fait qu’ils ont été entraînés à privilégier des réponses qui « ont l’air intelligentes »
Cela fonctionne pour la conversation, mais dès qu’on tente de les intégrer dans un système, les erreurs s’accumulent et deviennent problématiques
Chercher à ne corriger que les symptômes visibles est risqué à long terme, et il faut résoudre le problème d’alignement à la racine

Réflexions finales et implications sociales

Par rapport aux attentes exagérées, les performances réelles de l’IA restent faibles, ce qui correspond à « l’expérience vécue » de nombreux utilisateurs
Avant que des systèmes d’IA non alignés n’affectent l’ensemble de la société, il faut une compréhension et une conception plus fondamentales
Au-delà des benchmarks purement centrés sur le résultat, une évaluation qualitative fondée sur des scénarios d’usage réels est essentielle

5 commentaires

ifmkl 2025-04-08

Je suis d'accord. J'utilise bien le modèle Claude 3.7 sur Perplexity, mais j'utilise aussi récemment Gemini 2.5, et je l'utilise en ressentant clairement que ses performances sont vraiment excellentes.

say8425 2025-04-07

Pourquoi, ces temps-ci, il n’y a pratiquement que des news dignes de la presse économique qui sont publiées ?

sjisrich 2025-04-07

Moi, j’adore pourtant...

kandk 2025-04-07

Ces temps-ci, on dirait qu’il faut au moins un titre de ce niveau pour que le putaclic fonctionne.

GN⁺ 2025-04-07

Avis sur Hacker News

Ma mère m’a dit que Paul Newman avait eu des problèmes d’alcool. Quand j’ai demandé à ChatGPT, il a répondu que Paul Newman n’était pas particulièrement connu pour cela
- ChatGPT a expliqué que sa carrière d’acteur, ses activités caritatives et sa passion pour la course automobile étaient davantage mises en avant
- Pourtant, on trouve en ligne de nombreux éléments sur ses problèmes d’alcool, y compris le témoignage de sa femme Joanne Woodward
- Quand j’ai envoyé la réponse de ChatGPT à ma mère, elle a trouvé une source faisant autorité en cinq minutes
- J’utilise ChatGPT tous les jours, mais je ne comprends pas comment il peut se tromper sur quelque chose d’aussi simple
- J’en ai retenu qu’il ne faut pas remettre en doute les connaissances cinématographiques de sa mère
Lors du récent USAMO, les modèles SOTA n’ont obtenu en moyenne que 5 %. Cela suggère que les modèles d’IA ne résolvent pas vraiment les problèmes, mais mémorisent des résultats passés
- Malgré cela, les entreprises ne rendent pas publics leurs efforts pour retirer les données d’examen des jeux d’entraînement
Les LLM ont tendance à vouloir rapporter quelque chose, ce qui les pousse souvent à exagérer
- Ils ont tendance à répondre « oui » aux questions
- La concurrence entre LLM fait progressivement monter les scores sur les benchmarks, mais ces améliorations sont illusoires
- Les LLM ont tendance à acquiescer, et cela ne s’améliore pas
- Il est important d’évaluer les modèles dans des scénarios d’agent
Lire les réactions à ce billet est intéressant. Cela montre à quel point nos réactions collectives sont variées et fondées sur des anecdotes
- Certains auront raison et d’autres tort, et je me demande quels traits signalent la capacité à faire de « meilleurs choix » concernant l’IA
Mon expérience personnelle rejoint l’avis de l’auteur
- Les LLM sont entraînés à « avoir l’air intelligents » dans leurs échanges avec les utilisateurs, ce qui les pousse à mettre les problèmes en avant
- Cela correspond à l’objectif du langage dans la plupart des situations, et les LLM sont entraînés sur le langage
L’amélioration des résultats sur les benchmarks, sans amélioration notable sur les tâches réelles, reflète la nature même des LLM
- Les LLM sont des systèmes prédictifs, et si on les entraîne sur un domaine donné, leurs performances s’améliorent dans ce domaine
- Je ne m’attends pas à ce qu’un entraînement en mathématiques avancées améliore leurs capacités de programmation
J’ai utilisé gemini 2.5 ce week-end, et c’était vraiment excellent
- Tout dépend de l’usage, et je ne sais toujours pas clairement où les LLM vont nous mener
Même si le développement des LLM s’arrêtait aujourd’hui, on continuerait à leur trouver de nouveaux usages pendant les dix prochaines années
- La technologie progresse si vite que ses conséquences me font peur
- J’espère qu’on atteindra un point de rendements décroissants, mais je n’y crois pas vraiment
En tant qu’utilisateur de LLM et de plugins d’assistance au code, j’ai l’impression que GPT/Claude se sont dégradés au cours des 12 derniers mois
- J’ai l’impression que les modèles sont « suffisamment bons » et qu’il faut maintenant voir des améliorations dans les outils et les applications
- Je pense que MCP est une bonne étape dans la bonne direction, mais dans l’ensemble je reste sceptique