- Il y a 9 mois, l’auteur a jugé que l’IA était suffisamment performante en analyse de sécurité du code pour réellement remplacer des humains, et a donc créé une startup
- Au début, le passage de GPT-4o à Claude 3.5 Sonnet a apporté une amélioration qualitative majeure dans l’explication des vulnérabilités de sécurité et l’évaluation de leur gravité
- Mais par la suite, la plupart des modèles, y compris Claude 3.6 et 3.7, n’ont montré aucune amélioration concrète sur les benchmarks internes ni sur la détection de bugs
- Les gains de performance venaient surtout d’améliorations d’ingénierie générales, et non des modèles d’IA eux-mêmes
- D’autres startups ont vécu une expérience similaire, la plupart traversant le cycle annonce d’un nouveau modèle → bons résultats sur benchmark → gains réels minimes
- L’auteur estime que les progrès actuels des modèles d’IA ne sont pas à un niveau significatif en matière d’utilité économique ou de capacité de généralisation
L’écart entre les benchmarks d’IA et les performances réelles
- Les modèles d’IA obtiennent de bons résultats aux tests, mais cela ne se traduit presque pas dans les capacités en situation de travail réelle
- Les benchmarks se concentrent surtout sur des problèmes courts et isolés, ce qui les rend inadaptés aux applications réelles
- Par exemple, les modèles Claude ont du mal à conserver une mémoire de long terme, au point de ne pas réussir à terminer un jeu Pokémon
- Des benchmarks comme « Humanity’s Last Exam » paraissent importants à première vue, mais n’évaluent pas correctement l’utilité réelle
- À l’avenir, l’auteur ne compte faire confiance qu’à des benchmarks fondés sur l’usage réel, comme Claude Plays Pokemon, pour évaluer les performances de l’IA
Problèmes de fiabilité des laboratoires d’IA
- Les laboratoires d’IA sont engagés dans une compétition d’ampleur civilisationnelle, et certains ont intérêt à exagérer les performances ou à ne publier sélectivement que les bons résultats
- En pratique, la plupart des benchmarks utilisés par OpenAI, Anthropic et d’autres reposent sur des jeux de test publics, avec donc une possibilité de manipulation
- À l’exception d’évaluations semi-fermées comme ARC-AGI, presque tous les résultats pourraient provenir de jeux de données déjà utilisés pour l’entraînement
- L’interprétation la plus optimiste est que le problème ne vient pas d’une limite technique, mais de la triche humaine
Pourquoi les benchmarks ne reflètent structurellement pas l’utilité réelle
- Les tests de QI chez les humains sont corrélés à divers accomplissements réels, mais ce n’est pas le cas des benchmarks d’IA
- Les benchmarks d’IA sont majoritairement composés de puzzles indépendants ou de résolution de problèmes à court terme
- L’IA reste très faible sur des aspects essentiels dans les problèmes réels, comme la mémoire, la conscience de la situation ou le suivi d’objectifs
- Les benchmarks sont pratiques pour le développement et l’évaluation, mais ont peu de rapport avec les capacités globales dans le monde réel
Les modèles d’IA sont peut-être intelligents, mais leurs performances pourraient être limitées par des problèmes d’alignement
- L’entreprise de l’auteur utilise l’IA pour de vraies vérifications de sécurité du code, mais les modèles comprennent mal le contexte de la tâche
- Les modèles ne parviennent pas à suivre l’instruction consistant à ne signaler que les problèmes ayant un impact réel sur le service, et produisent souvent des alertes inutiles
- Cela viendrait du fait qu’ils ont été entraînés à privilégier des réponses qui « ont l’air intelligentes »
- Cela fonctionne pour la conversation, mais dès qu’on tente de les intégrer dans un système, les erreurs s’accumulent et deviennent problématiques
- Chercher à ne corriger que les symptômes visibles est risqué à long terme, et il faut résoudre le problème d’alignement à la racine
Réflexions finales et implications sociales
- Par rapport aux attentes exagérées, les performances réelles de l’IA restent faibles, ce qui correspond à « l’expérience vécue » de nombreux utilisateurs
- Avant que des systèmes d’IA non alignés n’affectent l’ensemble de la société, il faut une compréhension et une conception plus fondamentales
- Au-delà des benchmarks purement centrés sur le résultat, une évaluation qualitative fondée sur des scénarios d’usage réels est essentielle
5 commentaires
Je suis d'accord. J'utilise bien le modèle Claude 3.7 sur Perplexity, mais j'utilise aussi récemment Gemini 2.5, et je l'utilise en ressentant clairement que ses performances sont vraiment excellentes.
Pourquoi, ces temps-ci, il n’y a pratiquement que des news dignes de la presse économique qui sont publiées ?
Moi, j’adore pourtant...
Ces temps-ci, on dirait qu’il faut au moins un titre de ce niveau pour que le putaclic fonctionne.
Avis sur Hacker News
Ma mère m’a dit que Paul Newman avait eu des problèmes d’alcool. Quand j’ai demandé à ChatGPT, il a répondu que Paul Newman n’était pas particulièrement connu pour cela
Lors du récent USAMO, les modèles SOTA n’ont obtenu en moyenne que 5 %. Cela suggère que les modèles d’IA ne résolvent pas vraiment les problèmes, mais mémorisent des résultats passés
Les LLM ont tendance à vouloir rapporter quelque chose, ce qui les pousse souvent à exagérer
Lire les réactions à ce billet est intéressant. Cela montre à quel point nos réactions collectives sont variées et fondées sur des anecdotes
Mon expérience personnelle rejoint l’avis de l’auteur
L’amélioration des résultats sur les benchmarks, sans amélioration notable sur les tâches réelles, reflète la nature même des LLM
J’ai utilisé gemini 2.5 ce week-end, et c’était vraiment excellent
Même si le développement des LLM s’arrêtait aujourd’hui, on continuerait à leur trouver de nouveaux usages pendant les dix prochaines années
En tant qu’utilisateur de LLM et de plugins d’assistance au code, j’ai l’impression que GPT/Claude se sont dégradés au cours des 12 derniers mois