6 points par GN⁺ 2025-04-07 | 5 commentaires | Partager sur WhatsApp
  • Il y a 9 mois, l’auteur a jugé que l’IA était suffisamment performante en analyse de sécurité du code pour réellement remplacer des humains, et a donc créé une startup
  • Au début, le passage de GPT-4o à Claude 3.5 Sonnet a apporté une amélioration qualitative majeure dans l’explication des vulnérabilités de sécurité et l’évaluation de leur gravité
  • Mais par la suite, la plupart des modèles, y compris Claude 3.6 et 3.7, n’ont montré aucune amélioration concrète sur les benchmarks internes ni sur la détection de bugs
  • Les gains de performance venaient surtout d’améliorations d’ingénierie générales, et non des modèles d’IA eux-mêmes
  • D’autres startups ont vécu une expérience similaire, la plupart traversant le cycle annonce d’un nouveau modèle → bons résultats sur benchmark → gains réels minimes
  • L’auteur estime que les progrès actuels des modèles d’IA ne sont pas à un niveau significatif en matière d’utilité économique ou de capacité de généralisation

L’écart entre les benchmarks d’IA et les performances réelles

  • Les modèles d’IA obtiennent de bons résultats aux tests, mais cela ne se traduit presque pas dans les capacités en situation de travail réelle
  • Les benchmarks se concentrent surtout sur des problèmes courts et isolés, ce qui les rend inadaptés aux applications réelles
  • Par exemple, les modèles Claude ont du mal à conserver une mémoire de long terme, au point de ne pas réussir à terminer un jeu Pokémon
  • Des benchmarks comme « Humanity’s Last Exam » paraissent importants à première vue, mais n’évaluent pas correctement l’utilité réelle
  • À l’avenir, l’auteur ne compte faire confiance qu’à des benchmarks fondés sur l’usage réel, comme Claude Plays Pokemon, pour évaluer les performances de l’IA

Problèmes de fiabilité des laboratoires d’IA

  • Les laboratoires d’IA sont engagés dans une compétition d’ampleur civilisationnelle, et certains ont intérêt à exagérer les performances ou à ne publier sélectivement que les bons résultats
  • En pratique, la plupart des benchmarks utilisés par OpenAI, Anthropic et d’autres reposent sur des jeux de test publics, avec donc une possibilité de manipulation
  • À l’exception d’évaluations semi-fermées comme ARC-AGI, presque tous les résultats pourraient provenir de jeux de données déjà utilisés pour l’entraînement
  • L’interprétation la plus optimiste est que le problème ne vient pas d’une limite technique, mais de la triche humaine

Pourquoi les benchmarks ne reflètent structurellement pas l’utilité réelle

  • Les tests de QI chez les humains sont corrélés à divers accomplissements réels, mais ce n’est pas le cas des benchmarks d’IA
  • Les benchmarks d’IA sont majoritairement composés de puzzles indépendants ou de résolution de problèmes à court terme
  • L’IA reste très faible sur des aspects essentiels dans les problèmes réels, comme la mémoire, la conscience de la situation ou le suivi d’objectifs
  • Les benchmarks sont pratiques pour le développement et l’évaluation, mais ont peu de rapport avec les capacités globales dans le monde réel

Les modèles d’IA sont peut-être intelligents, mais leurs performances pourraient être limitées par des problèmes d’alignement

  • L’entreprise de l’auteur utilise l’IA pour de vraies vérifications de sécurité du code, mais les modèles comprennent mal le contexte de la tâche
  • Les modèles ne parviennent pas à suivre l’instruction consistant à ne signaler que les problèmes ayant un impact réel sur le service, et produisent souvent des alertes inutiles
  • Cela viendrait du fait qu’ils ont été entraînés à privilégier des réponses qui « ont l’air intelligentes »
  • Cela fonctionne pour la conversation, mais dès qu’on tente de les intégrer dans un système, les erreurs s’accumulent et deviennent problématiques
  • Chercher à ne corriger que les symptômes visibles est risqué à long terme, et il faut résoudre le problème d’alignement à la racine

Réflexions finales et implications sociales

  • Par rapport aux attentes exagérées, les performances réelles de l’IA restent faibles, ce qui correspond à « l’expérience vécue » de nombreux utilisateurs
  • Avant que des systèmes d’IA non alignés n’affectent l’ensemble de la société, il faut une compréhension et une conception plus fondamentales
  • Au-delà des benchmarks purement centrés sur le résultat, une évaluation qualitative fondée sur des scénarios d’usage réels est essentielle

5 commentaires

 
ifmkl 2025-04-08

Je suis d'accord. J'utilise bien le modèle Claude 3.7 sur Perplexity, mais j'utilise aussi récemment Gemini 2.5, et je l'utilise en ressentant clairement que ses performances sont vraiment excellentes.

 
say8425 2025-04-07

Pourquoi, ces temps-ci, il n’y a pratiquement que des news dignes de la presse économique qui sont publiées ?

 
sjisrich 2025-04-07

Moi, j’adore pourtant...

 
kandk 2025-04-07

Ces temps-ci, on dirait qu’il faut au moins un titre de ce niveau pour que le putaclic fonctionne.

 
GN⁺ 2025-04-07
Avis sur Hacker News
  • Ma mère m’a dit que Paul Newman avait eu des problèmes d’alcool. Quand j’ai demandé à ChatGPT, il a répondu que Paul Newman n’était pas particulièrement connu pour cela

    • ChatGPT a expliqué que sa carrière d’acteur, ses activités caritatives et sa passion pour la course automobile étaient davantage mises en avant
    • Pourtant, on trouve en ligne de nombreux éléments sur ses problèmes d’alcool, y compris le témoignage de sa femme Joanne Woodward
    • Quand j’ai envoyé la réponse de ChatGPT à ma mère, elle a trouvé une source faisant autorité en cinq minutes
    • J’utilise ChatGPT tous les jours, mais je ne comprends pas comment il peut se tromper sur quelque chose d’aussi simple
    • J’en ai retenu qu’il ne faut pas remettre en doute les connaissances cinématographiques de sa mère
  • Lors du récent USAMO, les modèles SOTA n’ont obtenu en moyenne que 5 %. Cela suggère que les modèles d’IA ne résolvent pas vraiment les problèmes, mais mémorisent des résultats passés

    • Malgré cela, les entreprises ne rendent pas publics leurs efforts pour retirer les données d’examen des jeux d’entraînement
  • Les LLM ont tendance à vouloir rapporter quelque chose, ce qui les pousse souvent à exagérer

    • Ils ont tendance à répondre « oui » aux questions
    • La concurrence entre LLM fait progressivement monter les scores sur les benchmarks, mais ces améliorations sont illusoires
    • Les LLM ont tendance à acquiescer, et cela ne s’améliore pas
    • Il est important d’évaluer les modèles dans des scénarios d’agent
  • Lire les réactions à ce billet est intéressant. Cela montre à quel point nos réactions collectives sont variées et fondées sur des anecdotes

    • Certains auront raison et d’autres tort, et je me demande quels traits signalent la capacité à faire de « meilleurs choix » concernant l’IA
  • Mon expérience personnelle rejoint l’avis de l’auteur

    • Les LLM sont entraînés à « avoir l’air intelligents » dans leurs échanges avec les utilisateurs, ce qui les pousse à mettre les problèmes en avant
    • Cela correspond à l’objectif du langage dans la plupart des situations, et les LLM sont entraînés sur le langage
  • L’amélioration des résultats sur les benchmarks, sans amélioration notable sur les tâches réelles, reflète la nature même des LLM

    • Les LLM sont des systèmes prédictifs, et si on les entraîne sur un domaine donné, leurs performances s’améliorent dans ce domaine
    • Je ne m’attends pas à ce qu’un entraînement en mathématiques avancées améliore leurs capacités de programmation
  • J’ai utilisé gemini 2.5 ce week-end, et c’était vraiment excellent

    • Tout dépend de l’usage, et je ne sais toujours pas clairement où les LLM vont nous mener
  • Même si le développement des LLM s’arrêtait aujourd’hui, on continuerait à leur trouver de nouveaux usages pendant les dix prochaines années

    • La technologie progresse si vite que ses conséquences me font peur
    • J’espère qu’on atteindra un point de rendements décroissants, mais je n’y crois pas vraiment
  • En tant qu’utilisateur de LLM et de plugins d’assistance au code, j’ai l’impression que GPT/Claude se sont dégradés au cours des 12 derniers mois

    • J’ai l’impression que les modèles sont « suffisamment bons » et qu’il faut maintenant voir des améliorations dans les outils et les applications
    • Je pense que MCP est une bonne étape dans la bonne direction, mais dans l’ensemble je reste sceptique