Meta, au cœur d’une polémique sur la manipulation de benchmarks IA

(theverge.com)

4 points par GN⁺ 2025-04-09 | 2 commentaires | Partager sur WhatsApp

Meta a annoncé deux nouveaux modèles Llama 4 : le petit modèle Scout et le modèle de taille intermédiaire Maverick
Meta affirme que Maverick affiche de meilleures performances que GPT-4o et Gemini 2.0 Flash
Maverick s’est classé 2e sur LMArena, une plateforme de comparaison de modèles d’IA
Le score ELO publié est de 1417 points, supérieur à celui de GPT-4o et légèrement inférieur à celui de Gemini 2.5 Pro
Un score ELO élevé signifie que le modèle l’emporte plus souvent lors d’évaluations comparatives face à d’autres modèles

Soupçons de manipulation des benchmarks

Des chercheurs en IA ont repéré des éléments inhabituels dans la documentation de Meta
La version de Maverick utilisée sur LMArena est différente de celle rendue publique
Meta a indiqué avoir utilisé sur LMArena une version expérimentale optimisée pour la conversation
Cette version est un modèle expérimental centré sur la « performance conversationnelle (conversationality) »

Réaction de la communauté et de la plateforme

LMArena a déclaré officiellement que l’interprétation par Meta de sa politique ne correspondait pas à ses attentes
Meta n’avait pas clairement indiqué qu’il s’agissait d’une version expérimentale, et LMArena a annoncé modifier sa politique de classement en conséquence
Il s’agit de mesures visant à garantir des évaluations justes et reproductibles à l’avenir

Explications de Meta

Dans une déclaration transmise par e-mail, la porte-parole de Meta, Ashley Gabriel, a expliqué que l’entreprise teste diverses versions expérimentales
Elle a déclaré : « Llama-4-Maverick-03-26-Experimental est un modèle expérimental optimisé pour la conversation, qui a également obtenu d’excellents résultats sur LMArena »

2 commentaires

ndrgrd 2025-04-10

Bien sûr, impossible qu’un benchmark échappe à une petite manipulation.

GN⁺ 2025-04-09

Avis sur Hacker News

La sortie de Llama 4 semble être un gros échec pour Meta. Les performances du modèle ne sont pas bonnes. Toute la couverture est négative
- C’est à peu près ce à quoi on s’attendait, mais cela amène à se demander ce que Meta va faire ensuite. Ils semblent actuellement en retard sur les autres modèles open source, et leur pari ambitieux sur les MoE ne semble pas avoir porté ses fruits
- Je me demande si Zuck a forcé la sortie. Il devait savoir que ce n’était pas prêt
Je suis choqué que des entreprises qui ont volé des contenus protégés par le droit d’auteur se comportent encore une fois de manière non éthique
Meta s’est fait prendre pour la première fois
Le plus parlant est de regarder les sample battles (H2H) publiées par LMArena. Les sorties du modèle de Meta sont beaucoup trop verbeuses et bavardes. Quand on voit les jugements, il est normal que les gens ignorent le classement de LMArena
Est-ce que LMArena est désormais devenu inutile ?
- Je pensais qu’il s’agissait de faire tourner deux modèles sur la même requête fournie par l’utilisateur. Cela ne devrait pas pouvoir être manipulé
- Je ne comprends pas ce que signifie « optimisation pour la conversation ». Je ne vois pas quel avantage cela apporte à LMArena
Meta se nuit à lui-même avec une IA publique médiocre que les gens peuvent essayer (meta.ai). J’utilise régulièrement les versions web de GPT 4o, Deepseek, Grok et Google Gemeni 2.5
- Meta est toujours le pire, donc je n’y prête même plus attention
Personne ne sera surpris. Et la loi de Goodhart frappe encore
Le haut du leaderboard est rempli de modèles expérimentaux à poids fermés
Je pense que cela a été conçu pour être plus flatteur ou plus lèche-bottes avec la personne qui écrit le prompt. Si c’est vrai, cela est inquiétant pour les gens qui font les comparaisons

Meta, au cœur d’une polémique sur la manipulation de benchmarks IA

Soupçons de manipulation des benchmarks

Réaction de la communauté et de la plateforme

Explications de Meta

À lire aussi

2 commentaires

Avis sur Hacker News