- Meta a annoncé deux nouveaux modèles Llama 4 : le petit modèle Scout et le modèle de taille intermédiaire Maverick
- Meta affirme que Maverick affiche de meilleures performances que GPT-4o et Gemini 2.0 Flash
- Maverick s’est classé 2e sur LMArena, une plateforme de comparaison de modèles d’IA
- Le score ELO publié est de 1417 points, supérieur à celui de GPT-4o et légèrement inférieur à celui de Gemini 2.5 Pro
- Un score ELO élevé signifie que le modèle l’emporte plus souvent lors d’évaluations comparatives face à d’autres modèles
Soupçons de manipulation des benchmarks
- Des chercheurs en IA ont repéré des éléments inhabituels dans la documentation de Meta
- La version de Maverick utilisée sur LMArena est différente de celle rendue publique
- Meta a indiqué avoir utilisé sur LMArena une version expérimentale optimisée pour la conversation
- Cette version est un modèle expérimental centré sur la « performance conversationnelle (conversationality) »
Réaction de la communauté et de la plateforme
- LMArena a déclaré officiellement que l’interprétation par Meta de sa politique ne correspondait pas à ses attentes
- Meta n’avait pas clairement indiqué qu’il s’agissait d’une version expérimentale, et LMArena a annoncé modifier sa politique de classement en conséquence
- Il s’agit de mesures visant à garantir des évaluations justes et reproductibles à l’avenir
Explications de Meta
- Dans une déclaration transmise par e-mail, la porte-parole de Meta, Ashley Gabriel, a expliqué que l’entreprise teste diverses versions expérimentales
- Elle a déclaré : «
Llama-4-Maverick-03-26-Experimental est un modèle expérimental optimisé pour la conversation, qui a également obtenu d’excellents résultats sur LMArena »
2 commentaires
Bien sûr, impossible qu’un benchmark échappe à une petite manipulation.
Avis sur Hacker News
meta.ai). J’utilise régulièrement les versions web de GPT 4o, Deepseek, Grok et Google Gemeni 2.5