4 points par GN⁺ 2025-04-09 | 2 commentaires | Partager sur WhatsApp
  • Meta a annoncé deux nouveaux modèles Llama 4 : le petit modèle Scout et le modèle de taille intermédiaire Maverick
  • Meta affirme que Maverick affiche de meilleures performances que GPT-4o et Gemini 2.0 Flash
  • Maverick s’est classé 2e sur LMArena, une plateforme de comparaison de modèles d’IA
  • Le score ELO publié est de 1417 points, supérieur à celui de GPT-4o et légèrement inférieur à celui de Gemini 2.5 Pro
  • Un score ELO élevé signifie que le modèle l’emporte plus souvent lors d’évaluations comparatives face à d’autres modèles

Soupçons de manipulation des benchmarks

  • Des chercheurs en IA ont repéré des éléments inhabituels dans la documentation de Meta
  • La version de Maverick utilisée sur LMArena est différente de celle rendue publique
  • Meta a indiqué avoir utilisé sur LMArena une version expérimentale optimisée pour la conversation
  • Cette version est un modèle expérimental centré sur la « performance conversationnelle (conversationality) »

Réaction de la communauté et de la plateforme

  • LMArena a déclaré officiellement que l’interprétation par Meta de sa politique ne correspondait pas à ses attentes
  • Meta n’avait pas clairement indiqué qu’il s’agissait d’une version expérimentale, et LMArena a annoncé modifier sa politique de classement en conséquence
  • Il s’agit de mesures visant à garantir des évaluations justes et reproductibles à l’avenir

Explications de Meta

  • Dans une déclaration transmise par e-mail, la porte-parole de Meta, Ashley Gabriel, a expliqué que l’entreprise teste diverses versions expérimentales
  • Elle a déclaré : « Llama-4-Maverick-03-26-Experimental est un modèle expérimental optimisé pour la conversation, qui a également obtenu d’excellents résultats sur LMArena »

2 commentaires

 
ndrgrd 2025-04-10

Bien sûr, impossible qu’un benchmark échappe à une petite manipulation.

 
GN⁺ 2025-04-09
Avis sur Hacker News
  • La sortie de Llama 4 semble être un gros échec pour Meta. Les performances du modèle ne sont pas bonnes. Toute la couverture est négative
    • C’est à peu près ce à quoi on s’attendait, mais cela amène à se demander ce que Meta va faire ensuite. Ils semblent actuellement en retard sur les autres modèles open source, et leur pari ambitieux sur les MoE ne semble pas avoir porté ses fruits
    • Je me demande si Zuck a forcé la sortie. Il devait savoir que ce n’était pas prêt
  • Je suis choqué que des entreprises qui ont volé des contenus protégés par le droit d’auteur se comportent encore une fois de manière non éthique
  • Meta s’est fait prendre pour la première fois
  • Le plus parlant est de regarder les sample battles (H2H) publiées par LMArena. Les sorties du modèle de Meta sont beaucoup trop verbeuses et bavardes. Quand on voit les jugements, il est normal que les gens ignorent le classement de LMArena
  • Est-ce que LMArena est désormais devenu inutile ?
    • Je pensais qu’il s’agissait de faire tourner deux modèles sur la même requête fournie par l’utilisateur. Cela ne devrait pas pouvoir être manipulé
    • Je ne comprends pas ce que signifie « optimisation pour la conversation ». Je ne vois pas quel avantage cela apporte à LMArena
  • Meta se nuit à lui-même avec une IA publique médiocre que les gens peuvent essayer (meta.ai). J’utilise régulièrement les versions web de GPT 4o, Deepseek, Grok et Google Gemeni 2.5
    • Meta est toujours le pire, donc je n’y prête même plus attention
  • Personne ne sera surpris. Et la loi de Goodhart frappe encore
  • Le haut du leaderboard est rempli de modèles expérimentaux à poids fermés
  • Je pense que cela a été conçu pour être plus flatteur ou plus lèche-bottes avec la personne qui écrit le prompt. Si c’est vrai, cela est inquiétant pour les gens qui font les comparaisons