L’API officielle de Reflection 70B était en fait un wrapper de Claude Sonnet 3.5

(old.reddit.com)

3 points par GN⁺ 2024-09-10 | 1 commentaires | Partager sur WhatsApp

Il y a quelques jours, quelqu’un a annoncé Reflection 70B, présenté comme une version affinée de Llama 3.1 70B, avec des résultats de benchmark surprenants
- La publication des weights était chaotique. Ils ont publié un LoRA pour 3.0 tout en affirmant qu’il s’agissait d’un fine-tuning pour 3.1
- En l’exécutant avec les poids publiés, les évaluations initiales n’étaient pas à la hauteur des attentes
- En utilisant l’endpoint hébergé, les évaluations ont commencé à atteindre un niveau proche du SOTA
Des personnes ont trouvé une méthode astucieuse pour vérifier quel modèle tournait derrière l’endpoint
- En utilisant des tokens propres à chaque modèle et des mécanismes de censure spécifiques à certains modèles
- D’après ce qu’elles ont trouvé, il ne s’agissait pas de leur propre modèle affiné, mais d’un wrapper autour de Sonnet 3.5
- Après qu’un message sur Twitter a indiqué qu’il s’agissait de Sonnet, le contenu a changé
- Ensuite, un autre utilisateur a affirmé avoir trouvé, avec une méthode similaire, des preuves que le modèle hébergé avait été remplacé par GPT 4o
Les résultats sont mitigés et incohérents, donc il n’est pas clair ce qui est vrai et ce qui est faux
Tweet de publication du créateur original : https://twitter.com/mattshumer_/status/1831767014341538166
Fil Twitter qui suit, via les prompts, le fait que quelque chose continue de changer : https://x.com/RealJosephus/status/1832904398831280448

1 commentaires

GN⁺ 2024-09-10

Avis Hacker News

Les performances du modèle Llama 3.1 70B avaient été annoncées comme excellentes, mais plusieurs problèmes sont apparus
- Les poids de Lora for Llama 3.0 ont été diffusés de manière incorrecte
- L’évaluation initiale n’a pas été à la hauteur des attentes
- L’endpoint hébergé affichait des performances de niveau SOTA
- Diverses méthodes ont été utilisées pour vérifier de quel modèle il s’agissait réellement
- Il s’est révélé utiliser le modèle Sonnet 3.5
- Des preuves ont ensuite été trouvées d’un passage au modèle GPT 4o
- Cela a provoqué de la confusion et une perte de temps
Il est affirmé que ce post devrait recevoir davantage d’attention
- La réputation d’une personnalité connue dans le domaine de l’IA a été entachée
- Il existe des éléments comme le filtrage de "claude", des erreurs de balisage et des preuves montrant que le modèle reconnaît être claude
- Le point le plus décisif est le comportement du modèle, qui répond en arabe à des questions, alors que cette langue n’est pas prise en charge par la version de Llama
Les gens font beaucoup de choses pour la notoriété, on se demande quel est l’objectif final de Schumer

Tweet original de l’auteur (qui sera bientôt supprimé)

Je suis ravi d’annoncer Reflection 70B, le meilleur modèle open source au monde.  
Il a été entraîné avec Reflection-Tuning afin de permettre au LLM de corriger ses propres erreurs.  
La version 405B doit sortir la semaine prochaine, et nous nous attendons à ce qu’elle devienne le meilleur modèle du monde.

Il y a une blague sur une personne dont le nom rime avec "odd" et commence par la troisième lettre de l’alphabet (C*** Debussy)
On se demande s’il y a eu une "confirmation" provenant de sources fiables, car il est difficile de faire confiance à un post Reddit, à un thread Twitter et à des captures d’écran d’origine incertaine

L’API officielle de Reflection 70B était en fait un wrapper de Claude Sonnet 3.5

À lire aussi

1 commentaires

Avis Hacker News