- Il y a quelques jours, quelqu’un a annoncé Reflection 70B, présenté comme une version affinée de Llama 3.1 70B, avec des résultats de benchmark surprenants
- La publication des weights était chaotique. Ils ont publié un LoRA pour 3.0 tout en affirmant qu’il s’agissait d’un fine-tuning pour 3.1
- En l’exécutant avec les poids publiés, les évaluations initiales n’étaient pas à la hauteur des attentes
- En utilisant l’endpoint hébergé, les évaluations ont commencé à atteindre un niveau proche du SOTA
- Des personnes ont trouvé une méthode astucieuse pour vérifier quel modèle tournait derrière l’endpoint
- En utilisant des tokens propres à chaque modèle et des mécanismes de censure spécifiques à certains modèles
- D’après ce qu’elles ont trouvé, il ne s’agissait pas de leur propre modèle affiné, mais d’un wrapper autour de Sonnet 3.5
- Après qu’un message sur Twitter a indiqué qu’il s’agissait de Sonnet, le contenu a changé
- Ensuite, un autre utilisateur a affirmé avoir trouvé, avec une méthode similaire, des preuves que le modèle hébergé avait été remplacé par GPT 4o
- Les résultats sont mitigés et incohérents, donc il n’est pas clair ce qui est vrai et ce qui est faux
- Tweet de publication du créateur original : https://twitter.com/mattshumer_/status/1831767014341538166
- Fil Twitter qui suit, via les prompts, le fait que quelque chose continue de changer : https://x.com/RealJosephus/status/1832904398831280448
1 commentaires
Avis Hacker News
Les performances du modèle Llama 3.1 70B avaient été annoncées comme excellentes, mais plusieurs problèmes sont apparus
Il est affirmé que ce post devrait recevoir davantage d’attention
Les gens font beaucoup de choses pour la notoriété, on se demande quel est l’objectif final de Schumer
Tweet original de l’auteur (qui sera bientôt supprimé)
Il y a une blague sur une personne dont le nom rime avec "odd" et commence par la troisième lettre de l’alphabet (C*** Debussy)
On se demande s’il y a eu une "confirmation" provenant de sources fiables, car il est difficile de faire confiance à un post Reddit, à un thread Twitter et à des captures d’écran d’origine incertaine