3 points par GN⁺ 2024-09-10 | 1 commentaires | Partager sur WhatsApp
  • Il y a quelques jours, quelqu’un a annoncé Reflection 70B, présenté comme une version affinée de Llama 3.1 70B, avec des résultats de benchmark surprenants
    • La publication des weights était chaotique. Ils ont publié un LoRA pour 3.0 tout en affirmant qu’il s’agissait d’un fine-tuning pour 3.1
    • En l’exécutant avec les poids publiés, les évaluations initiales n’étaient pas à la hauteur des attentes
    • En utilisant l’endpoint hébergé, les évaluations ont commencé à atteindre un niveau proche du SOTA
  • Des personnes ont trouvé une méthode astucieuse pour vérifier quel modèle tournait derrière l’endpoint
    • En utilisant des tokens propres à chaque modèle et des mécanismes de censure spécifiques à certains modèles
    • D’après ce qu’elles ont trouvé, il ne s’agissait pas de leur propre modèle affiné, mais d’un wrapper autour de Sonnet 3.5
    • Après qu’un message sur Twitter a indiqué qu’il s’agissait de Sonnet, le contenu a changé
    • Ensuite, un autre utilisateur a affirmé avoir trouvé, avec une méthode similaire, des preuves que le modèle hébergé avait été remplacé par GPT 4o
  • Les résultats sont mitigés et incohérents, donc il n’est pas clair ce qui est vrai et ce qui est faux
  • Tweet de publication du créateur original : https://twitter.com/mattshumer_/status/1831767014341538166
  • Fil Twitter qui suit, via les prompts, le fait que quelque chose continue de changer : https://x.com/RealJosephus/status/1832904398831280448

1 commentaires

 
GN⁺ 2024-09-10
Avis Hacker News
  • Les performances du modèle Llama 3.1 70B avaient été annoncées comme excellentes, mais plusieurs problèmes sont apparus

    • Les poids de Lora for Llama 3.0 ont été diffusés de manière incorrecte
    • L’évaluation initiale n’a pas été à la hauteur des attentes
    • L’endpoint hébergé affichait des performances de niveau SOTA
    • Diverses méthodes ont été utilisées pour vérifier de quel modèle il s’agissait réellement
    • Il s’est révélé utiliser le modèle Sonnet 3.5
    • Des preuves ont ensuite été trouvées d’un passage au modèle GPT 4o
    • Cela a provoqué de la confusion et une perte de temps
  • Il est affirmé que ce post devrait recevoir davantage d’attention

    • La réputation d’une personnalité connue dans le domaine de l’IA a été entachée
    • Il existe des éléments comme le filtrage de "claude", des erreurs de balisage et des preuves montrant que le modèle reconnaît être claude
    • Le point le plus décisif est le comportement du modèle, qui répond en arabe à des questions, alors que cette langue n’est pas prise en charge par la version de Llama
  • Les gens font beaucoup de choses pour la notoriété, on se demande quel est l’objectif final de Schumer

  • Tweet original de l’auteur (qui sera bientôt supprimé)

    Je suis ravi d’annoncer Reflection 70B, le meilleur modèle open source au monde.  
    Il a été entraîné avec Reflection-Tuning afin de permettre au LLM de corriger ses propres erreurs.  
    La version 405B doit sortir la semaine prochaine, et nous nous attendons à ce qu’elle devienne le meilleur modèle du monde.  
    
  • Il y a une blague sur une personne dont le nom rime avec "odd" et commence par la troisième lettre de l’alphabet (C*** Debussy)

  • On se demande s’il y a eu une "confirmation" provenant de sources fiables, car il est difficile de faire confiance à un post Reddit, à un thread Twitter et à des captures d’écran d’origine incertaine