Needle in a Needlestack : la percée mémoire de GPT-4o ! (code NIAN) - Tom Burns
Présentation du nouveau benchmark
- Needle in a Needlestack est un nouveau benchmark qui mesure à quel point les LLM (grands modèles de langage) parviennent à prêter attention aux informations dans une fenêtre de contexte.
- NIAN génère des prompts contenant des milliers de limericks, puis pose une question sur un seul limerick situé à un emplacement précis.
- Le prompt d’exemple contient environ 2 500 limericks.
- Jusqu’à présent, aucun LLM n’avait obtenu de très bons résultats sur ce benchmark.
Les essais de GPT-4 Turbo et Claude-3 Sonnet
- Essais de GPT-4 Turbo et Claude-3 Sonnet :
- gpt-4-turbo-2024-04-09
- claude-3-sonnet
La percée de GPT-4o
- GPT-4o réalise une percée majeure !
- Il affiche des performances presque parfaites sur ce benchmark.
- On se demande quand OpenAI révélera comment l’entreprise a réussi à rendre GPT-4o bien meilleur que GPT-4 Turbo.
Les performances des modèles Mistral
- Les modèles de Mistral sont très agréables à utiliser. L’API est très rapide et constante.
- Cependant, le nouveau modèle 8x22 de Mistral rencontre de très grandes difficultés sur ce benchmark.
- Même au début du prompt, la probabilité de répondre correctement à la question n’est que de 50 %.
- Mistral large obtient de meilleurs résultats, mais reste limité à 70 % de précision.
- Remarque : le nombre de tokens a été estimé avec le tokenizer d’OpenAI. Mistral utilise un tokenizer différent qui génère environ 25 % de tokens en plus, donc le nombre de tokens affiché dans le graphique est inférieur au nombre réel.
- open-mixtral-8x22b
- mistral-large-latest-2024-04-09
Les performances sur des prompts courts
- Les modèles obtiennent de bien meilleurs résultats sur des prompts courts.
- Exemple : comparaison des performances de Mistral 7b sur un prompt de 16k tokens et un prompt de 32k tokens.
- open-mistral-7b 16k tokens
- open-mistral-7b 32k tokens
L’importance de la répétition de l’information
- La répétition de l’information fait une grande différence dans ce test.
- GPT-3.5-turbo voit ses performances s’améliorer de manière spectaculaire lorsque le limerick visé par la question est répété 10 fois dans le prompt.
- limerick used once
- limerick used 10 times
Code du benchmark et informations supplémentaires
- Le code de ce benchmark est disponible ici.
- Il est facile d’ajouter la prise en charge d’autres modèles.
- Plus de détails sur la manière dont les réponses sont évaluées et les questions validées sont disponibles sur la page de méthodologie.
- Pour toute question, merci de contacter ce contact.
- Ce site est open source. Améliorer cette page.
L’avis de GN⁺
- Progrès technique : les performances de GPT-4o montrent une avancée majeure dans la mémoire et l’attention des LLM. Cela ouvre la voie à l’exécution de tâches plus complexes.
- Choix du modèle : lorsqu’on compare les performances de différents modèles, il est important de choisir celui qui convient à une tâche donnée. Par exemple, il peut être avantageux de sélectionner un modèle plus performant sur des prompts courts.
- Importance de l’apprentissage par répétition : il faut prendre en compte l’impact de la répétition de l’information sur les performances du modèle. Cela peut devenir un élément important dans la préparation des données et la conception des prompts.
- Avantages de l’open source : le fait que ce benchmark soit open source offre aux chercheurs et aux développeurs la possibilité d’y accéder librement et de l’améliorer. Cela peut contribuer au développement de la communauté.
- Perspectives d’avenir : les progrès de modèles comme GPT-4o peuvent apporter des innovations dans de nombreux domaines d’application de l’IA. Cependant, l’adoption de ces technologies exige aussi des considérations éthiques et un usage responsable.
2 commentaires
Les avancées technologiques sont vraiment incroyables.. T_T
Avis Hacker News
Résumé des commentaires de Hacker News
Erreurs dans la comparaison de documents juridiques
Basé sur le jeu de données des limericks
Limites du test Needle in the Haystack
Performances de Gemini Pro 1.5
Nécessité d’un test « Synthesis from Haystack »
Transformation de mises en page HTML avec GPT
Attention améliorée de GPT-4o
Difficulté de l’évaluation des LLM
Questions sur le jeu de données d’entraînement