4 points par GN⁺ 2024-05-15 | 2 commentaires | Partager sur WhatsApp

Needle in a Needlestack : la percée mémoire de GPT-4o ! (code NIAN) - Tom Burns

Présentation du nouveau benchmark

  • Needle in a Needlestack est un nouveau benchmark qui mesure à quel point les LLM (grands modèles de langage) parviennent à prêter attention aux informations dans une fenêtre de contexte.
  • NIAN génère des prompts contenant des milliers de limericks, puis pose une question sur un seul limerick situé à un emplacement précis.
  • Le prompt d’exemple contient environ 2 500 limericks.
  • Jusqu’à présent, aucun LLM n’avait obtenu de très bons résultats sur ce benchmark.

Les essais de GPT-4 Turbo et Claude-3 Sonnet

  • Essais de GPT-4 Turbo et Claude-3 Sonnet :
    • gpt-4-turbo-2024-04-09
    • claude-3-sonnet

La percée de GPT-4o

  • GPT-4o réalise une percée majeure !
  • Il affiche des performances presque parfaites sur ce benchmark.
  • On se demande quand OpenAI révélera comment l’entreprise a réussi à rendre GPT-4o bien meilleur que GPT-4 Turbo.

Les performances des modèles Mistral

  • Les modèles de Mistral sont très agréables à utiliser. L’API est très rapide et constante.
  • Cependant, le nouveau modèle 8x22 de Mistral rencontre de très grandes difficultés sur ce benchmark.
    • Même au début du prompt, la probabilité de répondre correctement à la question n’est que de 50 %.
    • Mistral large obtient de meilleurs résultats, mais reste limité à 70 % de précision.
  • Remarque : le nombre de tokens a été estimé avec le tokenizer d’OpenAI. Mistral utilise un tokenizer différent qui génère environ 25 % de tokens en plus, donc le nombre de tokens affiché dans le graphique est inférieur au nombre réel.
    • open-mixtral-8x22b
    • mistral-large-latest-2024-04-09

Les performances sur des prompts courts

  • Les modèles obtiennent de bien meilleurs résultats sur des prompts courts.
  • Exemple : comparaison des performances de Mistral 7b sur un prompt de 16k tokens et un prompt de 32k tokens.
    • open-mistral-7b 16k tokens
    • open-mistral-7b 32k tokens

L’importance de la répétition de l’information

  • La répétition de l’information fait une grande différence dans ce test.
  • GPT-3.5-turbo voit ses performances s’améliorer de manière spectaculaire lorsque le limerick visé par la question est répété 10 fois dans le prompt.
    • limerick used once
    • limerick used 10 times

Code du benchmark et informations supplémentaires

  • Le code de ce benchmark est disponible ici.
  • Il est facile d’ajouter la prise en charge d’autres modèles.
  • Plus de détails sur la manière dont les réponses sont évaluées et les questions validées sont disponibles sur la page de méthodologie.
  • Pour toute question, merci de contacter ce contact.
  • Ce site est open source. Améliorer cette page.

L’avis de GN⁺

  • Progrès technique : les performances de GPT-4o montrent une avancée majeure dans la mémoire et l’attention des LLM. Cela ouvre la voie à l’exécution de tâches plus complexes.
  • Choix du modèle : lorsqu’on compare les performances de différents modèles, il est important de choisir celui qui convient à une tâche donnée. Par exemple, il peut être avantageux de sélectionner un modèle plus performant sur des prompts courts.
  • Importance de l’apprentissage par répétition : il faut prendre en compte l’impact de la répétition de l’information sur les performances du modèle. Cela peut devenir un élément important dans la préparation des données et la conception des prompts.
  • Avantages de l’open source : le fait que ce benchmark soit open source offre aux chercheurs et aux développeurs la possibilité d’y accéder librement et de l’améliorer. Cela peut contribuer au développement de la communauté.
  • Perspectives d’avenir : les progrès de modèles comme GPT-4o peuvent apporter des innovations dans de nombreux domaines d’application de l’IA. Cependant, l’adoption de ces technologies exige aussi des considérations éthiques et un usage responsable.

2 commentaires

 
wedding 2024-05-18

Les avancées technologiques sont vraiment incroyables.. T_T

 
GN⁺ 2024-05-15
Avis Hacker News

Résumé des commentaires de Hacker News

  • Erreurs dans la comparaison de documents juridiques

    • En comparant deux petits documents juridiques, GPT-4 a identifié à tort certains éléments comme présents dans un seul document. En réalité, le contenu était identique.
    • Il ne s’agit que d’un seul échantillon, mais les 90 % de précision semblent douteux. Le texte faisait environ 80k tokens.
  • Basé sur le jeu de données des limericks

    • Basé sur un jeu de données de limericks publié en 2021. Il est très probable que GPT-4o ait été entraîné sur ce jeu de données.
    • L’équipe NIAN devrait générer des limericks avec d’autres modèles et vérifier qu’ils ne figurent pas dans le jeu de données.
  • Limites du test Needle in the Haystack

    • Ce test ne montre que de manière limitée la réelle capacité des modèles à gérer un long contexte. Il a surtout été utilisé parce que les premiers modèles y obtenaient de mauvaises performances.
    • Les modèles récents obtiennent de bons résultats à ce test, mais après 32K tokens, leur capacité à accomplir des tâches complexes chute fortement.
    • Le test RULER est une meilleure méthode d’évaluation.
  • Performances de Gemini Pro 1.5

    • Gemini Pro 1.5 a pu traiter l’intégralité de Moby Dick ainsi que tous les livres de Byung Chul-Han. Il a trouvé avec précision les réponses aux questions.
  • Nécessité d’un test « Synthesis from Haystack »

    • Il faut une méthode qui teste non seulement la recherche simple, mais aussi la compréhension en profondeur, les connexions et l’abstraction.
    • Quand un humain lit un livre, il en retire une intuition d’ensemble. Il faut un moyen de quantifier cela.
  • Transformation de mises en page HTML avec GPT

    • Il est possible d’utiliser GPT pour transformer en temps réel des données dynamiques en mises en page HTML élégantes. Cela fait gagner du temps de développement et permet aussi de mettre à jour le HTML quand la structure des données change.
    • Lors de tentatives précédentes, GPT-4 Turbo ignorait parfois le contexte et les instructions.
  • Attention améliorée de GPT-4o

    • GPT-4o fait preuve d’une meilleure attention sur l’ensemble de la fenêtre d’entrée que GPT-4 Turbo et Claude-3 Sonnet.
    • Le test « Needle In A Needlestack » serait une bonne prochaine étape. Il consiste à inclure dans le prompt des milliers de limericks et à poser une question sur un limerick situé à un endroit précis.
  • Difficulté de l’évaluation des LLM

    • Selon certains, presque personne sur l’internet public ne réalise correctement de véritables évaluations de LLM.
  • Questions sur le jeu de données d’entraînement

    • Des doutes subsistent sur la manière de savoir si GPT-4o n’a pas été entraîné sur ce jeu de données.
    • Le test n’a de sens que si l’on sait que les données de test ne faisaient pas partie des données d’entraînement.