9 points par xguru 2024-03-12 | 1 commentaires | Partager sur WhatsApp
  • Modèle de langage de grande taille open source de nouvelle génération, entraîné de zéro par des développeurs
  • Conçu comme un modèle bilingue et entraîné sur un corpus multilingue de 3T, il affiche de solides performances en compréhension du langage, raisonnement de bon sens et compréhension de lecture
  • Basé sur des modèles de langage préentraînés 6B et 34B, puis étendu en modèles de chatbot, modèles à long contexte 200K, modèles d’upscaling en profondeur et modèles vision-langage
  • Le modèle Yi-34B-Chat
    • s’est classé 2e sur le leaderboard AlpacaEval derrière GPT-4 Turbo, dépassant les autres LLM
    • surpasse les modèles open source existants en anglais comme en chinois et se classe 1er sur divers benchmarks
  • Il adopte la même architecture de modèle que Llama, mais n’est pas un modèle dérivé de Llama. Il n’utilise pas les poids de Llama
  • Disponible en plusieurs tailles, avec possibilité de fine-tuning du modèle selon des besoins spécifiques
    • Modèles de chat
      • Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits
      • Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits
    • Modèles de base
      • Yi-34B, Yi-34B-200K
      • Yi-9B
      • Yi-6B, Yi-6B-200K

1 commentaires

 
xguru 2024-03-12

Avis sur Hacker News

  • Le modèle Yi-34B-Chat s’est classé 2e sur le leaderboard AlpacaEval, derrière GPT-4 Turbo, en surpassant d’autres LLM comme GPT-4, Mixtral et Claude.
  • Le modèle Yi-34B occupe la 1re place parmi les modèles open source sur les benchmarks en anglais et en chinois, selon le Hugging Face Open LLM Leaderboard (modèles préentraînés) et C-Eval.
  • Le code source du dépôt est sous licence Apache 2.0, mais pas les poids.
  • Le modèle Yi échoue sur certains prompts de test. Malgré plusieurs essais, Yi choisit à chaque fois une réponse différente comme gagnante.
  • Le nom « 01.ai » laisse entendre qu’il n’est pas de bon augure, puisqu’il s’agit aussi du nom du premier État IA dans le film Matrix, qui a fait la guerre à l’humanité et réduit les humains en esclavage.
  • Les performances du modèle Yi sont attribuées à la qualité des données, fruit d’un important travail de data engineering.
  • Le modèle Yi 34B Chat n’obtient pas de bons résultats sur le benchmark NYT Connections et se classe 22e sur le leaderboard basé sur l’Elo de LMSYS. Il obtient de meilleurs résultats en chinois.
  • Voir les performances de ces modèles s’améliorer donne de l’espoir qu’un LLM mobile-first, d’ici 2 à 3 ans, améliorera la synthèse vocale et la prédiction de saisie tout en réduisant fortement la consommation de batterie.
  • Il existe aussi un nouveau modèle appelé Yi-9B.