Yi - LLM bilingue open source de nouvelle génération

xguru · 2024-03-12T10:03:02+09:00

Modèle de langage de grande taille open source de nouvelle génération, entraîné de zéro par des développeurs Conçu comme un modèle bilingue et entraîné sur un corpus multilingue de 3T, il affiche de solides performances en compréhension du langage, raisonnement de bon sens et compréhension de lecture Basé sur des modèles de langage préentraînés 6B et 34B, puis étendu en modèles de chatbot, modèles à long contexte 200K, modèles d’upscaling en profondeur et modèles vision-langage Le modèle Yi-34B-Chat s’est classé 2e sur le leaderboard AlpacaEval derrière GPT-4 Turbo, dépassant les autres LLM surpasse les modèles open source existants en anglais comme en chinois et se classe 1er sur divers benchmarks Il adopte la même architecture de modèle que Llama, mais n’est pas un modèle dérivé de Llama. Il n’utilise pas les poids de Llama Disponible en plusieurs tailles, avec possibilité de fine-tuning du modèle selon des besoins spécifiques Modèles de chat Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits Modèles de base Yi-34B, Yi-34B-200K Yi-9B Yi-6B, Yi-6B-200K

(github.com/01-ai)

9 points par xguru 2024-03-12 | 1 commentaires | Partager sur WhatsApp

Modèle de langage de grande taille open source de nouvelle génération, entraîné de zéro par des développeurs
Conçu comme un modèle bilingue et entraîné sur un corpus multilingue de 3T, il affiche de solides performances en compréhension du langage, raisonnement de bon sens et compréhension de lecture
Basé sur des modèles de langage préentraînés 6B et 34B, puis étendu en modèles de chatbot, modèles à long contexte 200K, modèles d’upscaling en profondeur et modèles vision-langage
Le modèle Yi-34B-Chat
- s’est classé 2e sur le leaderboard AlpacaEval derrière GPT-4 Turbo, dépassant les autres LLM
- surpasse les modèles open source existants en anglais comme en chinois et se classe 1er sur divers benchmarks
Il adopte la même architecture de modèle que Llama, mais n’est pas un modèle dérivé de Llama. Il n’utilise pas les poids de Llama
Disponible en plusieurs tailles, avec possibilité de fine-tuning du modèle selon des besoins spécifiques
- Modèles de chat
  - Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits
  - Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits
- Modèles de base
  - Yi-34B, Yi-34B-200K
  - Yi-9B
  - Yi-6B, Yi-6B-200K

1 commentaires

xguru 2024-03-12

Avis sur Hacker News

Le modèle Yi-34B-Chat s’est classé 2e sur le leaderboard AlpacaEval, derrière GPT-4 Turbo, en surpassant d’autres LLM comme GPT-4, Mixtral et Claude.
Le modèle Yi-34B occupe la 1re place parmi les modèles open source sur les benchmarks en anglais et en chinois, selon le Hugging Face Open LLM Leaderboard (modèles préentraînés) et C-Eval.
Le code source du dépôt est sous licence Apache 2.0, mais pas les poids.
Le modèle Yi échoue sur certains prompts de test. Malgré plusieurs essais, Yi choisit à chaque fois une réponse différente comme gagnante.
Le nom « 01.ai » laisse entendre qu’il n’est pas de bon augure, puisqu’il s’agit aussi du nom du premier État IA dans le film Matrix, qui a fait la guerre à l’humanité et réduit les humains en esclavage.
Les performances du modèle Yi sont attribuées à la qualité des données, fruit d’un important travail de data engineering.
Le modèle Yi 34B Chat n’obtient pas de bons résultats sur le benchmark NYT Connections et se classe 22e sur le leaderboard basé sur l’Elo de LMSYS. Il obtient de meilleurs résultats en chinois.
Voir les performances de ces modèles s’améliorer donne de l’espoir qu’un LLM mobile-first, d’ici 2 à 3 ans, améliorera la synthèse vocale et la prédiction de saisie tout en réduisant fortement la consommation de batterie.
Il existe aussi un nouveau modèle appelé Yi-9B.

Yi - LLM bilingue open source de nouvelle génération

À lire aussi

1 commentaires

Avis sur Hacker News