Un véritable LLM ouvert : voici Hello OLMo
(blog.allenai.org)-
AI2 a publié le modèle OLMo 7B. Il s’agit d’un grand modèle de langage open source au sens plein du terme, avec publication conjointe des données de pré-entraînement et du code d’entraînement.
- Cela permet aux chercheurs et aux développeurs de faire progresser collectivement la science des modèles de langage en s’appuyant sur les meilleurs modèles ouverts.
- Yann LeCun, scientifique en IA chez Meta, a déclaré que la communauté open source pouvait construire l’avenir de l’IA de la manière la plus rapide et la plus efficace.
-
Principales caractéristiques du framework OLMo :
- Données de pré-entraînement complètes : utilisation du dataset Dolma d’AI2, avec également le code servant à générer les données d’entraînement.
- Code d’entraînement et poids du modèle : fourniture des poids complets du modèle, du code d’inférence, des métriques d’entraînement et des logs d’entraînement pour quatre variantes de modèles à l’échelle 7B.
- Évaluation : publication, dans le cadre du projet Catwalk, de plus de 500 checkpoints, du code d’évaluation et d’autres outils d’évaluation utilisés pour le développement.
-
Avec OLMo, les chercheurs et développeurs en IA peuvent bénéficier des éléments suivants :
- Analyses plus précises : possibilité de travailler plus vite grâce à une visibilité complète sur les données d’entraînement.
- Réduction des émissions carbone : la publication de l’ensemble de l’écosystème d’entraînement et d’évaluation permet de limiter les développements redondants.
- Résultats durables : la publication du modèle et du dataset permet d’apprendre des modèles précédents et de s’appuyer dessus.
-
Le développement d’OLMo a été rendu possible grâce à des collaborations avec AMD, CSC (supercalculateur Lumi), l’University of Washington, Databricks, entre autres.
L’avis de GN⁺
- La publication des données d’entraînement et du code afin d’améliorer la transparence des modèles d’IA semble très significative. Cela dit, des problèmes comme les biais de données peuvent subsister, et ils méritent donc aussi un examen attentif.
- La dynamisation de l’écosystème open source des modèles de langage devrait accélérer les avancées technologiques. Il faudra toutefois voir quels résultats pourront être obtenus face à la concurrence des modèles d’IA fermés des grands groupes IT.
- La collaboration avec diverses institutions paraît essentielle pour réunir les énormes ressources de calcul nécessaires au développement de l’IA. Cela pourrait constituer un très bon modèle de coopération entre monde académique et industrie.
- OLMo devrait favoriser des recherches scientifiques plus actives sur les mécanismes de fonctionnement des modèles de langage. Cela pourrait conduire au développement d’une IA plus sûre et plus fiable.
1 commentaires
Avis sur Hacker News