7 points par GN⁺ 2024-04-09 | 1 commentaires | Partager sur WhatsApp
  • AI2 a publié le modèle OLMo 7B. Il s’agit d’un grand modèle de langage open source au sens plein du terme, avec publication conjointe des données de pré-entraînement et du code d’entraînement.

    • Cela permet aux chercheurs et aux développeurs de faire progresser collectivement la science des modèles de langage en s’appuyant sur les meilleurs modèles ouverts.
    • Yann LeCun, scientifique en IA chez Meta, a déclaré que la communauté open source pouvait construire l’avenir de l’IA de la manière la plus rapide et la plus efficace.
  • Principales caractéristiques du framework OLMo :

    • Données de pré-entraînement complètes : utilisation du dataset Dolma d’AI2, avec également le code servant à générer les données d’entraînement.
    • Code d’entraînement et poids du modèle : fourniture des poids complets du modèle, du code d’inférence, des métriques d’entraînement et des logs d’entraînement pour quatre variantes de modèles à l’échelle 7B.
    • Évaluation : publication, dans le cadre du projet Catwalk, de plus de 500 checkpoints, du code d’évaluation et d’autres outils d’évaluation utilisés pour le développement.
  • Avec OLMo, les chercheurs et développeurs en IA peuvent bénéficier des éléments suivants :

    • Analyses plus précises : possibilité de travailler plus vite grâce à une visibilité complète sur les données d’entraînement.
    • Réduction des émissions carbone : la publication de l’ensemble de l’écosystème d’entraînement et d’évaluation permet de limiter les développements redondants.
    • Résultats durables : la publication du modèle et du dataset permet d’apprendre des modèles précédents et de s’appuyer dessus.
  • Le développement d’OLMo a été rendu possible grâce à des collaborations avec AMD, CSC (supercalculateur Lumi), l’University of Washington, Databricks, entre autres.

L’avis de GN⁺

  • La publication des données d’entraînement et du code afin d’améliorer la transparence des modèles d’IA semble très significative. Cela dit, des problèmes comme les biais de données peuvent subsister, et ils méritent donc aussi un examen attentif.
  • La dynamisation de l’écosystème open source des modèles de langage devrait accélérer les avancées technologiques. Il faudra toutefois voir quels résultats pourront être obtenus face à la concurrence des modèles d’IA fermés des grands groupes IT.
  • La collaboration avec diverses institutions paraît essentielle pour réunir les énormes ressources de calcul nécessaires au développement de l’IA. Cela pourrait constituer un très bon modèle de coopération entre monde académique et industrie.
  • OLMo devrait favoriser des recherches scientifiques plus actives sur les mécanismes de fonctionnement des modèles de langage. Cela pourrait conduire au développement d’une IA plus sûre et plus fiable.

1 commentaires

 
GN⁺ 2024-04-09
Avis sur Hacker News
  • Lors de l’utilisation du LLM, il faut indiquer à l’auteur pour quel usage il est employé. C’est précisé dans la licence.
  • En cas de création d’un dérivé, il faut soumettre à AI2 un Derivative Impact Report ou fournir par écrit des informations similaires. AI2 peut rendre ces informations publiques.
  • Il faut faire preuve de transparence sur l’usage prévu des dérivés.
  • Le Derivative Impact Report n’a pas pour but de sanctionner les divulgations faites de bonne foi. Si un recours en justice lié à cela est engagé, le contrat prend immédiatement fin.
  • C’est l’un des véritables modèles open source. La plupart ne publient que les poids, alors que celui-ci est ouvert de bout en bout.
  • Il est surprenant qu’aucune comparaison avec Mistral 7b ne soit mentionnée.
  • Il semble que « The Pile » ne soit pas inclus dans les données d’entraînement. D’un point de vue juridique, cela pourrait être plus sain que d’autres LLM « ouverts ».
  • Que signifie réellement la classification des risques appliquée au dataset ? La page de licence ne l’explique pas assez. Cela signifie-t-il un risque d’incompatibilité en matière de licence pour une utilisation comme dataset d’entraînement ?
  • Il affiche une vitesse étonnamment élevée malgré sa petite taille.
  • S’agit-il de l’un des premiers LLM notables entraînés avec succès sur GPU AMD ? Je me demande à quel point le processus a été fluide et s’il y a eu des difficultés.
  • Sur ce modèle et d’autres similaires, on observe à l’inférence un problème de « repeated tokens ». Cela arrive souvent quand la fenêtre de contexte est de longueur intermédiaire.
  • Il semble tomber dans une sorte de minimum local pendant l’entraînement. La température semble avoir un effet, sans toutefois résoudre complètement le problème.
  • C’est dommage qu’il n’y ait pas de tableau comparatif dans le billet de blog.
  • C’est personnellement le LLM que je trouve le plus intéressant. C’est un outil puissant capable de remplacer la recherche et même de mener des travaux de recherche pour fournir une réponse finale. Les modèles fermés comme ceux d’OpenAI ou d’Anthropic ne peuvent pas être audités.
  • Il existe des cas réels où des biais ont été injectés dans des LLM (par exemple, la génération d’images historiquement inexactes par Google Gemini à cause d’un meta-prompt secret).
  • J’aime l’approche d’AI2. L’organisation partage sous licence Apache non seulement les poids, mais aussi le code source d’entraînement, les données, les outils d’évaluation, etc.
  • Les modèles à poids ouverts comme Llama sont en train de rattraper les modèles fermés d’OpenAI et d’autres acteurs. J’espère que les véritables modèles ouverts comme OLMo continueront eux aussi à progresser.
  • J’espère qu’on n’entravera pas le développement de l’IA open source par la régulation. Cela pourrait devenir à l’avenir un moyen d’expression pour la société, et le réguler reviendrait à limiter la liberté d’expression. Une baisse de la pression concurrentielle nuirait à l’innovation.
  • Article publié il y a 2 mois.