Former entièrement un LLM à partir de zéro
- Beaucoup de curiosité autour de l’expérience de Reka, qui a réussi à entraîner de puissants modèles de langage multimodaux.
- Partage des défis et des enseignements liés à la mise en place de l’infrastructure et à l’entraînement, depuis zéro, de grands modèles de langage et multimodaux.
- Espère que ce billet sera intéressant et instructif pour beaucoup de monde.
La loterie du matériel à l’ère des LLM
- Le premier élément indispensable pour entraîner un modèle est d’obtenir de la puissance de calcul.
- Surprise face à l’instabilité des fournisseurs de calcul et aux écarts de qualité entre les clusters, les accélérateurs et la connectivité.
- Les différences de qualité du matériel sont importantes, au point que l’entraînement ressemble réellement à une « loterie du matériel ».
GPU contre TPU
- Chez Reka, les modèles sont principalement entraînés sur GPU.
- Par comparaison avec l’expérience acquise chez Google avec les TPU, le taux de panne des GPU surprend.
- Les compétences de l’équipe hardware sont essentielles, ce qui renforce encore l’idée de « loterie du matériel ».
La douleur des configurations multi-clusters
- L’idée de devoir configurer de nouveaux environnements sur plusieurs clusters est peu familière.
- Il est inévitable de disposer de pools d’accélérateurs répartis sur plusieurs clusters.
- Cela crée des difficultés pour manipuler de gros volumes de données, et la réplication des données n’est pas simple à grande échelle.
Du code en milieu sauvage
- T5X et MeshTensorflow étaient des bases de code appréciées, mais hors de Google, elles sont peu prises en charge et difficiles à utiliser.
- PyTorch a été choisi car il est plus accessible.
- Le niveau de qualité des bases de code externes semble inférieur à celui de l’interne chez Google.
Moins de principes, plus de Yolo
- En principe, un modèle devrait être étendu de manière systématique, mais dans une startup, les ressources de calcul sont limitées, ce qui conduit à beaucoup d’exécutions en mode Yolo.
- Entraîner un modèle puissant avec un nombre d’essais limité est un vrai défi.
Résumé
- L’expérience sur le terrain a été intéressante, mais douloureuse.
- Le manque de ressources de calcul et l’instabilité des fournisseurs ont rendu les choses plus difficiles que prévu, mais ces obstacles ont été surmontés par la force technique.
- Ce n’est qu’une partie de l’histoire : créer une entreprise, lever des fonds, acheter des puces, puis rivaliser avec Gemini pro/GPT 3.5 et dépasser bien d’autres acteurs.
L’avis de GN⁺
- Cet article montre bien les problèmes concrets et les défis auxquels une startup est confrontée lorsqu’elle entraîne un grand modèle de langage à partir de zéro. Il peut offrir des enseignements réalistes à un ingénieur logiciel junior.
- L’importance du choix du matériel, ainsi que les écarts de taux de panne et de niveau de support, sont des éléments à prendre en compte lorsqu’une startup ou une petite entreprise lance un grand projet.
- L’article met en évidence les contraintes techniques auxquelles les startups font face par rapport à l’infrastructure de grands groupes comme Google. Il montre pourquoi elles doivent être prudentes dans leurs choix technologiques.
- Il suggère que la mise en place de l’infrastructure et des outils nécessaires à l’entraînement de grands modèles peut être très complexe et difficile pour une startup. C’est un point important dans le choix d’un fournisseur cloud ou dans la décision de construire son propre matériel.
- Malgré les problèmes et les défis techniques, l’article transmet un message positif : une startup peut surmonter ces difficultés grâce à sa force technique et obtenir des résultats probants.
1 commentaires
Avis sur Hacker News