5 points par GN⁺ 2024-03-08 | 1 commentaires | Partager sur WhatsApp

Former entièrement un LLM à partir de zéro

  • Beaucoup de curiosité autour de l’expérience de Reka, qui a réussi à entraîner de puissants modèles de langage multimodaux.
  • Partage des défis et des enseignements liés à la mise en place de l’infrastructure et à l’entraînement, depuis zéro, de grands modèles de langage et multimodaux.
  • Espère que ce billet sera intéressant et instructif pour beaucoup de monde.

La loterie du matériel à l’ère des LLM

  • Le premier élément indispensable pour entraîner un modèle est d’obtenir de la puissance de calcul.
  • Surprise face à l’instabilité des fournisseurs de calcul et aux écarts de qualité entre les clusters, les accélérateurs et la connectivité.
  • Les différences de qualité du matériel sont importantes, au point que l’entraînement ressemble réellement à une « loterie du matériel ».

GPU contre TPU

  • Chez Reka, les modèles sont principalement entraînés sur GPU.
  • Par comparaison avec l’expérience acquise chez Google avec les TPU, le taux de panne des GPU surprend.
  • Les compétences de l’équipe hardware sont essentielles, ce qui renforce encore l’idée de « loterie du matériel ».

La douleur des configurations multi-clusters

  • L’idée de devoir configurer de nouveaux environnements sur plusieurs clusters est peu familière.
  • Il est inévitable de disposer de pools d’accélérateurs répartis sur plusieurs clusters.
  • Cela crée des difficultés pour manipuler de gros volumes de données, et la réplication des données n’est pas simple à grande échelle.

Du code en milieu sauvage

  • T5X et MeshTensorflow étaient des bases de code appréciées, mais hors de Google, elles sont peu prises en charge et difficiles à utiliser.
  • PyTorch a été choisi car il est plus accessible.
  • Le niveau de qualité des bases de code externes semble inférieur à celui de l’interne chez Google.

Moins de principes, plus de Yolo

  • En principe, un modèle devrait être étendu de manière systématique, mais dans une startup, les ressources de calcul sont limitées, ce qui conduit à beaucoup d’exécutions en mode Yolo.
  • Entraîner un modèle puissant avec un nombre d’essais limité est un vrai défi.

Résumé

  • L’expérience sur le terrain a été intéressante, mais douloureuse.
  • Le manque de ressources de calcul et l’instabilité des fournisseurs ont rendu les choses plus difficiles que prévu, mais ces obstacles ont été surmontés par la force technique.
  • Ce n’est qu’une partie de l’histoire : créer une entreprise, lever des fonds, acheter des puces, puis rivaliser avec Gemini pro/GPT 3.5 et dépasser bien d’autres acteurs.

L’avis de GN⁺

  • Cet article montre bien les problèmes concrets et les défis auxquels une startup est confrontée lorsqu’elle entraîne un grand modèle de langage à partir de zéro. Il peut offrir des enseignements réalistes à un ingénieur logiciel junior.
  • L’importance du choix du matériel, ainsi que les écarts de taux de panne et de niveau de support, sont des éléments à prendre en compte lorsqu’une startup ou une petite entreprise lance un grand projet.
  • L’article met en évidence les contraintes techniques auxquelles les startups font face par rapport à l’infrastructure de grands groupes comme Google. Il montre pourquoi elles doivent être prudentes dans leurs choix technologiques.
  • Il suggère que la mise en place de l’infrastructure et des outils nécessaires à l’entraînement de grands modèles peut être très complexe et difficile pour une startup. C’est un point important dans le choix d’un fournisseur cloud ou dans la décision de construire son propre matériel.
  • Malgré les problèmes et les défis techniques, l’article transmet un message positif : une startup peut surmonter ces difficultés grâce à sa force technique et obtenir des résultats probants.

1 commentaires

 
GN⁺ 2024-03-08
Avis sur Hacker News
  • Une startup désigne ici une organisation avec peu de personnel et beaucoup de capitaux à investir dans un cluster d’entraînement. L’article explique que de nombreuses startups et entreprises établies louent des serveurs pour opérer. La plupart des créateurs de LLM (Large Language Model) utilisent un matériel et des données similaires pour s’entraîner sur des données textuelles et visuelles. Chaque LLM dispose de sa propre « sauce secrète », ce qui crée des différences de qualité dans les sorties. Mais dans l’ensemble, ce processus ressemble à un travail redondant très énergivore.
  • Ce texte raconte l’expérience de Yi Tay, ancien responsable technique de PaLM, UL2, Flan et Bard chez Google, devenu cofondateur de Reka, dans l’entraînement de LLM au sein d’une startup indépendante. La conversation qui a conduit Yi Tay à écrire ce billet est consignée ici.
  • J’ai découvert Reka.ai grâce à ce billet. Les LLM de Reka.ai n’ont pas beaucoup été discutés sur Hacker News. Par curiosité, j’ai testé l’interface de chat de Reka Flash en la comparant à ChatGPT 4, Gemini Advanced, Claude 3 et Mistral Large. Les résultats sont ici. Globalement, Reka Flash n’est ni nettement moins bon ni meilleur que les autres LLM. Bien sûr, il faudrait davantage de tests pour en juger avec certitude.
  • L’auteur suppose que les lecteurs comprendront « the wild » comme « hors de Google ». Ce texte rend largement hommage aux équipes infrastructure et matériel de Google, et donne envie de lire le point de vue d’un ancien de Google qui s’est mis à faire ce type de travail ailleurs.
  • La page principale de Reka.AI présente ce qui ressemble à un clone classique de ChatGPT, payable au token, c’est-à-dire un LLM. Ce qui le différencie des autres entreprises n’est pas clair. Le prix semble proche de celui de ChatGPT 3.5-Turbo.
  • L’entraînement de LLM à partir de zéro est une question aussi importante pour la vitesse et l’ampleur de l’évolution de l’IA que les améliorations du matériel brut. Le blog est intéressant, mais un peu superficiel et peu technique, et il n’y a rien de surprenant pour quelqu’un ayant déjà travaillé avec des clusters de GPU. On ne comprend pas vraiment pourquoi Jax serait recommandé plutôt que PyTorch pour les LLM en dehors de Google. J’espère que cette nouvelle entreprise publiera un compte rendu plus technique de son aventure d’entraînement.
  • Cela ne couvre qu’une petite partie de l’histoire : créer une entreprise, lever des fonds, acheter des puces et construire en moins d’un an un LLM au niveau de GPT 3.5, tout en surpassant de nombreux autres produits. Je me demande quel budget a été consacré aux puces / GPU cloud. Peut-être entre 2 et 5 millions de dollars ?
  • Une grande question est de savoir comment de petites startups sans le bon bagage ni le bon parcours obtiennent des financements pour des produits LLM. L’univers des startups LLM ressemble au monde des hedge funds et du private equity, où les prérequis pour obtenir du seed / du financement semblent être un historique d’emploi prestigieux / le bon parcours, ainsi qu’un solide réseau d’investisseurs prêts à investir avant même que le produit n’existe.
  • Je me demande si le titre ne devrait pas être « from the ground up » plutôt que « ground zero ».
  • La partie sur le processus des données d’entraînement est très intéressante, et j’aimerais en savoir plus.