2 points par GN⁺ 2025-07-12 | 1 commentaires | Partager sur WhatsApp
  • ETH Zurich et l’EPFL prévoient de lancer prochainement un grand modèle de langage (LLM) entièrement développé de manière ouverte sur une infrastructure publique
  • Ce modèle met l’accent sur la transparence, les performances multilingues et une large accessibilité, afin de pouvoir être utilisé dans des domaines variés comme la science, les administrations et le secteur privé
  • Le code source, les poids et les données d’entraînement seront publiés, et l’ensemble du processus a été conçu pour être reproductible, afin de favoriser la recherche ouverte et la conformité réglementaire
  • Il a été entraîné sur le supercalculateur de dernière génération Alps (CSCS) avec une énergie respectueuse de l’environnement, avec pour objectif une approche à grande échelle, performante et responsable dans l’usage des données
  • Ce LLM sera publié sous licence Apache 2.0 à la fin de l’été, et devrait contribuer à stimuler l’innovation et la recherche à l’échelle mondiale

Coopération internationale et contexte pour construire un LLM ouvert

  • Lors de l’International Open-Source LLM Builders Summit organisé à Genève, plus de 50 organisations mondiales liées aux LLM open source et à l’IA de confiance se sont réunies
  • Cet événement, organisé par l’EPFL et l’AI Center de l’ETH Zurich, constitue une étape importante pour dynamiser la communauté des modèles de base ouverts et la coopération
  • Les LLM ouverts sont de plus en plus perçus comme une alternative aux systèmes commerciaux développés à huis clos aux États-Unis, en Chine et ailleurs

Caractéristiques du nouveau LLM public et calendrier de lancement

  • Fruit d’une collaboration entre des chercheurs de l’EPFL, de l’ETH Zurich, d’autres universités suisses et des ingénieurs du CSCS, un LLM entièrement ouvert et développé dans le secteur public sera bientôt publié
  • Il est actuellement dans sa phase finale de tests et pourra être téléchargé sous licence ouverte
  • Ce modèle fait de la transparence, des performances multilingues et d’une large accessibilité ses valeurs centrales

Principe d’ouverture totale et de transparence

  • Le code source et les poids du modèle seront tous deux rendus publics
  • Les données d’entraînement seront elles aussi publiées de manière transparente et conçues pour être reproductibles, afin de soutenir l’adoption dans les domaines de la science, des administrations, de l’éducation et du secteur privé
  • Cette approche vise à favoriser l’innovation et renforcer la responsabilité

Avis d’experts

  • Imanol Schlag, chercheur à l’ETH AI Center, souligne que les « modèles totalement ouverts sont essentiels pour des applications dignes de confiance et pour faire progresser la recherche sur les risques et opportunités de l’IA »
  • Un processus transparent facilite également la conformité réglementaire

Conception multilingue

  • L’une des caractéristiques majeures du modèle est la prise en charge de plus de 1 000 langues
  • Le professeur Antoine Bosselut a indiqué qu’ils se sont concentrés dès le départ sur un large support multilingue
  • Le préentraînement s’appuie sur un jeu de données massif couvrant plus de 1 500 langues (60 % en anglais, 40 % dans d’autres langues), ainsi que sur des données de code et de mathématiques
  • En reflétant des contenus issus de langues et de cultures du monde entier, le modèle présente une forte utilité globale

Passage à l’échelle et inclusion

  • Le modèle sera publié en deux tailles : 8 milliards (8B) et 70 milliards (70B) de paramètres
    • La version 70B sera l’un des modèles totalement ouverts les plus puissants au monde
  • Il a été entraîné sur plus de 15 000 milliards de tokens de haute qualité (petites unités de texte), afin d’offrir une grande fiabilité et une forte polyvalence

Usage responsable des données

  • Le développement est mené dans le respect des obligations de transparence imposées par le droit suisse sur la protection des données, le droit d’auteur et l’AI Act de l’UE
  • Des travaux récents ont montré que respecter le refus de crawl du web (robots exclusion standard) n’entraîne quasiment aucune baisse de performance des LLM

Développement sur supercalculateur et durabilité

  • L’entraînement du modèle a lieu sur le supercalculateur Alps du CSCS, à Lugano
    • Équipé de 10 000 NVIDIA Grace Hopper Superchip, il s’agit d’une infrastructure IA de tout premier plan au niveau mondial
    • Il permet un entraînement efficace avec une électricité 100 % neutre en carbone
  • La mise en œuvre réussie d’Alps est le fruit de 15 années de coopération stratégique avec NVIDIA et HPE/Cray
  • Alps joue un rôle clé pour répondre aux besoins des charges de travail IA à grande échelle, y compris le préentraînement de LLM complexes
  • Le professeur Thomas Schulthess souligne que les efforts conjoints des institutions publiques de recherche et de l’industrie démontrent leur contribution à une infrastructure IA souveraine, à l’innovation ouverte, ainsi qu’à la science et à la société dans le monde entier

Accès public et usage mondial

  • Le LLM sera publié à la fin de l’été sous licence Apache 2.0
  • Une documentation sur l’architecture du modèle, les méthodes d’entraînement et les consignes d’usage sera également fournie afin de favoriser une réutilisation transparente et le développement ultérieur
  • Le professeur Antoine Bosselut a déclaré espérer que les chercheurs publics prennent la tête du développement des modèles ouverts et que diverses organisations construisent ensuite leurs propres applications sur cette base
  • Le professeur Martin Jaggi a affirmé qu’une ouverture totale est un facteur important pour stimuler l’innovation en Suisse, en Europe et dans le cadre de coopérations internationales, ainsi que pour attirer les meilleurs talents

1 commentaires

 
GN⁺ 2025-07-12
Avis Hacker News
  • J’attends de voir les résultats avec impatience. Si j’ai bien compris, ETH et l’EPFL entraînent ou affinent une ancienne version de LLaMA plutôt que les modèles les plus récents, donc ils pourraient être un peu en retrait par rapport aux performances SOTA. Mais le plus important, à mon avis, c’est qu’ETH et l’EPFL acquièrent de l’expérience en entraînement à grande échelle. D’après ce que j’ai entendu, le nouveau cluster IA rencontre encore beaucoup de tâtonnements au démarrage. Les gens sous-estiment souvent à quel point il est difficile d’entraîner un modèle à cette échelle sur sa propre infrastructure.<br>Pour situer, je suis né en Suisse et j’ai étudié à l’ETH. Le niveau intellectuel est là, mais l’expérience de l’entraînement à grande échelle manque encore. Et, personnellement, je pense qu’une grande partie de la « magie » des LLM vient en réalité de l’infrastructure.

    • En réalité, je pense qu’une grande partie de la magie vient des jeux de données, en particulier du SFT et des autres données de fine-tuning/RLHF. C’est ce qui a vraiment distingué les modèles que les gens utilisent de ceux qu’ils n’utilisent pas. Je suis totalement d’accord sur l’importance d’accumuler de l’expérience, et je pense que la construction d’infrastructure est un élément clé d’une chaîne d’approvisionnement souveraine en LLM. Mais il faudra aussi accorder très tôt une attention suffisante aux données pour que le modèle devienne réellement utile.

    • Pour entraîner un LLM SOTA, l’infrastructure devient elle aussi assez complexe. Beaucoup de gens pensent qu’il suffit de publier l’architecture et le dataset, puis d’utiliser Ray ou autre, mais en pratique il faut énormément d’éléments : conception du dataset, mise en place de pipelines d’évaluation, méthode d’entraînement, exploitation maximale du matériel, latence inter-nœuds, reprise sur erreur, etc. Cela dit, c’est une bonne chose de voir davantage d’acteurs arriver dans ce domaine.

    • En voyant la formule « from scratch », j’ai supposé qu’il s’agissait de préentraînement et non de fine-tuning. Je serais curieux d’avoir d’autres avis. Je me demande aussi s’ils partent sur une architecture de type Llama classique, et j’aimerais bien voir les résultats des benchmarks.

  • Je suis très heureux de lire la phrase selon laquelle <i>respecter l’opt-out du web crawling entraîne très peu de baisse de performance</i>.

    • Même s’il n’y a pas de baisse de performance dans les métriques d’entraînement, du point de vue de l’utilisateur final cela peut malgré tout être différent. Les utilisateurs et les propriétaires de sites web ont fondamentalement des objectifs différents. Les utilisateurs veulent des réponses et du contenu ; les propriétaires de sites veulent des revenus publicitaires ou des ventes additionnelles. Au final, on ne peut satisfaire pleinement qu’un seul des deux.
  • Je me demande si cela va établir une nouvelle référence en matière de transparence des datasets. Si cela se concrétise, ce serait une avancée importante. Cela dit, s’ils avaient nommé la machine AIps (AI Petaflops Supercomputer), ça aurait été plus amusant.

    • Le modèle OLMo de l’Allen Institute for Artificial Intelligence est lui aussi entièrement ouvert.<br><i>OLMo is fully open</i><br>La position d’AI2 est que la véritable ouverture consiste à publier les données, le modèle et le code.<br>En savoir plus sur OLMo

    • Smollm est aussi, à ma connaissance, un modèle entièrement ouvert.

  • Les données d’entraînement ouvertes sont le vrai facteur différenciant. Je me demande si c’est la première fois qu’on voit un dataset réellement ouvert à cette échelle. Des tentatives précédentes comme The Pile avaient aussi de la valeur, mais elles avaient leurs limites. J’attends aussi de voir comment ils garantiront la reproductibilité de l’entraînement.

    • La formule « le modèle sera entièrement ouvert : le code source et les poids seront publics, et les données d’entraînement seront transparentes et reproductibles » me fait penser que l’accent est mis moins sur une publication intégrale des données d’entraînement que sur leur caractère « reproductible ». Ils publieront peut-être des références comme la liste des URL des pages réellement utilisées pour l’entraînement, mais pas forcément leur contenu lui-même.

    • Oui, il reste toujours les problèmes classiques de droit d’auteur, donc ce ne sera probablement pas fourni directement sous forme de dataset empaqueté.

  • C’est exactement ça, la « démocratisation de l’IA ».

  • Le communiqué de presse parle énormément de la manière dont cela a été construit, mais donne très peu d’informations sur les capacités réelles du modèle par rapport aux autres modèles ouverts.

    • Pour une université, enseigner le « comment cela a été construit » est central, donc il est naturel qu’ils mettent l’accent là-dessus.

    • Ils disent que <i>le modèle sera publié en deux versions, 8B (8 milliards) et 70B (70 milliards), et que la version 70B sera l’un des modèles ouverts les plus puissants au monde, avec une publication prévue sous licence Apache 2.0 à la fin de l’été</i>. On pourra donc vérifier ça en septembre.

  • En tant que Suisse, je suis fier de voir cette nouvelle tout en haut de HN. Ces deux universités ont formé de très nombreux fondateurs, chercheurs et ingénieurs de classe mondiale, mais elles sont toujours restées dans l’ombre des États-Unis. Avec une excellente infrastructure publique, un bon système éducatif et une stabilité politique (+ la neutralité), je pense qu’elles peuvent saisir une opportunité particulière dans le domaine des LLM ouverts.

  • L’article mentionne que<br>« les LLM ouverts sont de plus en plus considérés comme des alternatives crédibles, tandis que la plupart des systèmes commerciaux sont développés à huis clos aux États-Unis ou en Chine ».<br>Les entreprises qui construisent aujourd’hui des LLM à grande échelle ont au contraire des incitations à dégrader la qualité pour monétiser via des abonnements, des publicités produit, etc. Certaines présentent déjà des biais politiques. Si l’Europe proposait, via une coopération entre le monde académique et les pouvoirs publics, des services de recherche et d’IA d’intérêt général, centrés sur l’utilisateur, ce serait très significatif.

    • Cela dit, fournir ce type de service est en soi complexe. Même si l’on entraîne un excellent modèle, le serving réel restera probablement assuré par des acteurs privés, donc la pression de la monétisation demeurera. Dans l’IA, cette tendance peut être encore plus forte en raison des coûts d’exploitation élevés. Au final, si le service est gratuit, l’utilisateur devient le produit, donc il faut extraire activement de la valeur pour dégager un bénéfice.
  • J’ai hâte de pouvoir le tester en conditions réelles.

  • Je me demande pourquoi ils annoncent les choses de cette manière alors que rien n’est encore sorti. Franchement, ils devraient le dire plus clairement.

    • Cette annonce a été faite lors de l’International Open-Source LLM Builders Summit qui s’est tenu cette semaine en Suisse. Je ne trouve pas ça si étrange de partager un calendrier et un plan.

    • C’est peut-être pour lever des fonds. Et cela a aussi du sens pour ancrer fortement, chez les utilisateurs européens, l’idée d’utiliser un LLM développé publiquement en Europe (ou en tout cas ni aux États-Unis ni en Chine). (C’est peut-être même trop logique pour être approuvé à Bruxelles.)

    • En Suisse, le cliché veut qu’on fasse les choses très tranquillement.