3 points par GN⁺ 2025-10-29 | 1 commentaires | Partager sur WhatsApp
  • EuroLLM est un grand modèle de langage (LLM) prenant en charge les 24 langues officielles de l’UE, développé conjointement par des instituts de recherche européens, avec pour objectif la souveraineté de l’IA en Europe et l’autonomie technologique
  • Il s’agit d’un modèle de 9B paramètres, entraîné sur plus de 4 billions de tokens dans 35 langues, montrant de fortes performances sur des tâches linguistiques comme les questions-réponses, le résumé et la traduction
  • EuroLLM 9B Base a été publié pour le fine-tuning, tandis que EuroLLM 9B Instruct est une version dotée de capacités conversationnelles de suivi d’instructions, disponible sur Hugging Face
  • Le projet réunit de grandes institutions européennes comme Unbabel, University of Edinburgh, Técnico Lisboa, Naver Labs Europe et a été entraîné sur le supercalculateur MareNostrum 5
  • Il annonce une extension multimodale (image et voix) ainsi qu’une politique d’ouverture totalement open source, avec l’ambition de devenir une infrastructure clé de l’écosystème européen d’innovation en IA

Présentation d’EuroLLM

  • EuroLLM est un grand modèle de langage (LLM local) développé en Europe, qui prend en charge l’ensemble des 24 langues officielles de l’UE
    • Il a été conçu comme un modèle d’IA de type infrastructure publique, utilisable par les citoyens, les entreprises et les chercheurs européens sans barrière linguistique
  • Il a été développé avec le soutien de Horizon Europe, du Conseil européen de la recherche et d’EuroHPC
    • L’entraînement a été réalisé sur le supercalculateur MareNostrum 5

Caractéristiques techniques

  • EuroLLM 9B : un modèle de 9 milliards de paramètres, entraîné sur 4 billions de tokens dans 35 langues
    • Le modèle Base est destiné au fine-tuning par les utilisateurs, tandis que le modèle Instruct dispose de capacités conversationnelles de suivi d’instructions
  • Principales fonctionnalités :
    • Optimisé pour les performances en traitement automatique multilingue du langage naturel sur des tâches comme les questions-réponses, le résumé et la traduction
    • Extension multimodale prévue — ajout futur de capacités de compréhension des images et de la voix
    • Grâce à une distribution open source, les chercheurs, les institutions et le grand public pourront l’utiliser librement

Institutions participantes et réseau de collaboration

  • Institutions participantes :
    • Unbabel, Instituto Superior Técnico, University of Edinburgh, Université Paris-Saclay, Aveni.ai, Sorbonne University, Naver Labs Europe, University of Amsterdam
  • Principales figures de la recherche :
    • André Martins (Unbabel, professeur à l’Institut supérieur technique de Lisbonne) — spécialiste du machine learning et du traitement automatique du langage naturel
    • Alexandra Birch (Aveni.ai, professeure à Édimbourg) — figure de proue de la recherche sur la traduction multilingue et l’IA éthique
    • Pierre Colombo (Université Paris-Saclay) — travaille sur la sécurité de l’IA et les applications juridiques de l’IA

Mission et vision

  • L’objectif d’EuroLLM est d’assurer la souveraineté de l’IA en Europe et de favoriser l’avancement des technologies multilingues
    • Créer un cercle vertueux de l’innovation (flywheel for innovation) grâce à un LLM développé de manière autonome en Europe
    • Aider les chercheurs et les entreprises à étendre de nouveaux services et travaux de recherche à partir de modèles d’IA européens
  • Le projet vise à permettre à l’Europe de renforcer un leadership technologique fondé sur la diversité linguistique et de construire un modèle d’innovation autonome dans l’écosystème mondial de l’IA

1 commentaires

 
GN⁺ 2025-10-29
Avis sur Hacker News
  • L’Union européenne compte au total 24 langues officielles : le bulgare, le croate, le tchèque, le danois, le néerlandais, l’anglais, l’estonien, le finnois, le français, l’allemand, le grec, le hongrois, l’irlandais, l’italien, le letton, le lituanien, le maltais, le polonais, le portugais, le roumain, le slovaque, le slovène, l’espagnol et le suédois
    Le maltais est la seule langue afro-asiatique, et le hongrois, le finnois et l’estonien appartiennent à la famille ouralienne. Toutes les autres relèvent de la famille indo-européenne ; le grec appartient au groupe hellénique et l’irlandais aux langues celtiques

    • Plus précisément, le maltais est une langue sémitique. Voir Wikipédia
    • Aux élections générales néerlandaises de demain, deux partis proposent d’ajouter le frison à la liste des langues officielles. Article associé
      Il faudra peut-être réentraîner le modèle
    • Je peux lire, écrire et parler maltais. Si vous avez des questions sur la langue, n’hésitez pas
    • Le lituanien et le letton sont des langues baltes. Ils ne sont pas liés aux langues slaves
    • D’après l’article, le modèle ne se limite pas à ces 24 langues. Il inclut aussi l’arabe, le catalan, le chinois, l’hindi, le japonais, le coréen, le norvégien, le russe, le turc, l’ukrainien, etc. PDF de l’article
      Le fait d’avoir traité en détail l’origine des données d’entraînement semble être la principale contribution de cette recherche
  • On dirait que les décideurs européens ne savent absolument pas comment développer les industries à forte intensité technologique. Le système de subventions consistant à « choisir les gagnants » est voué à l’échec. Le débat sur l’accès aux supercalculateurs européens est aussi intéressant. Tweet associé

    • Les procédures de subvention de l’UE ne sont pas très passionnantes, mais Levels semble avoir un peu trop confiance en lui. Il sait bien monétiser son statut d’influenceur, mais faire tourner un jeu de navigateur financé par la publicité sur un supercalculateur public ne me paraît pas approprié
    • Le vrai enjeu, c’est que l’Europe crée un environnement favorable aux startups IA. Il faut d’abord assouplir la réglementation et offrir des avantages fiscaux.
      Mais en réalité, la plus grande contrainte pour les entreprises européennes n’est pas la réglementation, c’est l’accès au capital.
      La Chine a au contraire des règles encore plus strictes, et pourtant son industrie logicielle a prospéré. La Corée a elle aussi bénéficié du protectionnisme.
      Ce que l’Europe doit apprendre, c’est davantage de protectionnisme technologique. Pieter Levels reste avant tout un influenceur, pas un entrepreneur sérieux
    • Je me demande quels résultats produit réellement cette stratégie de « choix des gagnants »
    • Je me demande si l’objectif de ces politiques est vraiment de « choisir les gagnants », ou plutôt de renforcer les capacités des fondateurs et de stimuler l’économie.
      Les États-Unis comptent beaucoup de fondateurs issus des FAANG, alors que cet écosystème manque en Europe.
      Même si les projets de supercalculateurs échouent, les retombées économiques indirectes peuvent aussi être l’objectif
    • Les gens sont trop indulgents avec lui. Beaucoup ne savent même pas qui est « levelsio », alors pourquoi tout le monde fait comme si c’était une évidence ?
  • Il manque « (2024) » dans le titre. Le modèle 9B a été publié en décembre dernier. Page officielle

  • L’équipe d’EuroLLM réunit de grandes institutions européennes comme Unbabel, l’Instituto Tecnico Lisbon, l’University of Edinburgh et Naver Labs.
    L’Europe exploite déjà un réseau public de supercalculateurs via EuroHPC JU, et ils disent avoir commencé à développer le modèle dès qu’ils ont obtenu l’accès. Histoire officielle
    En quelque sorte, il s’agit de réutiliser des ressources de calcul destinées à la simulation physique

  • La plupart des modèles de frontière ne sont-ils pas déjà multilingues ? Je ne pense pas qu’il soit nécessaire d’ajouter un support langue par langue

    • Mais le point essentiel ici, c’est que ce modèle a été entraîné sur des données certifiées par l’UE
    • Il ne suffit pas qu’il y ait des exemples dans chaque langue ; la proportion de données par langue compte aussi. Comme les données en anglais sont écrasantes, les performances dans les autres langues baissent
    • La méthode d’entraînement est différente. Pour le japonais, par exemple, les problèmes de tokenisation dégradent souvent les performances
    • Dans les langues autres que l’anglais, le style donne souvent l’impression d’une traduction peu naturelle. Les utilisateurs francophones signalent fréquemment des phrases maladroites
    • Les gouvernements européens disposent d’une immense quantité de documents numériques et de données culturelles. Ces différences culturelles peuvent aussi influencer les valeurs du modèle
  • C’est dommage que le corpus réellement utilisé n’ait pas été publié. Pour une langue minoritaire comme l’irlandais, il sera probablement surtout fondé sur des documents juridiques, avec très peu de données orales.
    Ce serait intéressant d’évaluer chaque langue selon des critères de locuteurs natifs.
    Les LLM pourraient avoir un effet positif sur ces langues menacées de disparition, mais il existe aussi des risques en amont (par exemple, le cas de Wikipédia en gaélique écossais).
    Cela reste malgré tout une bonne tentative dans l’ensemble

  • EuroLLM-9B est un modèle publié en décembre 2024 et obtient 17,6 % sur MMLU-Pro, soit à peine mieux que le hasard.
    Pour un tableau comparatif avec d’autres modèles européens, voir ici

  • Je me demande pourquoi seuls les États-Unis et la Chine sortent d’excellents modèles. En dehors du français Mistral, il n’y a presque pas de modèles européens. La situation est similaire en Inde, au Japon et en Corée

    • Ce n’est pas étonnant. L’Europe est constamment à la traîne en compétitivité technologique.
      Sa population représente 1,3 fois celle des États-Unis, son PIB 75 % de celui des États-Unis, mais la taille de son industrie technologique n’en est qu’une petite fraction.
      Les 7 grandes big tech américaines sont 20 fois plus grandes que les 7 plus grandes entreprises européennes, et réalisent 10 fois plus de chiffre d’affaires. Lien de référence
    • L’Europe souffre d’un accès limité au capital et d’un marché fragmenté.
      Elle dépend donc de financements académiques comme Horizon, mais ce type de collaboration débouche difficilement sur des produits
    • L’entraînement de modèles de frontière exige une structure de capital massive. Seuls les États-Unis et la Chine peuvent lever des milliards de dollars
    • L’UE a rédigé une loi sur l’IA de 900 pages et s’en est félicitée, pendant que la Chine avait déjà mis en place une loi de deux pages
    • En réalité, la valeur commerciale de ces modèles reste à démontrer. La plupart fonctionnent encore grâce à des contrats publics ou à des financements d’investisseurs
  • Pour télécharger le modèle EuroLLM-9B sur Hugging Face, il faut accepter de fournir ses coordonnées. Je me demande si ce type d’exigence est courant

    • J’ai déjà vu cela sur quelques modèles. Par exemple, Llama 3.1-8B-Instruct a une procédure similaire
    • Oui, c’est une procédure assez courante
  • Il est intéressant de voir le modèle 9B attirer l’attention. Pourtant, le modèle TildeOpen-30B, publié il y a deux mois et prenant en charge 19 langues européennes, n’a presque pas été mentionné. Page du modèle
    Ses performances de base sont faibles, mais c’est un modèle ouvert avec un fort potentiel de fine-tuning