- EuroLLM est un grand modèle de langage (LLM) prenant en charge les 24 langues officielles de l’UE, développé conjointement par des instituts de recherche européens, avec pour objectif la souveraineté de l’IA en Europe et l’autonomie technologique
- Il s’agit d’un modèle de 9B paramètres, entraîné sur plus de 4 billions de tokens dans 35 langues, montrant de fortes performances sur des tâches linguistiques comme les questions-réponses, le résumé et la traduction
- EuroLLM 9B Base a été publié pour le fine-tuning, tandis que EuroLLM 9B Instruct est une version dotée de capacités conversationnelles de suivi d’instructions, disponible sur Hugging Face
- Le projet réunit de grandes institutions européennes comme Unbabel, University of Edinburgh, Técnico Lisboa, Naver Labs Europe et a été entraîné sur le supercalculateur MareNostrum 5
- Il annonce une extension multimodale (image et voix) ainsi qu’une politique d’ouverture totalement open source, avec l’ambition de devenir une infrastructure clé de l’écosystème européen d’innovation en IA
Présentation d’EuroLLM
- EuroLLM est un grand modèle de langage (LLM local) développé en Europe, qui prend en charge l’ensemble des 24 langues officielles de l’UE
- Il a été conçu comme un modèle d’IA de type infrastructure publique, utilisable par les citoyens, les entreprises et les chercheurs européens sans barrière linguistique
- Il a été développé avec le soutien de Horizon Europe, du Conseil européen de la recherche et d’EuroHPC
- L’entraînement a été réalisé sur le supercalculateur MareNostrum 5
Caractéristiques techniques
- EuroLLM 9B : un modèle de 9 milliards de paramètres, entraîné sur 4 billions de tokens dans 35 langues
- Le modèle Base est destiné au fine-tuning par les utilisateurs, tandis que le modèle Instruct dispose de capacités conversationnelles de suivi d’instructions
- Principales fonctionnalités :
- Optimisé pour les performances en traitement automatique multilingue du langage naturel sur des tâches comme les questions-réponses, le résumé et la traduction
- Extension multimodale prévue — ajout futur de capacités de compréhension des images et de la voix
- Grâce à une distribution open source, les chercheurs, les institutions et le grand public pourront l’utiliser librement
Institutions participantes et réseau de collaboration
- Institutions participantes :
- Unbabel, Instituto Superior Técnico, University of Edinburgh, Université Paris-Saclay, Aveni.ai, Sorbonne University, Naver Labs Europe, University of Amsterdam
- Principales figures de la recherche :
- André Martins (Unbabel, professeur à l’Institut supérieur technique de Lisbonne) — spécialiste du machine learning et du traitement automatique du langage naturel
- Alexandra Birch (Aveni.ai, professeure à Édimbourg) — figure de proue de la recherche sur la traduction multilingue et l’IA éthique
- Pierre Colombo (Université Paris-Saclay) — travaille sur la sécurité de l’IA et les applications juridiques de l’IA
Mission et vision
- L’objectif d’EuroLLM est d’assurer la souveraineté de l’IA en Europe et de favoriser l’avancement des technologies multilingues
- Créer un cercle vertueux de l’innovation (flywheel for innovation) grâce à un LLM développé de manière autonome en Europe
- Aider les chercheurs et les entreprises à étendre de nouveaux services et travaux de recherche à partir de modèles d’IA européens
- Le projet vise à permettre à l’Europe de renforcer un leadership technologique fondé sur la diversité linguistique et de construire un modèle d’innovation autonome dans l’écosystème mondial de l’IA
1 commentaires
Avis sur Hacker News
L’Union européenne compte au total 24 langues officielles : le bulgare, le croate, le tchèque, le danois, le néerlandais, l’anglais, l’estonien, le finnois, le français, l’allemand, le grec, le hongrois, l’irlandais, l’italien, le letton, le lituanien, le maltais, le polonais, le portugais, le roumain, le slovaque, le slovène, l’espagnol et le suédois
Le maltais est la seule langue afro-asiatique, et le hongrois, le finnois et l’estonien appartiennent à la famille ouralienne. Toutes les autres relèvent de la famille indo-européenne ; le grec appartient au groupe hellénique et l’irlandais aux langues celtiques
Il faudra peut-être réentraîner le modèle
Le fait d’avoir traité en détail l’origine des données d’entraînement semble être la principale contribution de cette recherche
On dirait que les décideurs européens ne savent absolument pas comment développer les industries à forte intensité technologique. Le système de subventions consistant à « choisir les gagnants » est voué à l’échec. Le débat sur l’accès aux supercalculateurs européens est aussi intéressant. Tweet associé
Mais en réalité, la plus grande contrainte pour les entreprises européennes n’est pas la réglementation, c’est l’accès au capital.
La Chine a au contraire des règles encore plus strictes, et pourtant son industrie logicielle a prospéré. La Corée a elle aussi bénéficié du protectionnisme.
Ce que l’Europe doit apprendre, c’est davantage de protectionnisme technologique. Pieter Levels reste avant tout un influenceur, pas un entrepreneur sérieux
Les États-Unis comptent beaucoup de fondateurs issus des FAANG, alors que cet écosystème manque en Europe.
Même si les projets de supercalculateurs échouent, les retombées économiques indirectes peuvent aussi être l’objectif
Il manque « (2024) » dans le titre. Le modèle 9B a été publié en décembre dernier. Page officielle
L’équipe d’EuroLLM réunit de grandes institutions européennes comme Unbabel, l’Instituto Tecnico Lisbon, l’University of Edinburgh et Naver Labs.
L’Europe exploite déjà un réseau public de supercalculateurs via EuroHPC JU, et ils disent avoir commencé à développer le modèle dès qu’ils ont obtenu l’accès. Histoire officielle
En quelque sorte, il s’agit de réutiliser des ressources de calcul destinées à la simulation physique
La plupart des modèles de frontière ne sont-ils pas déjà multilingues ? Je ne pense pas qu’il soit nécessaire d’ajouter un support langue par langue
C’est dommage que le corpus réellement utilisé n’ait pas été publié. Pour une langue minoritaire comme l’irlandais, il sera probablement surtout fondé sur des documents juridiques, avec très peu de données orales.
Ce serait intéressant d’évaluer chaque langue selon des critères de locuteurs natifs.
Les LLM pourraient avoir un effet positif sur ces langues menacées de disparition, mais il existe aussi des risques en amont (par exemple, le cas de Wikipédia en gaélique écossais).
Cela reste malgré tout une bonne tentative dans l’ensemble
EuroLLM-9B est un modèle publié en décembre 2024 et obtient 17,6 % sur MMLU-Pro, soit à peine mieux que le hasard.
Pour un tableau comparatif avec d’autres modèles européens, voir ici
Je me demande pourquoi seuls les États-Unis et la Chine sortent d’excellents modèles. En dehors du français Mistral, il n’y a presque pas de modèles européens. La situation est similaire en Inde, au Japon et en Corée
Sa population représente 1,3 fois celle des États-Unis, son PIB 75 % de celui des États-Unis, mais la taille de son industrie technologique n’en est qu’une petite fraction.
Les 7 grandes big tech américaines sont 20 fois plus grandes que les 7 plus grandes entreprises européennes, et réalisent 10 fois plus de chiffre d’affaires. Lien de référence
Elle dépend donc de financements académiques comme Horizon, mais ce type de collaboration débouche difficilement sur des produits
Pour télécharger le modèle EuroLLM-9B sur Hugging Face, il faut accepter de fournir ses coordonnées. Je me demande si ce type d’exigence est courant
Il est intéressant de voir le modèle 9B attirer l’attention. Pourtant, le modèle TildeOpen-30B, publié il y a deux mois et prenant en charge 19 langues européennes, n’a presque pas été mentionné. Page du modèle
Ses performances de base sont faibles, mais c’est un modèle ouvert avec un fort potentiel de fine-tuning