- L’écosystème suisse de l’IA a dévoilé son propre modèle de fondation, Apertus, avec l’objectif d’une IA souveraine, en mettant en avant une base de collaboration entre l’EPFL, l’ETH Zurich et le CSCS
- Son principal facteur différenciant est l’ouverture des poids, des données et de la science, avec une documentation des données d’entraînement, du code, des poids, de la méthodologie et des principes d’alignement afin de souligner la reproductibilité
- Sur les plans réglementaire et de la confiance, le projet prend en compte les exigences de l’EU AI Act, en incluant des conditions comme le respect de l’opt-out, la suppression des PII et la prévention de la mémorisation
- En matière de performances, le projet affirme pouvoir rivaliser avec les meilleurs modèles open de même catégorie aux échelles de 8B et 70B paramètres, et avoir été entraîné dès le départ sur plus de 10 langues
- Swisscom participe comme partenaire stratégique, et les prochaines annonces sur les releases, la recherche et la communauté seront diffusées via une newsletter
Acteurs du développement et périmètre de publication
- Apertus est un modèle de fondation développé par la Swiss AI Initiative
- Swiss AI Initiative est menée en collaboration entre l’EPFL, l’ETH Zurich et le CSCS
- Le périmètre de publication comprend les données d’entraînement, le code, les poids, la méthodologie et les principes d’alignement
- Les éléments publiés sont documentés et visent une forme reproductible
- Apertus met en avant sa nature de modèle public avec la formule : « In AI, Open is Source »
Réponse réglementaire et caractéristiques du modèle
- Le modèle est conçu pour répondre aux exigences de l’EU AI Act
- respect de l’opt-out
- suppression des PII
- prévention de la mémorisation
- Il revendique des performances compétitives face aux meilleurs modèles open de taille comparable en 8B et 70B paramètres
- Le support multilingue est intégré dès l’origine, avec un entraînement sur plus de 10 langues
Partenariat et actualités de la communauté
- Swisscom est un partenaire stratégique de la Swiss AI Initiative
- La newsletter partagera les releases d’Apertus, les recherches de l’équipe et les actualités de la communauté
1 commentaires
Avis Hacker News
Parmi les LLM totalement ouverts, il y a aussi OLMo 3.1 d’Allen AI et K2 Think V2 de MBZUAI, qui ont tous deux publié l’intégralité du pipeline d’entraînement et des jeux de données
Nvidia Nemotron est également un modèle entraîné à partir de sources ouvertes, mais une partie du jeu de données reste propriétaire
Pour citer un commentaire de lambda, les modèles Nemotron sont globalement plus performants qu’Olmo et K2 Think V2 (selon les benchmarks d’Artificial Analysis), et les jeux de données se recoupent largement. Plusieurs jeux de données proviennent des mêmes sources, avec seulement des filtrages différents, et Olmo comme K2 Think V2 ont aussi utilisé certains jeux de données de Nemotron
Nemotron est un LLM moderne et assez compétent, et le modèle 122b est même plus performant que Deepseek R1 (modèle 671b) sur la plupart des benchmarks ; récemment, une version 550b Ultra est aussi sortie
https://news.ycombinator.com/item?id=48492439
Si les entreprises de pointe avaient choisi cette approche, le démarrage aurait été bien plus lent, mais en 2035 on serait probablement bien plus avancés qu’aujourd’hui. Au lieu de cela, on en est à un point où une grande partie de la société espère l’échec de l’IA
J’aime bien l’idée, et la nécessité pour tous ceux qui sont hors des États-Unis de réfléchir à la souveraineté technologique n’a fait que croître. Les États-Unis ne sont plus un endroit sûr pour stocker des données
Cela dit, Apertus donne l’impression d’avancer au rythme d’un comité, donc je ne m’attends pas à ce qu’ils sortent un modèle compétitif. Au minimum, il semble difficile qu’ils rivalisent avec les modèles actuels ; peut-être avec ceux d’il y a un an, mais j’ai l’impression qu’ils n’y sont même pas encore
Personnellement, j’apprécie l’approche de l’UE en matière de protection des données, mais je me demande si tu pensais à d’autres régions ou à d’autres garde-fous capables de réellement protéger les données de manière « sûre »
Je ne pense pas que l’analogie avec Linux s’applique ici non plus. C’est plus grand que ça, et c’est une menace directe pour les laboratoires commerciaux d’IA et leur modèle économique
Cela fait des années que ces labos recyclent plusieurs papiers fondamentaux, et on approche de la fin
À l’avenir, les modèles open source, aux données ouvertes et aux recettes ouvertes pourraient devenir centraux, et un jour, non seulement l’inférence mais aussi l’entraînement pourraient être crowdsourcés à la manière de BitTorrent
Enfin, les modèles chinois (GLM, Deepseek, MiMax) fonctionnent vraiment bien, et les utilisateurs qui les emploient diraient qu’OpenAI/Anthropic/Gemini ne leur manquent pas du tout. Dans ce cas, l’existence de tels modèles ouverts constitue un argument suffisant pour qu’on ne regrette pas non plus les modèles chinois
Pour un modèle qui prétend se concentrer sur de nombreuses langues, il est assez instable sur des questions simples du genre « comment dit-on X en langue Y ? » ou « comment conjugue-t-on le verbe X en langue Y ? »
Il hallucine sans cesse des mots qui n’existent pas, et même quand on le corrige, il invente de nouveaux mensonges
Je doute qu’ils aient injecté beaucoup de données d’entraînement étiquetées par langue
« Comment dit-on X en langue Y ? » est une tâche différente du simple fait de dire X en langue Y
Leur modèle instruction ressemble à un fine-tuning de Llama3.1 de l’an dernier. Je me demande s’il y a de réels progrès sur le nouveau modèle
Mon dernier espoir pour l’IA souveraine se trouve du côté des modèles ouverts chinois
Si vous voulez mélanger les modèles de cette manière, regardez https://github.com/deepbluedynamics/nemesis8
De loin, le produit le plus influent du projet Apretus, ce sont les personnes. Pour reprendre une formule mémorable de Dominique Paul(https://www.thisiscrispin.com/), ce que la plupart des gens ratent, c’est que cette équipe n’est pas, comme presque tous les autres fournisseurs de LLM, la quatrième équipe à refaire la même chose, ni une équipe capable d’apprendre de sa propre expérience passée
Si cette équipe entraîne un modèle une fois de plus, je pense qu’elle pourra réduire les coûts d’un facteur quatre tout en obtenant de bien meilleurs résultats
La licence est assez intéressante, même si je ne sais pas qui adoptera cette approche sur le long terme
Les données d’entraînement et l’LLM Apertus peuvent contenir ou générer des informations renvoyant directement ou indirectement à des personnes identifiables (données personnelles). L’utilisateur traite ces données personnelles en tant que responsable de traitement indépendant, conformément au droit applicable en matière de protection des données
En tant que développeur d’Apertus LLM, SNAI mettra régulièrement à disposition en téléchargement un fichier de hachages reflétant les demandes d’effacement reçues au titre de la protection des données, que l’utilisateur pourra appliquer comme filtre de sortie
Cela permettra de supprimer les données personnelles présentes dans les sorties du modèle, et il est fortement recommandé de télécharger et d’appliquer ce filtre de sortie depuis SNAI tous les 6 mois après la publication du modèle
La version précédente de ce modèle était assez mauvaise, mais prétendait respecter le droit d’auteur. Or, après l’avoir testée moi-même, j’ai constaté que ce n’était pas vrai non plus, et je la considère donc comme totalement inutile
Modèle totalement ouvert : poids ouverts + données ouvertes + détails complets de l’entraînement, y compris toutes les données et la recette d’entraînement
Je me demande comment la communauté considère l’IA souveraine financée par des États du monde entier
Pourquoi insister sur « souveraine » ? Le caractère ouvert ne suffit-il pas ?