Apertus, un modèle de fondation open pour l’IA souveraine

(apertvs.ai)

1 points par GN⁺ 4 시간 전 | 1 commentaires | Partager sur WhatsApp

L’écosystème suisse de l’IA a dévoilé son propre modèle de fondation, Apertus, avec l’objectif d’une IA souveraine, en mettant en avant une base de collaboration entre l’EPFL, l’ETH Zurich et le CSCS
Son principal facteur différenciant est l’ouverture des poids, des données et de la science, avec une documentation des données d’entraînement, du code, des poids, de la méthodologie et des principes d’alignement afin de souligner la reproductibilité
Sur les plans réglementaire et de la confiance, le projet prend en compte les exigences de l’EU AI Act, en incluant des conditions comme le respect de l’opt-out, la suppression des PII et la prévention de la mémorisation
En matière de performances, le projet affirme pouvoir rivaliser avec les meilleurs modèles open de même catégorie aux échelles de 8B et 70B paramètres, et avoir été entraîné dès le départ sur plus de 10 langues
Swisscom participe comme partenaire stratégique, et les prochaines annonces sur les releases, la recherche et la communauté seront diffusées via une newsletter

Acteurs du développement et périmètre de publication

Apertus est un modèle de fondation développé par la Swiss AI Initiative
- Swiss AI Initiative est menée en collaboration entre l’EPFL, l’ETH Zurich et le CSCS
Le périmètre de publication comprend les données d’entraînement, le code, les poids, la méthodologie et les principes d’alignement
Les éléments publiés sont documentés et visent une forme reproductible
Apertus met en avant sa nature de modèle public avec la formule : « In AI, Open is Source »

Réponse réglementaire et caractéristiques du modèle

Le modèle est conçu pour répondre aux exigences de l’EU AI Act
- respect de l’opt-out
- suppression des PII
- prévention de la mémorisation
Il revendique des performances compétitives face aux meilleurs modèles open de taille comparable en 8B et 70B paramètres
Le support multilingue est intégré dès l’origine, avec un entraînement sur plus de 10 langues

Partenariat et actualités de la communauté

Swisscom est un partenaire stratégique de la Swiss AI Initiative
La newsletter partagera les releases d’Apertus, les recherches de l’équipe et les actualités de la communauté

1 commentaires

GN⁺ 4 시간 전

Avis Hacker News

Parmi les LLM totalement ouverts, il y a aussi OLMo 3.1 d’Allen AI et K2 Think V2 de MBZUAI, qui ont tous deux publié l’intégralité du pipeline d’entraînement et des jeux de données
Nvidia Nemotron est également un modèle entraîné à partir de sources ouvertes, mais une partie du jeu de données reste propriétaire
Pour citer un commentaire de lambda, les modèles Nemotron sont globalement plus performants qu’Olmo et K2 Think V2 (selon les benchmarks d’Artificial Analysis), et les jeux de données se recoupent largement. Plusieurs jeux de données proviennent des mêmes sources, avec seulement des filtrages différents, et Olmo comme K2 Think V2 ont aussi utilisé certains jeux de données de Nemotron
Nemotron est un LLM moderne et assez compétent, et le modèle 122b est même plus performant que Deepseek R1 (modèle 671b) sur la plupart des benchmarks ; récemment, une version 550b Ultra est aussi sortie
https://news.ycombinator.com/item?id=48492439
- Allen AI ne reçoit pas assez d’attention. À mon avis, l’IA générative aurait dû être construite ainsi dès le départ
  Si les entreprises de pointe avaient choisi cette approche, le démarrage aurait été bien plus lent, mais en 2035 on serait probablement bien plus avancés qu’aujourd’hui. Au lieu de cela, on en est à un point où une grande partie de la société espère l’échec de l’IA
- Je me dis que je devrais peut-être redonner sa chance à Nemotron. J’ai testé le dernier modèle sur OpenRouter hier, et je l’ai trouvé médiocre, même pire que StepFun
J’aime bien l’idée, et la nécessité pour tous ceux qui sont hors des États-Unis de réfléchir à la souveraineté technologique n’a fait que croître. Les États-Unis ne sont plus un endroit sûr pour stocker des données
Cela dit, Apertus donne l’impression d’avancer au rythme d’un comité, donc je ne m’attends pas à ce qu’ils sortent un modèle compétitif. Au minimum, il semble difficile qu’ils rivalisent avec les modèles actuels ; peut-être avec ceux d’il y a un an, mais j’ai l’impression qu’ils n’y sont même pas encore
- Je suis d’accord avec l’idée que « les États-Unis ne sont plus un endroit sûr pour stocker des données », mais je me demande pourquoi d’autres pays feraient de meilleurs refuges pour les données
  Personnellement, j’apprécie l’approche de l’UE en matière de protection des données, mais je me demande si tu pensais à d’autres régions ou à d’autres garde-fous capables de réellement protéger les données de manière « sûre »
Je ne pense pas que l’analogie avec Linux s’applique ici non plus. C’est plus grand que ça, et c’est une menace directe pour les laboratoires commerciaux d’IA et leur modèle économique
Cela fait des années que ces labos recyclent plusieurs papiers fondamentaux, et on approche de la fin
À l’avenir, les modèles open source, aux données ouvertes et aux recettes ouvertes pourraient devenir centraux, et un jour, non seulement l’inférence mais aussi l’entraînement pourraient être crowdsourcés à la manière de BitTorrent
Enfin, les modèles chinois (GLM, Deepseek, MiMax) fonctionnent vraiment bien, et les utilisateurs qui les emploient diraient qu’OpenAI/Anthropic/Gemini ne leur manquent pas du tout. Dans ce cas, l’existence de tels modèles ouverts constitue un argument suffisant pour qu’on ne regrette pas non plus les modèles chinois
Pour un modèle qui prétend se concentrer sur de nombreuses langues, il est assez instable sur des questions simples du genre « comment dit-on X en langue Y ? » ou « comment conjugue-t-on le verbe X en langue Y ? »
Il hallucine sans cesse des mots qui n’existent pas, et même quand on le corrige, il invente de nouveaux mensonges
- Il est probable qu’il ne sache même pas à quelle langue renvoie chaque groupe de mots
  Je doute qu’ils aient injecté beaucoup de données d’entraînement étiquetées par langue
  « Comment dit-on X en langue Y ? » est une tâche différente du simple fait de dire X en langue Y
Leur modèle instruction ressemble à un fine-tuning de Llama3.1 de l’an dernier. Je me demande s’il y a de réels progrès sur le nouveau modèle
Mon dernier espoir pour l’IA souveraine se trouve du côté des modèles ouverts chinois
- L’IA souveraine n’est pas une question d’utiliser un seul modèle. Il s’agit d’utiliser le modèle adapté à la tâche, et de faire discuter plusieurs modèles d’une solution avant de produire une réponse
  Si vous voulez mélanger les modèles de cette manière, regardez https://github.com/deepbluedynamics/nemesis8
De loin, le produit le plus influent du projet Apretus, ce sont les personnes. Pour reprendre une formule mémorable de Dominique Paul(https://www.thisiscrispin.com/), ce que la plupart des gens ratent, c’est que cette équipe n’est pas, comme presque tous les autres fournisseurs de LLM, la quatrième équipe à refaire la même chose, ni une équipe capable d’apprendre de sa propre expérience passée
Si cette équipe entraîne un modèle une fois de plus, je pense qu’elle pourra réduire les coûts d’un facteur quatre tout en obtenant de bien meilleurs résultats
La licence est assez intéressante, même si je ne sais pas qui adoptera cette approche sur le long terme
Les données d’entraînement et l’LLM Apertus peuvent contenir ou générer des informations renvoyant directement ou indirectement à des personnes identifiables (données personnelles). L’utilisateur traite ces données personnelles en tant que responsable de traitement indépendant, conformément au droit applicable en matière de protection des données
En tant que développeur d’Apertus LLM, SNAI mettra régulièrement à disposition en téléchargement un fichier de hachages reflétant les demandes d’effacement reçues au titre de la protection des données, que l’utilisateur pourra appliquer comme filtre de sortie
Cela permettra de supprimer les données personnelles présentes dans les sorties du modèle, et il est fortement recommandé de télécharger et d’appliquer ce filtre de sortie depuis SNAI tous les 6 mois après la publication du modèle
La version précédente de ce modèle était assez mauvaise, mais prétendait respecter le droit d’auteur. Or, après l’avoir testée moi-même, j’ai constaté que ce n’était pas vrai non plus, et je la considère donc comme totalement inutile
- Tant que la condition suivante est vraie, cette publication apporte davantage à la science dans son ensemble que la plupart des modèles entraînés « derrière des portes closes »
  Modèle totalement ouvert : poids ouverts + données ouvertes + détails complets de l’entraînement, y compris toutes les données et la recette d’entraînement
- Ils utilisent fineweb, qui est dérivé de Common Crawl, et Common Crawl a aspiré des pages web sans autorisation
- Je me demande comment tu l’as testé. Tu peux expliquer ? Est-ce que tu disposais d’un ensemble de fragments factuels qui devraient être protégés par le droit d’auteur, puis tu as vérifié si le modèle produisait somehow l’œuvre complète mot pour mot ?
Je me demande comment la communauté considère l’IA souveraine financée par des États du monde entier
Pourquoi insister sur « souveraine » ? Le caractère ouvert ne suffit-il pas ?

Apertus, un modèle de fondation open pour l’IA souveraine

Acteurs du développement et périmètre de publication

Réponse réglementaire et caractéristiques du modèle

Partenariat et actualités de la communauté

À lire aussi

1 commentaires

Avis Hacker News