1 points par GN⁺ 4 시간 전 | 1 commentaires | Partager sur WhatsApp
  • L’écosystème suisse de l’IA a dévoilé son propre modèle de fondation, Apertus, avec l’objectif d’une IA souveraine, en mettant en avant une base de collaboration entre l’EPFL, l’ETH Zurich et le CSCS
  • Son principal facteur différenciant est l’ouverture des poids, des données et de la science, avec une documentation des données d’entraînement, du code, des poids, de la méthodologie et des principes d’alignement afin de souligner la reproductibilité
  • Sur les plans réglementaire et de la confiance, le projet prend en compte les exigences de l’EU AI Act, en incluant des conditions comme le respect de l’opt-out, la suppression des PII et la prévention de la mémorisation
  • En matière de performances, le projet affirme pouvoir rivaliser avec les meilleurs modèles open de même catégorie aux échelles de 8B et 70B paramètres, et avoir été entraîné dès le départ sur plus de 10 langues
  • Swisscom participe comme partenaire stratégique, et les prochaines annonces sur les releases, la recherche et la communauté seront diffusées via une newsletter

Acteurs du développement et périmètre de publication

  • Apertus est un modèle de fondation développé par la Swiss AI Initiative
  • Le périmètre de publication comprend les données d’entraînement, le code, les poids, la méthodologie et les principes d’alignement
  • Les éléments publiés sont documentés et visent une forme reproductible
  • Apertus met en avant sa nature de modèle public avec la formule : « In AI, Open is Source »

Réponse réglementaire et caractéristiques du modèle

  • Le modèle est conçu pour répondre aux exigences de l’EU AI Act
    • respect de l’opt-out
    • suppression des PII
    • prévention de la mémorisation
  • Il revendique des performances compétitives face aux meilleurs modèles open de taille comparable en 8B et 70B paramètres
  • Le support multilingue est intégré dès l’origine, avec un entraînement sur plus de 10 langues

Partenariat et actualités de la communauté

  • Swisscom est un partenaire stratégique de la Swiss AI Initiative
  • La newsletter partagera les releases d’Apertus, les recherches de l’équipe et les actualités de la communauté

1 commentaires

 
GN⁺ 4 시간 전
Avis Hacker News
  • Parmi les LLM totalement ouverts, il y a aussi OLMo 3.1 d’Allen AI et K2 Think V2 de MBZUAI, qui ont tous deux publié l’intégralité du pipeline d’entraînement et des jeux de données
    Nvidia Nemotron est également un modèle entraîné à partir de sources ouvertes, mais une partie du jeu de données reste propriétaire
    Pour citer un commentaire de lambda, les modèles Nemotron sont globalement plus performants qu’Olmo et K2 Think V2 (selon les benchmarks d’Artificial Analysis), et les jeux de données se recoupent largement. Plusieurs jeux de données proviennent des mêmes sources, avec seulement des filtrages différents, et Olmo comme K2 Think V2 ont aussi utilisé certains jeux de données de Nemotron
    Nemotron est un LLM moderne et assez compétent, et le modèle 122b est même plus performant que Deepseek R1 (modèle 671b) sur la plupart des benchmarks ; récemment, une version 550b Ultra est aussi sortie
    https://news.ycombinator.com/item?id=48492439

    • Allen AI ne reçoit pas assez d’attention. À mon avis, l’IA générative aurait dû être construite ainsi dès le départ
      Si les entreprises de pointe avaient choisi cette approche, le démarrage aurait été bien plus lent, mais en 2035 on serait probablement bien plus avancés qu’aujourd’hui. Au lieu de cela, on en est à un point où une grande partie de la société espère l’échec de l’IA
    • Je me dis que je devrais peut-être redonner sa chance à Nemotron. J’ai testé le dernier modèle sur OpenRouter hier, et je l’ai trouvé médiocre, même pire que StepFun
  • J’aime bien l’idée, et la nécessité pour tous ceux qui sont hors des États-Unis de réfléchir à la souveraineté technologique n’a fait que croître. Les États-Unis ne sont plus un endroit sûr pour stocker des données
    Cela dit, Apertus donne l’impression d’avancer au rythme d’un comité, donc je ne m’attends pas à ce qu’ils sortent un modèle compétitif. Au minimum, il semble difficile qu’ils rivalisent avec les modèles actuels ; peut-être avec ceux d’il y a un an, mais j’ai l’impression qu’ils n’y sont même pas encore

    • Je suis d’accord avec l’idée que « les États-Unis ne sont plus un endroit sûr pour stocker des données », mais je me demande pourquoi d’autres pays feraient de meilleurs refuges pour les données
      Personnellement, j’apprécie l’approche de l’UE en matière de protection des données, mais je me demande si tu pensais à d’autres régions ou à d’autres garde-fous capables de réellement protéger les données de manière « sûre »
  • Je ne pense pas que l’analogie avec Linux s’applique ici non plus. C’est plus grand que ça, et c’est une menace directe pour les laboratoires commerciaux d’IA et leur modèle économique
    Cela fait des années que ces labos recyclent plusieurs papiers fondamentaux, et on approche de la fin
    À l’avenir, les modèles open source, aux données ouvertes et aux recettes ouvertes pourraient devenir centraux, et un jour, non seulement l’inférence mais aussi l’entraînement pourraient être crowdsourcés à la manière de BitTorrent
    Enfin, les modèles chinois (GLM, Deepseek, MiMax) fonctionnent vraiment bien, et les utilisateurs qui les emploient diraient qu’OpenAI/Anthropic/Gemini ne leur manquent pas du tout. Dans ce cas, l’existence de tels modèles ouverts constitue un argument suffisant pour qu’on ne regrette pas non plus les modèles chinois

  • Pour un modèle qui prétend se concentrer sur de nombreuses langues, il est assez instable sur des questions simples du genre « comment dit-on X en langue Y ? » ou « comment conjugue-t-on le verbe X en langue Y ? »
    Il hallucine sans cesse des mots qui n’existent pas, et même quand on le corrige, il invente de nouveaux mensonges

    • Il est probable qu’il ne sache même pas à quelle langue renvoie chaque groupe de mots
      Je doute qu’ils aient injecté beaucoup de données d’entraînement étiquetées par langue
      « Comment dit-on X en langue Y ? » est une tâche différente du simple fait de dire X en langue Y
  • Leur modèle instruction ressemble à un fine-tuning de Llama3.1 de l’an dernier. Je me demande s’il y a de réels progrès sur le nouveau modèle
    Mon dernier espoir pour l’IA souveraine se trouve du côté des modèles ouverts chinois

    • L’IA souveraine n’est pas une question d’utiliser un seul modèle. Il s’agit d’utiliser le modèle adapté à la tâche, et de faire discuter plusieurs modèles d’une solution avant de produire une réponse
      Si vous voulez mélanger les modèles de cette manière, regardez https://github.com/deepbluedynamics/nemesis8
  • De loin, le produit le plus influent du projet Apretus, ce sont les personnes. Pour reprendre une formule mémorable de Dominique Paul(https://www.thisiscrispin.com/), ce que la plupart des gens ratent, c’est que cette équipe n’est pas, comme presque tous les autres fournisseurs de LLM, la quatrième équipe à refaire la même chose, ni une équipe capable d’apprendre de sa propre expérience passée
    Si cette équipe entraîne un modèle une fois de plus, je pense qu’elle pourra réduire les coûts d’un facteur quatre tout en obtenant de bien meilleurs résultats

  • La licence est assez intéressante, même si je ne sais pas qui adoptera cette approche sur le long terme
    Les données d’entraînement et l’LLM Apertus peuvent contenir ou générer des informations renvoyant directement ou indirectement à des personnes identifiables (données personnelles). L’utilisateur traite ces données personnelles en tant que responsable de traitement indépendant, conformément au droit applicable en matière de protection des données
    En tant que développeur d’Apertus LLM, SNAI mettra régulièrement à disposition en téléchargement un fichier de hachages reflétant les demandes d’effacement reçues au titre de la protection des données, que l’utilisateur pourra appliquer comme filtre de sortie
    Cela permettra de supprimer les données personnelles présentes dans les sorties du modèle, et il est fortement recommandé de télécharger et d’appliquer ce filtre de sortie depuis SNAI tous les 6 mois après la publication du modèle

  • La version précédente de ce modèle était assez mauvaise, mais prétendait respecter le droit d’auteur. Or, après l’avoir testée moi-même, j’ai constaté que ce n’était pas vrai non plus, et je la considère donc comme totalement inutile

    • Tant que la condition suivante est vraie, cette publication apporte davantage à la science dans son ensemble que la plupart des modèles entraînés « derrière des portes closes »
      Modèle totalement ouvert : poids ouverts + données ouvertes + détails complets de l’entraînement, y compris toutes les données et la recette d’entraînement
    • Ils utilisent fineweb, qui est dérivé de Common Crawl, et Common Crawl a aspiré des pages web sans autorisation
    • Je me demande comment tu l’as testé. Tu peux expliquer ? Est-ce que tu disposais d’un ensemble de fragments factuels qui devraient être protégés par le droit d’auteur, puis tu as vérifié si le modèle produisait somehow l’œuvre complète mot pour mot ?
  • Je me demande comment la communauté considère l’IA souveraine financée par des États du monde entier
    Pourquoi insister sur « souveraine » ? Le caractère ouvert ne suffit-il pas ?