Les 2 pétaoctets de stockage flash Huawei de la Norvège et l’entraînement de LLM
(blocksandfiles.com)- La Bibliothèque nationale de Norvège a intégré 2 PB de stockage flash Huawei OceanStor Dorado dans son pipeline d’entraînement IA afin de construire un LLM souverain capable de comprendre le norvégien
- Alors que les fournisseurs commerciaux de LLM ne créent pas de modèle local en norvégien, les LLM centrés sur l’anglais gèrent difficilement l’histoire, l’actualité et la culture consignées dans une langue régionale
- Depuis 2005, la Bibliothèque nationale numérise livres, journaux, pages web, audio et vidéo, et dispose de 20 PB de données propres, stockées à hauteur d’environ 60 PB selon la méthode 3-2-1
- Le principal goulet d’étranglement n’est pas le calcul, mais la qualité des données, leur nettoyage et le débit du pipeline ; la préparation est effectuée en interne sur des DGX H200, un cluster CPU et du flash Huawei, puis l’entraînement a lieu sur Sigma2 Olivia
- Les archives de conservation et le pipeline IA répondent à des exigences différentes — durabilité et coût d’un côté, faible latence et E/S parallèles de l’autre — ce qui signifie qu’un LLM souverain a aussi besoin de capacités de gestion et de conservation
Le projet de LLM souverain de la Bibliothèque nationale de Norvège
- La Bibliothèque nationale de Norvège (Nasjonalbiblioteket) développe actuellement un grand modèle de langage (LLM) capable de comprendre le norvégien et utilise 2 PB de stockage flash Huawei OceanStor Dorado dans son pipeline de données pour l’entraînement IA
- Lors du Huawei ID Forum 2026 Paris, Marius Husnes, responsable de la plateforme IT de la Bibliothèque nationale, a indiqué que les fournisseurs commerciaux de LLM ne développaient pas de LLM régionaux en norvégien
- Les pays qui ne disposent pas d’un LLM souverain entraîné dans leur propre langue se retrouvent dépendants de LLM entraînés sur des données mondiales et centrés sur l’anglais ; ces modèles ont du mal à appréhender l’histoire, l’actualité et la culture écrites dans des langues locales
- Le ministère norvégien de la Culture a confié à la Bibliothèque nationale la construction d’une IA souveraine, c’est-à-dire d’un LLM, et l’institution possède la plus grande collection numérique de livres, journaux et pages web de Norvège
- La Bibliothèque nationale a le droit de recevoir un exemplaire de tous les livres publiés et des contenus diffusés, et le dépôt légal s’est étendu au-delà des livres pour englober la collecte et la conservation de l’ensemble du patrimoine culturel norvégien
- Grâce à des accords avec les groupes de presse norvégiens, elle peut également utiliser pour l’entraînement du LLM des contenus protégés par le droit d’auteur ; selon Husnes, « les entreprises privées n’ont pas cela »
Volume de données et base de la numérisation
- La Bibliothèque nationale numérise ses collections depuis 2005 et a accumulé 20 PB de données propres
- Ces données sont stockées selon la méthode 3-2-1
- 3 copies
- 2 types de supports
- 1 copie conservée hors site
- En raison de cette structure, le volume total de stockage atteint environ 60 PB
- La numérisation couvre les textes intégraux, l’audio, la vidéo, les images fixes et les contenus web
- Le processus de numérisation a produit de nombreux scans OCR, ainsi que de grands volumes de métadonnées et des API pour l’accès en ligne
- La majorité des données est stockée dans un système de conservation composé de disques numériques et d’archives sur bande
Le problème du transfert des données des archives vers le pipeline IA
- Le principal défi consiste à acheminer les données du système de conservation vers le système d’entraînement du LLM
- Le goulet d’étranglement ne se situe pas dans le calcul, mais dans la qualité des données, leur nettoyage et le débit du pipeline
- Le traitement est divisé entre la préparation des données dans l’environnement de calcul interne de la Bibliothèque nationale et l’exécution effective de l’entraînement sur le supercalculateur national
- L’environnement interne se compose des équipements suivants
- des systèmes Nvidia DGX H200
- un cluster CPU de 384 cœurs
- plusieurs baies 100 % flash Huawei OceanStor Dorado totalisant 2 PB de capacité flash
- Le stockage flash Huawei est utilisé comme stockage à faible latence pour le pipeline de données et la préparation à l’entraînement
- Le pipeline comprend les étapes de collecte des données, de nettoyage, de déduplication, de normalisation des formats, de validation et de préparation
Environnement d’exécution de l’entraînement : Sigma2 Olivia
- Une fois passées par le pipeline, les données sont envoyées vers le système Sigma2 Olivia, le supercalculateur national norvégien, pour l’exécution effective de l’entraînement
- Olivia est un système HPE Cray Supercomputing EX
- Sa configuration est la suivante
- 448 GPU
- 64 512 cœurs CPU
- un système de stockage 5,3 PB Cray ClusterStor E1000
- L’environnement IA on-premise de la Bibliothèque nationale prépare les données, tandis qu’Olivia prend en charge l’exécution de l’entraînement
Des exigences de stockage différentes
- Les archives de conservation et le stockage du pipeline IA n’ont pas les mêmes exigences
- Le système de conservation de 60 PB est optimisé pour la durabilité et le coût, et non pour des E/S rapides
- Ce système a été conçu pour des accès rares, avec par conséquent une latence de lecture élevée
- Le stockage du pipeline IA, lui, est conçu pour un débit élevé, une faible latence et des E/S de données parallèles
- L’équipe a dû trouver elle-même comment déplacer et traiter des jeux de données à l’échelle du PB depuis les archives vers le pipeline de données IA
Des défis encore en cours de résolution
-
Évaluation
- Il n’existe pas d’outil d’évaluation standard pour évaluer un LLM souverain en norvégien
- Le norvégien possède deux formes écrites, ainsi que plusieurs dialectes et évolutions historiques
- L’équipe de la Bibliothèque nationale est en train de construire ses propres outils d’évaluation
-
Gouvernance
- Il faut déterminer qui contrôlera l’accès à ce LLM souverain
- Il reste aussi à définir qui décidera des usages autorisés pour ce LLM souverain
- Il s’agit d’une question institutionnelle et politique, sans réponse simple
-
Orchestration
- Le travail visant à faire fonctionner ensemble de manière fluide les trois systèmes — archives de conservation, environnement IA on-premise et supercalculateur national Sigma2 — se poursuit
Portée et conclusion
- Le stockage Huawei joue un rôle important et concret sur le marché européen
- Pour les pays souhaitant développer un LLM souverain dans une langue locale, il peut être utile d’échanger avec Husnes et de comprendre le travail nécessaire
- La Norvège est présentée comme un petit pays confronté à des problèmes que rencontrent tous les pays non anglophones
- La question centrale est la suivante : comment construire une IA qui reflète sa propre langue, sa culture et son histoire ?
- L’IA a besoin non seulement de bâtisseurs, mais aussi de gestionnaires et de conservateurs
1 commentaires
Commentaires sur Hacker News
En tant que Norvégien, j’utilise la Bibliothèque nationale presque tous les jours pour faire des recherches textuelles
L’interface utilisateur et les fonctionnalités pour explorer cet immense volume de texte sont vraiment de tout premier ordre
Une grande partie n’est accessible que depuis une IP norvégienne, ce qui est l’une des principales raisons pour lesquelles moi, Norvégien vivant au Royaume-Uni, je garde un VPN. Une autre partie n’est accessible que depuis les IP des bibliothèques ou des organismes de recherche, mais il reste malgré tout énormément de documents accessibles au public
Je me demande dans quelle mesure cette affirmation est vraie : « Un pays qui a sa propre langue est désavantagé s’il ne dispose pas d’un LLM souverain entraîné dans cette langue, parce qu’un LLM anglophone entraîné sur des données du monde entier ne connaît pas l’histoire, l’actualité et la culture de ce pays telles qu’elles sont décrites dans la langue locale »
Comme je pensais que les grands acteurs entraînaient déjà leurs modèles sur presque tout ce qui est accessible, quelle que soit la langue ou la qualité, ce point de vue ressemble à une idée formée au tout début de l’ère des LLM généralistes
Je ne vois pas pourquoi il faudrait engager de gros coûts pour entraîner son propre modèle, surtout s’il risque d’être inférieur aux modèles de pointe
À cause de la généalogie, j’y cherche souvent des documents avec une recherche par mots-clés ordinaires, et j’y trouve des choses que ni les moteurs de recherche ni les modèles de langage ne connaissent
Bien sûr, les informations qui m’intéressent finissent en général quelque part où une IA pourrait les aspirer, mais il faudrait vraiment longtemps pour extraire tout ce qu’il y a d’intéressant là-dedans
Tous les modèles à qui j’ai parlé en suédois l’ont géré parfaitement. Il y a de fortes chances que ce soit déjà pareil pour le norvégien
Il serait intéressant de voir s’ils appliquent des expériences comme https://arxiv.org/pdf/2507.22445
L’impact sur les performances peut être quasi nul, voire parfois meilleur. En revanche, des schémas anglophones peuvent subtilement déteindre sur les schémas natifs d’autres langues
Pour les langues à faibles ressources, c’est un problème totalement différent, mais pour améliorer cela, il faut davantage de données plutôt qu’un nouveau modèle
« Le système Olivia est un HPE Cray Supercomputing EX équipé de 448 GPU et de 64 512 cœurs CPU »
Vouloir entraîner un LLM souverain avec un matériel aussi limité, au lieu de simplement appliquer du LoRA sur un modèle open source, ressemble à une grosse erreur et à un signal d’alarme
Ils n’ont manifestement pas les ressources pour entraîner un LLM complet, donc prétendre que c’est l’objectif donne l’impression qu’ils n’ont pas réellement l’intention de rendre ce LLM utile. On en vient alors à se demander pourquoi et avec l’argent de qui on gaspille cela
Autrement dit, internaliser au sein de l’organisation le savoir nécessaire pour construire un LLM
Officiellement, c’est la Bibliothèque nationale qui pilote le projet, mais d’après l’article, elle a probablement été choisie parce qu’elle possède légalement les documents en norvégien et peut les utiliser à cette fin. Des chercheurs d’institutions liées, comme les universités, participeront sans doute aussi au processus
Cela dit, je ne pense pas qu’ils visent quelque chose de vraiment utile. Ces modèles finement ajustés étaient très défaillants et semblaient surtout servir à mettre en place la méthodologie. Je ne suis pas convaincu que ce soit extrêmement utile, mais ce n’est pas à moi de décider ce que chacun fait avec des financements de recherche
L’un des modèles finement ajustés que j’ai testés se moquait souvent des humains qui exprimaient des émotions dans un chat
Un autre modèle finement ajusté, même si j’écrivais simplement « hei », hallucination oblige, partait du principe que j’étais médecin et me disait à chaque fois que mon bébé avait une maladie terrible. Il est fort possible qu’un prompt système banal et neutre soit à l’origine de ce comportement
Olivia me semble suffisamment grand pour l’usage visé. Je pense qu’il vaut mieux suivre la dynamique actuelle sans gaspiller trop d’argent en matériel
Un corpus norvégien ne nécessite peut-être pas un cluster gigantesque, et même si c’était le cas, ce serait sans doute déjà le mieux que puisse faire une bibliothèque. Ce projet sera probablement de loin l’un des plus gros investissements jamais consacrés à un modèle norvégien
Les modèles de très haut niveau n’ont peut-être pas accès à des contenus d’une qualité comparable à ceux de la Bibliothèque nationale. L’article mentionne aussi des licences avec des groupes de presse, sans compter les propres archives de la bibliothèque
L’anglais et le norvégien n’appartenant pas à des branches linguistiques proches, le LoRA n’est peut-être pas la meilleure approche
Je me demande s’il existe des travaux publiés sur la qualité de la localisation par LoRA selon l’éloignement grammatical et lexical entre la langue cible et l’anglais
Ce genre de projet n’a généralement pas un seul objectif : il ne s’agit pas seulement de produire un modèle de pointe, mais aussi de créer et former des talents locaux, un peu comme lorsqu’une université lance un satellite
S’ils construisaient leur propre modèle d’embedding, indexaient l’ensemble de la bibliothèque, puis entraînaient le modèle à consulter ces données pour répondre, du point de vue national, à des questions sur l’histoire, la culture, le droit et la stratégie, cela pourrait être assez intéressant et utile
Ils ne battront pas Anthropic pour générer du code React, mais il n’y a aucune raison de vouloir répliquer cela
Ils ont déjà expérimenté à la fois le fine-tuning et l’entraînement depuis zéro avec plusieurs modèles de moins de 10 milliards de paramètres, et la dernière fois que j’ai vérifié, c’est l’entraînement depuis zéro qui captait le mieux la langue
Je me demande s’il ne vaudrait pas mieux que la Norvège crée à la place, ou en parallèle, des jeux de données d’entraînement et les partage gratuitement avec tous les créateurs de modèles
Cela semble être une méthode meilleure, ou complémentaire, pour atteindre l’objectif ici, à savoir faire en sorte que les modèles de pointe connaissent le norvégien et sa culture
Par exemple, j’ai demandé à Claude d’expliquer le roman de 1911 « De knyttede næver » en orthographe norvégienne de l’époque, vers 1911, et il s’en est bien sorti
Ce qui manque, c’est une compréhension de la littérature, de la culture et de l’histoire norvégiennes. « De knyttede næver » était l’un des romans norvégiens à succès de son époque, mais Claude n’a pu produire quelque chose qu’après l’avoir recherché. ChatGPT s’en est mieux sorti et, surtout en mode réflexion, a donné un résumé détaillé
Ce n’est pas une œuvre largement connue aujourd’hui, mais l’auteur a été pendant des décennies un journaliste de presse renommé, et cette série est suffisamment connue pour qu’un chanteur norvégien ait pris comme nom de scène le nom du protagoniste. En raison des opinions politiques de l’auteur et de leur influence sur le roman, l’œuvre a aussi été discutée pendant des décennies dans les journaux et les livres norvégiens ; cela me semble donc être un test assez raisonnable et révélateur d’un véritable manque de connaissances
Je suis d’accord sur le fait qu’il vaudrait mieux rendre le jeu de données de la Bibliothèque nationale plus accessible. Cela dit, le grand élément supplémentaire ici semble être qu’ils ont conclu un accord permettant d’entraîner sur des œuvres sous droit d’auteur, bloquées dans les archives et soumises à des restrictions d’usage
Malgré tout, publier ne serait-ce que les données du fonds dont les droits ont expiré constituerait déjà un excellent point de départ
Il vaudrait bien mieux conserver un accord juridique avec des institutions publiques et développer quelque chose d’effectivement utile pour son propre pays
Quand Marius Husnes dit que « les fournisseurs commerciaux de LLM ne développent pas de LLM norvégiens locaux et qu’un pays sans LLM souverain entraîné dans sa langue nationale est désavantagé », je ne suis pas très convaincu qu’il sache vraiment de quoi il parle
Si les LLM orientés vers l’anglais sont plus forts en anglais, c’est parce que l’espace de tokens lui est attribué de manière plus compacte. Si vous testez un tokenizer en ligne appelant l’API d’Anthropic avec des mots anglais courants et des mots norvégiens, l’anglais tient généralement dans un token, voire moins, alors que le norvégien tombe souvent sur 2 à 4 tokens, parfois davantage. Des langues comme le thaï sont énormément désavantagées
Le choix du corpus est lui aussi souvent fortement biaisé vers la langue cible, parce qu’il faut plus d’efforts pour rassembler des œuvres dans cette langue
En raison de l’influence réciproque entre embeddings sémantiquement proches d’une langue à l’autre, l’espace vectoriel acquiert aussi une ligne de base culturelle et d’autres biais de sens. Enfin, le fine-tuning a une forte influence sur l’expression culturelle d’un LLM. Ces effets sont loin d’être négligeables
Il existe de nombreux efforts pour créer des modèles de langue pour des langues en voie de disparition et des modèles interculturels, mais pour une langue disposant d’une base de littératie solide, il y a amplement de bonnes raisons de créer un LLM patrimonial spécialisé dans sa propre langue et sa propre culture. S’attendre à ce qu’OpenAI ou Anthropic fassent passer votre langue avant leurs clients cibles au moment de choisir est absurde
Sa langue maternelle, son style et son attitude sont américains
De même qu’on ne peut pas compter sur Netflix et HBO, même s’ils produisent aujourd’hui des séries scandinaves, il faut aussi construire les nôtres dans ce domaine
Avec le temps, la technologie qui le permet deviendra moins chère et plus facile d’accès
Non seulement il préserve mieux les tournures proprement polonaises, mais il rédige aussi mieux les documents administratifs. Pourquoi est-il meilleur ? Parce qu’il a été évalué en arène et que les résultats étaient statistiquement supérieurs
Vous l’affirmez, mais sans justification apparente. Pourquoi le fait de n’avoir que des LLM anglais ne serait-il pas un désavantage ?
Peut-on vraiment obtenir, avec les modèles actuels, les nuances de l’histoire et de la culture norvégiennes ?
Le gallois est lui aussi en train d’être entraîné pour des LLM avec Nemotron
https://www.bangor.ac.uk/news/2025-09-15-reaching-across-the...
Ce n’est peut-être pas l’approche la plus efficace, mais il semble toujours y avoir un cas d’usage évident pour repartir de zéro dans les langues à écriture non latine
Il suffit de regarder sarvam.ai et les cas d’amélioration de la tokenisation des langues locales [1]. Tous les LLM n’ont pas besoin d’aider à coder, ni d’être déjà des Babel Fish
La langue, c’est la culture, donc je comprends leur motivation. Le fait d’avoir les moyens de le faire soi-même semble plutôt une bonne chose
[1] https://www.sarvam.ai/blogs/sarvam-30b-105b
La banque russe T-Bank a remplacé le tokenizer de base de Qwen pour y faire entrer 5 fois plus de tokens en alphabet cyrillique, puis a poursuivi l’entraînement sur un corpus russe, ce qui lui a permis d’augmenter la vitesse de génération de 1,5 à 3 fois
C’est un énorme déploiement de stockage
Vu les exigences d’E/S de l’entraînement des LLM, en particulier pour les checkpoints, il est logique de passer à de la mémoire flash NVMe à cette échelle plutôt qu’à des baies de disques traditionnelles
« La Norvège est un petit pays qui tente de résoudre un problème auquel sont confrontés tous les pays non anglophones. Comment créer une IA qui reflète sa propre langue, sa culture et son histoire ? L’IA a besoin non seulement de créateurs, mais aussi d’administrateurs. »
Malheureusement, j’ai tendance à penser que la réponse est globalement plutôt « on ne peut pas ».
Ce genre de projet exige une forte volonté politique et, du moins autour de moi, l’alignement nécessaire paraît pratiquement impossible.
Les coûts sont difficiles à assumer, mais surtout, les personnes qui se soucient de cette représentativité locale n’ont aucun problème avec le fait que des entreprises étrangères la mettent en œuvre, ou bien sont tout simplement opposées à l’IA elle-même. Après tout, on peut utiliser ChatGPT en basque si on le souhaite.
C’est un petit pays, mais extrêmement riche, qui détient actuellement via son fonds souverain des participations représentant 1,5 % de toutes les entreprises cotées dans le monde.
Et il est très probable que de tels modèles soient bien supérieurs à tout ce qui pourrait être développé dans le pays.
Bien sûr, je sens aussi les frissons d’horreur de l’autre côté de l’écran en écrivant cela.