Les 2 pétaoctets de stockage flash Huawei de la Norvège et l’entraînement de LLM

(blocksandfiles.com)

1 points par GN⁺ 2026-05-27 | 1 commentaires | Partager sur WhatsApp

La Bibliothèque nationale de Norvège a intégré 2 PB de stockage flash Huawei OceanStor Dorado dans son pipeline d’entraînement IA afin de construire un LLM souverain capable de comprendre le norvégien
Alors que les fournisseurs commerciaux de LLM ne créent pas de modèle local en norvégien, les LLM centrés sur l’anglais gèrent difficilement l’histoire, l’actualité et la culture consignées dans une langue régionale
Depuis 2005, la Bibliothèque nationale numérise livres, journaux, pages web, audio et vidéo, et dispose de 20 PB de données propres, stockées à hauteur d’environ 60 PB selon la méthode 3-2-1
Le principal goulet d’étranglement n’est pas le calcul, mais la qualité des données, leur nettoyage et le débit du pipeline ; la préparation est effectuée en interne sur des DGX H200, un cluster CPU et du flash Huawei, puis l’entraînement a lieu sur Sigma2 Olivia
Les archives de conservation et le pipeline IA répondent à des exigences différentes — durabilité et coût d’un côté, faible latence et E/S parallèles de l’autre — ce qui signifie qu’un LLM souverain a aussi besoin de capacités de gestion et de conservation

Le projet de LLM souverain de la Bibliothèque nationale de Norvège

La Bibliothèque nationale de Norvège (Nasjonalbiblioteket) développe actuellement un grand modèle de langage (LLM) capable de comprendre le norvégien et utilise 2 PB de stockage flash Huawei OceanStor Dorado dans son pipeline de données pour l’entraînement IA
Lors du Huawei ID Forum 2026 Paris, Marius Husnes, responsable de la plateforme IT de la Bibliothèque nationale, a indiqué que les fournisseurs commerciaux de LLM ne développaient pas de LLM régionaux en norvégien
Les pays qui ne disposent pas d’un LLM souverain entraîné dans leur propre langue se retrouvent dépendants de LLM entraînés sur des données mondiales et centrés sur l’anglais ; ces modèles ont du mal à appréhender l’histoire, l’actualité et la culture écrites dans des langues locales
Le ministère norvégien de la Culture a confié à la Bibliothèque nationale la construction d’une IA souveraine, c’est-à-dire d’un LLM, et l’institution possède la plus grande collection numérique de livres, journaux et pages web de Norvège
La Bibliothèque nationale a le droit de recevoir un exemplaire de tous les livres publiés et des contenus diffusés, et le dépôt légal s’est étendu au-delà des livres pour englober la collecte et la conservation de l’ensemble du patrimoine culturel norvégien
Grâce à des accords avec les groupes de presse norvégiens, elle peut également utiliser pour l’entraînement du LLM des contenus protégés par le droit d’auteur ; selon Husnes, « les entreprises privées n’ont pas cela »

Volume de données et base de la numérisation

La Bibliothèque nationale numérise ses collections depuis 2005 et a accumulé 20 PB de données propres
Ces données sont stockées selon la méthode 3-2-1
- 3 copies
- 2 types de supports
- 1 copie conservée hors site
En raison de cette structure, le volume total de stockage atteint environ 60 PB
La numérisation couvre les textes intégraux, l’audio, la vidéo, les images fixes et les contenus web
Le processus de numérisation a produit de nombreux scans OCR, ainsi que de grands volumes de métadonnées et des API pour l’accès en ligne
La majorité des données est stockée dans un système de conservation composé de disques numériques et d’archives sur bande

Le problème du transfert des données des archives vers le pipeline IA

Le principal défi consiste à acheminer les données du système de conservation vers le système d’entraînement du LLM
Le goulet d’étranglement ne se situe pas dans le calcul, mais dans la qualité des données, leur nettoyage et le débit du pipeline
Le traitement est divisé entre la préparation des données dans l’environnement de calcul interne de la Bibliothèque nationale et l’exécution effective de l’entraînement sur le supercalculateur national
L’environnement interne se compose des équipements suivants
- des systèmes Nvidia DGX H200
- un cluster CPU de 384 cœurs
- plusieurs baies 100 % flash Huawei OceanStor Dorado totalisant 2 PB de capacité flash
Le stockage flash Huawei est utilisé comme stockage à faible latence pour le pipeline de données et la préparation à l’entraînement
Le pipeline comprend les étapes de collecte des données, de nettoyage, de déduplication, de normalisation des formats, de validation et de préparation

Environnement d’exécution de l’entraînement : Sigma2 Olivia

Une fois passées par le pipeline, les données sont envoyées vers le système Sigma2 Olivia, le supercalculateur national norvégien, pour l’exécution effective de l’entraînement
Olivia est un système HPE Cray Supercomputing EX
Sa configuration est la suivante
- 448 GPU
- 64 512 cœurs CPU
- un système de stockage 5,3 PB Cray ClusterStor E1000
L’environnement IA on-premise de la Bibliothèque nationale prépare les données, tandis qu’Olivia prend en charge l’exécution de l’entraînement

Des exigences de stockage différentes

Les archives de conservation et le stockage du pipeline IA n’ont pas les mêmes exigences
Le système de conservation de 60 PB est optimisé pour la durabilité et le coût, et non pour des E/S rapides
Ce système a été conçu pour des accès rares, avec par conséquent une latence de lecture élevée
Le stockage du pipeline IA, lui, est conçu pour un débit élevé, une faible latence et des E/S de données parallèles
L’équipe a dû trouver elle-même comment déplacer et traiter des jeux de données à l’échelle du PB depuis les archives vers le pipeline de données IA

Des défis encore en cours de résolution

Évaluation
- Il n’existe pas d’outil d’évaluation standard pour évaluer un LLM souverain en norvégien
- Le norvégien possède deux formes écrites, ainsi que plusieurs dialectes et évolutions historiques
- L’équipe de la Bibliothèque nationale est en train de construire ses propres outils d’évaluation
Gouvernance
- Il faut déterminer qui contrôlera l’accès à ce LLM souverain
- Il reste aussi à définir qui décidera des usages autorisés pour ce LLM souverain
- Il s’agit d’une question institutionnelle et politique, sans réponse simple
Orchestration
- Le travail visant à faire fonctionner ensemble de manière fluide les trois systèmes — archives de conservation, environnement IA on-premise et supercalculateur national Sigma2 — se poursuit

Portée et conclusion

Le stockage Huawei joue un rôle important et concret sur le marché européen
Pour les pays souhaitant développer un LLM souverain dans une langue locale, il peut être utile d’échanger avec Husnes et de comprendre le travail nécessaire
La Norvège est présentée comme un petit pays confronté à des problèmes que rencontrent tous les pays non anglophones
La question centrale est la suivante : comment construire une IA qui reflète sa propre langue, sa culture et son histoire ?
L’IA a besoin non seulement de bâtisseurs, mais aussi de gestionnaires et de conservateurs

1 commentaires

GN⁺ 2026-05-27

Commentaires sur Hacker News

En tant que Norvégien, j’utilise la Bibliothèque nationale presque tous les jours pour faire des recherches textuelles
L’interface utilisateur et les fonctionnalités pour explorer cet immense volume de texte sont vraiment de tout premier ordre
- C’est vraiment excellent. J’aimerais simplement qu’il y ait un peu moins de restrictions sur les contenus accessibles
  Une grande partie n’est accessible que depuis une IP norvégienne, ce qui est l’une des principales raisons pour lesquelles moi, Norvégien vivant au Royaume-Uni, je garde un VPN. Une autre partie n’est accessible que depuis les IP des bibliothèques ou des organismes de recherche, mais il reste malgré tout énormément de documents accessibles au public
- L’absence d’un moteur de recherche unifié est extrêmement frustrante. Je ne comprends pas pourquoi on ne peut pas faire de recherche dans les sous-titres TV
- Ça m’a fait réaliser à quel point je m’étais habitué au traitement des radicaux et à la tolérance orthographique, pourtant basiques, présents dans tous les moteurs de recherche depuis l’époque d’Altavista
Je me demande dans quelle mesure cette affirmation est vraie : « Un pays qui a sa propre langue est désavantagé s’il ne dispose pas d’un LLM souverain entraîné dans cette langue, parce qu’un LLM anglophone entraîné sur des données du monde entier ne connaît pas l’histoire, l’actualité et la culture de ce pays telles qu’elles sont décrites dans la langue locale »
Comme je pensais que les grands acteurs entraînaient déjà leurs modèles sur presque tout ce qui est accessible, quelle que soit la langue ou la qualité, ce point de vue ressemble à une idée formée au tout début de l’ère des LLM généralistes
- Si l’on veut qu’un LLM acquière des connaissances en norvégien, la méthode la plus évidente est probablement de constituer un bon jeu de données d’entraînement et de le rendre largement public
  Je ne vois pas pourquoi il faudrait engager de gros coûts pour entraîner son propre modèle, surtout s’il risque d’être inférieur aux modèles de pointe
- Les LLM étrangers n’ont probablement pas été entraînés sur les fonds de la Bibliothèque nationale de Norvège
  À cause de la généalogie, j’y cherche souvent des documents avec une recherche par mots-clés ordinaires, et j’y trouve des choses que ni les moteurs de recherche ni les modèles de langage ne connaissent
  Bien sûr, les informations qui m’intéressent finissent en général quelque part où une IA pourrait les aspirer, mais il faudrait vraiment longtemps pour extraire tout ce qu’il y a d’intéressant là-dedans
- À mon avis, ce n’est presque pas vrai. Je ne parle pas bien norvégien, mais je parle suédois, et les deux langues se ressemblent énormément, donc je comprends généralement le norvégien aussi
  Tous les modèles à qui j’ai parlé en suédois l’ont géré parfaitement. Il y a de fortes chances que ce soit déjà pareil pour le norvégien
- Cela permettra peut-être au moins d’écrire comme un Norvégien, plutôt que dans un style d’anglais traduit en norvégien
  Il serait intéressant de voir s’ils appliquent des expériences comme https://arxiv.org/pdf/2507.22445
- Les meilleurs modèles actuels sont déjà assez à l’aise dans les grandes langues et cultures, donc au minimum la formulation « tous » n’est pas correcte
  L’impact sur les performances peut être quasi nul, voire parfois meilleur. En revanche, des schémas anglophones peuvent subtilement déteindre sur les schémas natifs d’autres langues
  Pour les langues à faibles ressources, c’est un problème totalement différent, mais pour améliorer cela, il faut davantage de données plutôt qu’un nouveau modèle
« Le système Olivia est un HPE Cray Supercomputing EX équipé de 448 GPU et de 64 512 cœurs CPU »
Vouloir entraîner un LLM souverain avec un matériel aussi limité, au lieu de simplement appliquer du LoRA sur un modèle open source, ressemble à une grosse erreur et à un signal d’alarme
Ils n’ont manifestement pas les ressources pour entraîner un LLM complet, donc prétendre que c’est l’objectif donne l’impression qu’ils n’ont pas réellement l’intention de rendre ce LLM utile. On en vient alors à se demander pourquoi et avec l’argent de qui on gaspille cela
- Ce ne sera peut-être pas utile pour les gens extérieurs, mais l’un des objectifs pourrait être l’apprentissage organisationnel
  Autrement dit, internaliser au sein de l’organisation le savoir nécessaire pour construire un LLM
  Officiellement, c’est la Bibliothèque nationale qui pilote le projet, mais d’après l’article, elle a probablement été choisie parce qu’elle possède légalement les documents en norvégien et peut les utiliser à cette fin. Des chercheurs d’institutions liées, comme les universités, participeront sans doute aussi au processus
- Ils ont déjà réussi à produire un modèle finement ajusté comme preuve de concept, donc l’étape suivante consiste logiquement à entraîner un LLM complet
  Cela dit, je ne pense pas qu’ils visent quelque chose de vraiment utile. Ces modèles finement ajustés étaient très défaillants et semblaient surtout servir à mettre en place la méthodologie. Je ne suis pas convaincu que ce soit extrêmement utile, mais ce n’est pas à moi de décider ce que chacun fait avec des financements de recherche
  L’un des modèles finement ajustés que j’ai testés se moquait souvent des humains qui exprimaient des émotions dans un chat
  Un autre modèle finement ajusté, même si j’écrivais simplement « hei », hallucination oblige, partait du principe que j’étais médecin et me disait à chaque fois que mon bébé avait une maladie terrible. Il est fort possible qu’un prompt système banal et neutre soit à l’origine de ce comportement
  Olivia me semble suffisamment grand pour l’usage visé. Je pense qu’il vaut mieux suivre la dynamique actuelle sans gaspiller trop d’argent en matériel
- Les modèles de langue multilingues et internationalisés ne sont pas un domaine sur lequel les laboratoires de pointe concentrent énormément de ressources, et c’est probablement encore plus vrai pour le norvégien
  Un corpus norvégien ne nécessite peut-être pas un cluster gigantesque, et même si c’était le cas, ce serait sans doute déjà le mieux que puisse faire une bibliothèque. Ce projet sera probablement de loin l’un des plus gros investissements jamais consacrés à un modèle norvégien
  Les modèles de très haut niveau n’ont peut-être pas accès à des contenus d’une qualité comparable à ceux de la Bibliothèque nationale. L’article mentionne aussi des licences avec des groupes de presse, sans compter les propres archives de la bibliothèque
  L’anglais et le norvégien n’appartenant pas à des branches linguistiques proches, le LoRA n’est peut-être pas la meilleure approche
  Je me demande s’il existe des travaux publiés sur la qualité de la localisation par LoRA selon l’éloignement grammatical et lexical entre la langue cible et l’anglais
  Ce genre de projet n’a généralement pas un seul objectif : il ne s’agit pas seulement de produire un modèle de pointe, mais aussi de créer et former des talents locaux, un peu comme lorsqu’une université lance un satellite
- Avec ce niveau de ressources, c’est suffisant pour partir de quelque chose comme la recette Olmo 3, avec un mélange de données donnant la priorité aux données internes, puis un entraînement complémentaire pour ses propres tâches
  S’ils construisaient leur propre modèle d’embedding, indexaient l’ensemble de la bibliothèque, puis entraînaient le modèle à consulter ces données pour répondre, du point de vue national, à des questions sur l’histoire, la culture, le droit et la stratégie, cela pourrait être assez intéressant et utile
  Ils ne battront pas Anthropic pour générer du code React, mais il n’y a aucune raison de vouloir répliquer cela
- En réalité, le plus gros problème, ce sont les données d’entraînement disponibles
  Ils ont déjà expérimenté à la fois le fine-tuning et l’entraînement depuis zéro avec plusieurs modèles de moins de 10 milliards de paramètres, et la dernière fois que j’ai vérifié, c’est l’entraînement depuis zéro qui captait le mieux la langue
Je me demande s’il ne vaudrait pas mieux que la Norvège crée à la place, ou en parallèle, des jeux de données d’entraînement et les partage gratuitement avec tous les créateurs de modèles
Cela semble être une méthode meilleure, ou complémentaire, pour atteindre l’objectif ici, à savoir faire en sorte que les modèles de pointe connaissent le norvégien et sa culture
- Les modèles de pointe connaissent déjà bien le norvégien. Ils s’adaptent même aux dialectes norvégiens et imitent assez plausiblement l’ancien norvégien
  Par exemple, j’ai demandé à Claude d’expliquer le roman de 1911 « De knyttede næver » en orthographe norvégienne de l’époque, vers 1911, et il s’en est bien sorti
  Ce qui manque, c’est une compréhension de la littérature, de la culture et de l’histoire norvégiennes. « De knyttede næver » était l’un des romans norvégiens à succès de son époque, mais Claude n’a pu produire quelque chose qu’après l’avoir recherché. ChatGPT s’en est mieux sorti et, surtout en mode réflexion, a donné un résumé détaillé
  Ce n’est pas une œuvre largement connue aujourd’hui, mais l’auteur a été pendant des décennies un journaliste de presse renommé, et cette série est suffisamment connue pour qu’un chanteur norvégien ait pris comme nom de scène le nom du protagoniste. En raison des opinions politiques de l’auteur et de leur influence sur le roman, l’œuvre a aussi été discutée pendant des décennies dans les journaux et les livres norvégiens ; cela me semble donc être un test assez raisonnable et révélateur d’un véritable manque de connaissances
  Je suis d’accord sur le fait qu’il vaudrait mieux rendre le jeu de données de la Bibliothèque nationale plus accessible. Cela dit, le grand élément supplémentaire ici semble être qu’ils ont conclu un accord permettant d’entraîner sur des œuvres sous droit d’auteur, bloquées dans les archives et soumises à des restrictions d’usage
  Malgré tout, publier ne serait-ce que les données du fonds dont les droits ont expiré constituerait déjà un excellent point de départ
- Je ne vois pas pourquoi il faudrait partager toutes ces données avec des entreprises américaines cupides qui volent les données de tout le monde pour leur propre profit
  Il vaudrait bien mieux conserver un accord juridique avec des institutions publiques et développer quelque chose d’effectivement utile pour son propre pays
Quand Marius Husnes dit que « les fournisseurs commerciaux de LLM ne développent pas de LLM norvégiens locaux et qu’un pays sans LLM souverain entraîné dans sa langue nationale est désavantagé », je ne suis pas très convaincu qu’il sache vraiment de quoi il parle
- Il a raison. Ce n’est simplement pas uniquement une question de corpus d’entraînement, mais aussi de tokenizer, qui peut tokeniser plus efficacement les sous-chaînes à partir des biais nécessaires à la langue visée
  Si les LLM orientés vers l’anglais sont plus forts en anglais, c’est parce que l’espace de tokens lui est attribué de manière plus compacte. Si vous testez un tokenizer en ligne appelant l’API d’Anthropic avec des mots anglais courants et des mots norvégiens, l’anglais tient généralement dans un token, voire moins, alors que le norvégien tombe souvent sur 2 à 4 tokens, parfois davantage. Des langues comme le thaï sont énormément désavantagées
  Le choix du corpus est lui aussi souvent fortement biaisé vers la langue cible, parce qu’il faut plus d’efforts pour rassembler des œuvres dans cette langue
  En raison de l’influence réciproque entre embeddings sémantiquement proches d’une langue à l’autre, l’espace vectoriel acquiert aussi une ligne de base culturelle et d’autres biais de sens. Enfin, le fine-tuning a une forte influence sur l’expression culturelle d’un LLM. Ces effets sont loin d’être négligeables
  Il existe de nombreux efforts pour créer des modèles de langue pour des langues en voie de disparition et des modèles interculturels, mais pour une langue disposant d’une base de littératie solide, il y a amplement de bonnes raisons de créer un LLM patrimonial spécialisé dans sa propre langue et sa propre culture. S’attendre à ce qu’OpenAI ou Anthropic fassent passer votre langue avant leurs clients cibles au moment de choisir est absurde
- Quand on parle avec ChatGPT, même en danois, son caractère américain est assez évident
  Sa langue maternelle, son style et son attitude sont américains
  De même qu’on ne peut pas compter sur Netflix et HBO, même s’ils produisent aujourd’hui des séries scandinaves, il faut aussi construire les nôtres dans ce domaine
  Avec le temps, la technologie qui le permet deviendra moins chère et plus facile d’accès
- La Pologne a son propre LLM, Bielik
  Non seulement il préserve mieux les tournures proprement polonaises, mais il rédige aussi mieux les documents administratifs. Pourquoi est-il meilleur ? Parce qu’il a été évalué en arène et que les résultats étaient statistiquement supérieurs
- Je me demande si vous pouvez apporter des éléments montrant qu’il a tort
  Vous l’affirmez, mais sans justification apparente. Pourquoi le fait de n’avoir que des LLM anglais ne serait-il pas un désavantage ?
  Peut-on vraiment obtenir, avec les modèles actuels, les nuances de l’histoire et de la culture norvégiennes ?
- Cela sonne suffisamment bien pour obtenir des subventions
Le gallois est lui aussi en train d’être entraîné pour des LLM avec Nemotron
https://www.bangor.ac.uk/news/2025-09-15-reaching-across-the...
Ce n’est peut-être pas l’approche la plus efficace, mais il semble toujours y avoir un cas d’usage évident pour repartir de zéro dans les langues à écriture non latine
Il suffit de regarder sarvam.ai et les cas d’amélioration de la tokenisation des langues locales [1]. Tous les LLM n’ont pas besoin d’aider à coder, ni d’être déjà des Babel Fish
La langue, c’est la culture, donc je comprends leur motivation. Le fait d’avoir les moyens de le faire soi-même semble plutôt une bonne chose
[1] https://www.sarvam.ai/blogs/sarvam-30b-105b
- Améliorer la tokenisation n’implique pas forcément de repartir de zéro
  La banque russe T-Bank a remplacé le tokenizer de base de Qwen pour y faire entrer 5 fois plus de tokens en alphabet cyrillique, puis a poursuivi l’entraînement sur un corpus russe, ce qui lui a permis d’augmenter la vitesse de génération de 1,5 à 3 fois
C’est un énorme déploiement de stockage
Vu les exigences d’E/S de l’entraînement des LLM, en particulier pour les checkpoints, il est logique de passer à de la mémoire flash NVMe à cette échelle plutôt qu’à des baies de disques traditionnelles
« La Norvège est un petit pays qui tente de résoudre un problème auquel sont confrontés tous les pays non anglophones. Comment créer une IA qui reflète sa propre langue, sa culture et son histoire ? L’IA a besoin non seulement de créateurs, mais aussi d’administrateurs. »
Malheureusement, j’ai tendance à penser que la réponse est globalement plutôt « on ne peut pas ».
Ce genre de projet exige une forte volonté politique et, du moins autour de moi, l’alignement nécessaire paraît pratiquement impossible.
Les coûts sont difficiles à assumer, mais surtout, les personnes qui se soucient de cette représentativité locale n’ont aucun problème avec le fait que des entreprises étrangères la mettent en œuvre, ou bien sont tout simplement opposées à l’IA elle-même. Après tout, on peut utiliser ChatGPT en basque si on le souhaite.
- Dans le cas de la Norvège, on peut toutefois débattre de savoir si le coût est réellement hors de portée.
  C’est un petit pays, mais extrêmement riche, qui détient actuellement via son fonds souverain des participations représentant 1,5 % de toutes les entreprises cotées dans le monde.
- Si la Norvège approchait des laboratoires de recherche américains avec pour objectif de créer un dataset curaté pour l’entraînement, ils leur permettraient très certainement d’entrer dans le processus d’entraînement.
  Et il est très probable que de tels modèles soient bien supérieurs à tout ce qui pourrait être développé dans le pays.
  Bien sûr, je sens aussi les frissons d’horreur de l’autre côté de l’écran en écrivant cela.

Les 2 pétaoctets de stockage flash Huawei de la Norvège et l’entraînement de LLM

Le projet de LLM souverain de la Bibliothèque nationale de Norvège

Volume de données et base de la numérisation

Le problème du transfert des données des archives vers le pipeline IA

Environnement d’exécution de l’entraînement : Sigma2 Olivia

Des exigences de stockage différentes

Des défis encore en cours de résolution

Évaluation

Gouvernance

Orchestration

Portée et conclusion

À lire aussi

1 commentaires

Commentaires sur Hacker News