- Olmo 3 publie non seulement le résultat final du modèle, mais aussi l’ensemble du processus de développement (model flow), offrant une traçabilité complète jusqu’aux données, au code et aux checkpoints
- La gamme se compose de quatre modèles — Base, Think, Instruct, RL Zero — en versions 7B et 32B, pour répondre à divers objectifs de recherche comme le raisonnement, le dialogue et l’apprentissage par renforcement
- Basé sur les jeux de données Dolma 3 et Dolci, le projet publie des données d’entraînement transparentes d’environ 9,3 billions de tokens couvrant le web, le code, les mathématiques et les sciences
- L’outil OlmoTrace permet de suivre en temps réel de quelles données d’entraînement provient une sortie du modèle, ce qui renforce la transparence et la fiabilité
- Avec une publication entièrement open source, chacun peut intervenir, modifier ou réentraîner le modèle à une étape précise, contribuant à bâtir un écosystème de recherche en IA vérifiable
Présentation d’Olmo 3
- Olmo 3 est une famille de modèles de langage open source de nouvelle génération publiée par Allen Institute for AI (Ai2), dont la caractéristique clé est de rendre public l’ensemble du flux de développement (model flow) du modèle
- Le model flow couvre toutes les étapes : collecte des données, prétraitement, entraînement, fine-tuning et apprentissage par renforcement
- Cela permet aux chercheurs et aux développeurs d’analyser et de modifier le fonctionnement interne du modèle
- Olmo 3 est proposé en versions 7B et 32B de paramètres, et peut être exécuté dans des environnements variés, du notebook au cluster de recherche
Principale composition de la gamme
- Olmo 3-Base (7B, 32B)
- Modèle de base entièrement ouvert, affichant des performances de tout premier plan dans des domaines variés comme le code, les mathématiques et la compréhension de texte
- Il rivalise avec des modèles de même catégorie comme Qwen 2.5 et Gemma 3, avec prise en charge d’un contexte étendu de 65K tokens
- Olmo 3-Think (7B, 32B)
- Modèle spécialisé dans le raisonnement, entraîné sur des problèmes de raisonnement multi-étapes, adapté à la recherche RL et aux expériences de réflexion à long terme
- Le modèle 32B atteint des performances au meilleur niveau de sa catégorie sur MATH, OMEGA et BigBenchHard
- Olmo 3-Instruct (7B)
- Modèle optimisé pour le dialogue, l’exécution d’instructions et l’usage d’outils, au niveau ou au-dessus de Qwen 2.5, Gemma 3 et Llama 3.1
- Olmo 3-RL Zero (7B)
- Fournit un parcours entièrement ouvert pour l’évaluation d’algorithmes d’apprentissage par renforcement, avec des checkpoints sur 4 domaines : mathématiques, code, suivi d’instructions, etc.
Performances et benchmarks
- Olmo 3-Base 32B surpasse des modèles entièrement ouverts comme Marin 32B et Apertus 70B
- Excellents résultats sur des benchmarks majeurs, avec par exemple 80,5 sur GSM8k (mathématiques) et 66,5 sur HumanEval (code)
- Olmo 3-Think 32B affiche des performances similaires ou proches de Qwen 3 32B, et obtient les meilleurs scores sur HumanEvalPlus et IFEval, entre autres
- Olmo 3-Instruct 7B atteint 87,3 sur le critère de sécurité (Safety), le meilleur score parmi les modèles comparés
Architecture et processus d’entraînement
- Utilise une architecture Transformer de type decoder-only, avec 3 étapes de préentraînement (base → intermédiaire → long contexte) et 3 étapes de post-entraînement (SFT → DPO → RLVR)
- Des checkpoints sont publiés à chaque étape, permettant aux chercheurs de forker le modèle ou d’expérimenter au moment voulu
- Grâce à Dolma 3 (environ 9,3 billions de tokens) et au dataset Dolci, la transparence des données est assurée sur l’ensemble du processus d’entraînement
- Avec notamment Dolma 3 Mix (6 billions de tokens), Dolmino (100B tokens) et Longmino (50B tokens)
- Dolci fournit des mélanges de données distincts pour chaque étape : SFT, DPO et RLVR
Infrastructure d’entraînement efficace
- Entraînement sur jusqu’à 1 024 GPU H100, avec un débit de 7,7K tokens/s pour le modèle 7B
- Des techniques comme in-flight weight updates, continuous batching et des améliorations du threading permettent un apprentissage RL 4 fois plus efficace
- Le modèle 32B d’Olmo 3 est positionné comme un point d’équilibre entre performances et accessibilité, afin que les chercheurs puissent le fine-tuner eux-mêmes
Transparence et écosystème d’outils
- OlmoTrace permet de suivre visuellement le lien entre les sorties du modèle et les données d’entraînement
- Tous les datasets et toute la toolchain sont publiés en open source
- Sont notamment inclus Olmo-core (framework d’entraînement distribué), Open Instruct (pipeline de post-entraînement), datamap-rs (nettoyage des données), duplodocus (déduplication) et OLMES (toolkit d’évaluation)
- Les chercheurs peuvent analyser les étapes intermédiaires de raisonnement du modèle et les points d’échec afin de comprendre les causes de son comportement
Usages et portée
- Olmo 3 soutient la construction de systèmes d’IA fiables pour la recherche, l’enseignement et le développement applicatif
- Le fait que toutes les étapes du modèle soient publiques favorise la reproductibilité, la vérifiabilité et la recherche collaborative
- Ai2 affirme que « la véritable IA open source ne signifie pas seulement l’accès, mais aussi la confiance, la responsabilité et le progrès collectif »
- Grâce à une transparence totale, Olmo 3 propose un nouveau paradigme de recherche ouverte dans lequel chacun peut comprendre et améliorer l’intérieur de l’IA
1 commentaires
Commentaires Hacker News
Sans cette transparence, le grand public n’aura aucun moyen de comprendre ou de contrôler les grands systèmes basés sur des LLM
Au final, il y a un risque que les Big Tech, des autoritaires, ou l’IA elle-même agissent à leur guise
Je pense qu’il faudrait une structure où un organisme tiers réalise des audits et fournit des rapports de transparence
J’espère que ce type d’essai continuera à être répété
Appeler cela open source simplement parce que les poids sont publiés est une mauvaise pratique
Un vrai modèle open source aurait besoin d’un nouveau nom, comme « modèle transparent »
Pourtant, selon mon interprétation et la loi talmudique, la girafe est permise, et GPT5.1 était d’accord avec mon interprétation
Ce type d’information devrait être récupéré via une recherche de type RAG
Un modèle qui répondrait « je ne sais pas » serait probablement plus utile
Les petits modèles ont tendance à forcer le traitement des cas limites
Donc, si on leur crée une sortie « edge_case », ils fonctionnent bien mieux
J’aimerais qu’il existe un dépôt central qui rassemble ce genre d’astuces de prompt hacking
Il est censé montrer les documents de données d’entraînement correspondant à la réponse du modèle
Mais en pratique, cela semble se limiter à de simples correspondances de N-gram, donc difficile d’y voir une vraie traçabilité
Il arrivait aussi que les résultats proviennent de documents sans rapport avec la question
Explication de N-gram
Il s’agit plutôt de montrer quels fragments de données d’entraînement ont influencé le modèle
Par exemple, cela permet de retracer pourquoi plusieurs modèles répètent la même blague ou le même nombre
Le 7B convient à un GPU de 8 Go, le 32B à un GPU de 24 Go, et un modèle autour de 20B rentre parfaitement sur un GPU de 16 Go
Des expérimentations sont toujours en cours pour trouver la taille optimale
Personnellement, j’aimerais voir apparaître de la VRAM extensible sur les GPU
Cela ressemble probablement à un bug OpenWebUI
C’était déjà le cas avec GPT-OSS, et on dirait que la même situation se reproduit avec OLMo
Le 7B répond « Hi! I'm Olmo 3… », et le 32B répond « Hi! I'm Olmo… »
Au final, on a l’impression qu’un simple salut se termine en interprétation philosophique
J’ai été surpris d’y voir dès la première ligne du texte provenant de sites pour adultes
Pour publier tout le pipeline, il faut aussi inclure ce type de données
Cela dit, il aurait peut-être fallu ajuster l’aperçu pour que ce genre de contenu ne saute pas immédiatement aux yeux
La plupart semblent destinés à l’inférence on-device, mais y a-t-il d’autres cas ?
Beaucoup d’entreprises qui utilisent des modèles fine-tunés de Qwen 3 pourraient passer à Olmo 32B
Les performances étaient meilleures que celles de petits modèles non LLM
Il est plus rapide qu’une simple recherche Google et gère aussi les commandes terminal, la navigation dans les fichiers et la prise de notes
Grâce à sa vitesse (90tok/s) et à sa faible latence, je peux traiter bien plus efficacement les petites tâches
À l’inverse, Sonnet 4.5 est lent et subtilement erroné, donc inefficace en usage réel
Il est rapide (90tok/s) et couvre la plupart des tâches
Ce type de recherche est important, mais les modèles denses (dense) auront du mal à atteindre cette vitesse
Nous prévoyons d’introduire aussi du MoE dans la prochaine version d’Olmo
Il était même capable de converser naturellement en espéranto