Olmo 3 : une nouvelle voie pour le model flow afin de faire progresser l’IA open source

(allenai.org)

5 points par GN⁺ 2025-11-22 | 1 commentaires | Partager sur WhatsApp

Olmo 3 publie non seulement le résultat final du modèle, mais aussi l’ensemble du processus de développement (model flow), offrant une traçabilité complète jusqu’aux données, au code et aux checkpoints
La gamme se compose de quatre modèles — Base, Think, Instruct, RL Zero — en versions 7B et 32B, pour répondre à divers objectifs de recherche comme le raisonnement, le dialogue et l’apprentissage par renforcement
Basé sur les jeux de données Dolma 3 et Dolci, le projet publie des données d’entraînement transparentes d’environ 9,3 billions de tokens couvrant le web, le code, les mathématiques et les sciences
L’outil OlmoTrace permet de suivre en temps réel de quelles données d’entraînement provient une sortie du modèle, ce qui renforce la transparence et la fiabilité
Avec une publication entièrement open source, chacun peut intervenir, modifier ou réentraîner le modèle à une étape précise, contribuant à bâtir un écosystème de recherche en IA vérifiable

Présentation d’Olmo 3

Olmo 3 est une famille de modèles de langage open source de nouvelle génération publiée par Allen Institute for AI (Ai2), dont la caractéristique clé est de rendre public l’ensemble du flux de développement (model flow) du modèle
- Le model flow couvre toutes les étapes : collecte des données, prétraitement, entraînement, fine-tuning et apprentissage par renforcement
- Cela permet aux chercheurs et aux développeurs d’analyser et de modifier le fonctionnement interne du modèle
Olmo 3 est proposé en versions 7B et 32B de paramètres, et peut être exécuté dans des environnements variés, du notebook au cluster de recherche

Principale composition de la gamme

Olmo 3-Base (7B, 32B)
- Modèle de base entièrement ouvert, affichant des performances de tout premier plan dans des domaines variés comme le code, les mathématiques et la compréhension de texte
- Il rivalise avec des modèles de même catégorie comme Qwen 2.5 et Gemma 3, avec prise en charge d’un contexte étendu de 65K tokens
Olmo 3-Think (7B, 32B)
- Modèle spécialisé dans le raisonnement, entraîné sur des problèmes de raisonnement multi-étapes, adapté à la recherche RL et aux expériences de réflexion à long terme
- Le modèle 32B atteint des performances au meilleur niveau de sa catégorie sur MATH, OMEGA et BigBenchHard
Olmo 3-Instruct (7B)
- Modèle optimisé pour le dialogue, l’exécution d’instructions et l’usage d’outils, au niveau ou au-dessus de Qwen 2.5, Gemma 3 et Llama 3.1
Olmo 3-RL Zero (7B)
- Fournit un parcours entièrement ouvert pour l’évaluation d’algorithmes d’apprentissage par renforcement, avec des checkpoints sur 4 domaines : mathématiques, code, suivi d’instructions, etc.

Performances et benchmarks

Olmo 3-Base 32B surpasse des modèles entièrement ouverts comme Marin 32B et Apertus 70B
- Excellents résultats sur des benchmarks majeurs, avec par exemple 80,5 sur GSM8k (mathématiques) et 66,5 sur HumanEval (code)
Olmo 3-Think 32B affiche des performances similaires ou proches de Qwen 3 32B, et obtient les meilleurs scores sur HumanEvalPlus et IFEval, entre autres
Olmo 3-Instruct 7B atteint 87,3 sur le critère de sécurité (Safety), le meilleur score parmi les modèles comparés

Architecture et processus d’entraînement

Utilise une architecture Transformer de type decoder-only, avec 3 étapes de préentraînement (base → intermédiaire → long contexte) et 3 étapes de post-entraînement (SFT → DPO → RLVR)
Des checkpoints sont publiés à chaque étape, permettant aux chercheurs de forker le modèle ou d’expérimenter au moment voulu
Grâce à Dolma 3 (environ 9,3 billions de tokens) et au dataset Dolci, la transparence des données est assurée sur l’ensemble du processus d’entraînement
- Avec notamment Dolma 3 Mix (6 billions de tokens), Dolmino (100B tokens) et Longmino (50B tokens)
- Dolci fournit des mélanges de données distincts pour chaque étape : SFT, DPO et RLVR

Infrastructure d’entraînement efficace

Entraînement sur jusqu’à 1 024 GPU H100, avec un débit de 7,7K tokens/s pour le modèle 7B
Des techniques comme in-flight weight updates, continuous batching et des améliorations du threading permettent un apprentissage RL 4 fois plus efficace
Le modèle 32B d’Olmo 3 est positionné comme un point d’équilibre entre performances et accessibilité, afin que les chercheurs puissent le fine-tuner eux-mêmes

Transparence et écosystème d’outils

OlmoTrace permet de suivre visuellement le lien entre les sorties du modèle et les données d’entraînement
Tous les datasets et toute la toolchain sont publiés en open source
- Sont notamment inclus Olmo-core (framework d’entraînement distribué), Open Instruct (pipeline de post-entraînement), datamap-rs (nettoyage des données), duplodocus (déduplication) et OLMES (toolkit d’évaluation)
Les chercheurs peuvent analyser les étapes intermédiaires de raisonnement du modèle et les points d’échec afin de comprendre les causes de son comportement

Usages et portée

Olmo 3 soutient la construction de systèmes d’IA fiables pour la recherche, l’enseignement et le développement applicatif
Le fait que toutes les étapes du modèle soient publiques favorise la reproductibilité, la vérifiabilité et la recherche collaborative
Ai2 affirme que « la véritable IA open source ne signifie pas seulement l’accès, mais aussi la confiance, la responsabilité et le progrès collectif »
Grâce à une transparence totale, Olmo 3 propose un nouveau paradigme de recherche ouverte dans lequel chacun peut comprendre et améliorer l’intérieur de l’IA

1 commentaires

GN⁺ 2025-11-22

Commentaires Hacker News

À mon avis, l’avenir de l’IA passe par des systèmes dont les étapes de raisonnement sont entièrement traçables
Sans cette transparence, le grand public n’aura aucun moyen de comprendre ou de contrôler les grands systèmes basés sur des LLM
Au final, il y a un risque que les Big Tech, des autoritaires, ou l’IA elle-même agissent à leur guise
- C’est intéressant de voir que beaucoup de gens veulent faire disparaître cette approche elle-même
- Il faudrait au minimum savoir quelles données d’entraînement chaque modèle a utilisées
  Je pense qu’il faudrait une structure où un organisme tiers réalise des audits et fournit des rapports de transparence
- La transparence, c’est bien, mais rendre les réponses ajustables représente un gros défi de UI/UX
  J’espère que ce type d’essai continuera à être répété
Le terme « open source AI » donne déjà l’impression d’avoir été déformé par le marketing
Appeler cela open source simplement parce que les poids sont publiés est une mauvaise pratique
Un vrai modèle open source aurait besoin d’un nouveau nom, comme « modèle transparent »
J’ai demandé si les girafes étaient casher (kosher), et le modèle a répondu « non »
Pourtant, selon mon interprétation et la loi talmudique, la girafe est permise, et GPT5.1 était d’accord avec mon interprétation
- C’est étrange qu’un modèle mémorise ce genre de détails religieux
  Ce type d’information devrait être récupéré via une recherche de type RAG
  Un modèle qui répondrait « je ne sais pas » serait probablement plus utile
- Je me demande combien de fois cela a été retenté, et comment les valeurs de temperature et top_p ont été réglées
- En réalité, il est intéressant de voir que ce type de question ne peut plus vraiment servir de référence du bien public
Ces derniers temps, je transfère mon workflow principal d’OpenAI vers des modèles locaux
Les petits modèles ont tendance à forcer le traitement des cas limites
Donc, si on leur crée une sortie « edge_case », ils fonctionnent bien mieux
J’aimerais qu’il existe un dépôt central qui rassemble ce genre d’astuces de prompt hacking
- Je me demande si « edge_case » est la clé (key) d’un schéma de sortie structuré
- Je me demande si tu utilises un frontend comme Open WebUI ou LibreChat, ou si tu appelles le modèle directement
J’ai cliqué sur « Show OlmoTrace » dans AllenAI Playground
Il est censé montrer les documents de données d’entraînement correspondant à la réponse du modèle
Mais en pratique, cela semble se limiter à de simples correspondances de N-gram, donc difficile d’y voir une vraie traçabilité
Il arrivait aussi que les résultats proviennent de documents sans rapport avec la question
Explication de N-gram
- En tant que chercheur sur Olmo, je dirais que le but d’OlmoTrace n’est pas d’attribuer une réponse à un document précis
  Il s’agit plutôt de montrer quels fragments de données d’entraînement ont influencé le modèle
  Par exemple, cela permet de retracer pourquoi plusieurs modèles répètent la même blague ou le même nombre
Je pense que la gamme idéale de tailles de modèles est composée de 7B, 20B et 32B
Le 7B convient à un GPU de 8 Go, le 32B à un GPU de 24 Go, et un modèle autour de 20B rentre parfaitement sur un GPU de 16 Go
- Bien sûr, cela dépend de l’architecture
  Des expérimentations sont toujours en cours pour trouver la taille optimale
  Personnellement, j’aimerais voir apparaître de la VRAM extensible sur les GPU
J’ai demandé au modèle 7B « hi, who are u », et il s’est arrêté après avoir analysé la phrase en interne
Cela ressemble probablement à un bug OpenWebUI
- À chaque sortie d’un nouveau modèle, on voit souvent des tests effectués avec des logiciels qui ne le prennent pas en charge
  C’était déjà le cas avec GPT-OSS, et on dirait que la même situation se reproduit avec OLMo
- Je viens d’essayer moi-même sur le playground
  Le 7B répond « Hi! I'm Olmo 3… », et le 32B répond « Hi! I'm Olmo… »
- Je suis chercheur dans l’équipe post-training d’Ai2, et je me demande où tu l’as testé
- Ça me rappelle la blague sur l’analyse excessive de « good morning »
  Au final, on a l’impression qu’un simple salut se termine en interprétation philosophique
- Je te conseille de vérifier s’il n’y a pas une limite sur les completion tokens
J’ai regardé le dataset Dolma3 sur Hugging Face
J’ai été surpris d’y voir dès la première ligne du texte provenant de sites pour adultes
- Il est très probable qu’il soit encore à une étape avant curation
  Pour publier tout le pipeline, il faut aussi inclure ce type de données
  Cela dit, il aurait peut-être fallu ajuster l’aperçu pour que ce genre de contenu ne saute pas immédiatement aux yeux
- De toute façon, la fiction érotique fait aussi partie des principaux cas d’usage de ce type de modèles
Je me demande quelles sont les utilisations concrètes des petits modèles
La plupart semblent destinés à l’inférence on-device, mais y a-t-il d’autres cas ?
- En tant que chercheur chez Ai2, je dirais que le 7B est un modèle local pour GPU grand public, tandis que le 32B se prête à une plus grande variété d’applications
  Beaucoup d’entreprises qui utilisent des modèles fine-tunés de Qwen 3 pourraient passer à Olmo 32B
- Notre équipe fine-tune des modèles 7B comme classifieurs spécialisés par domaine
  Les performances étaient meilleures que celles de petits modèles non LLM
- Je garde en permanence Qwen3-30B-VL chargé en VRAM
  Il est plus rapide qu’une simple recherche Google et gère aussi les commandes terminal, la navigation dans les fichiers et la prise de notes
  Grâce à sa vitesse (90tok/s) et à sa faible latence, je peux traiter bien plus efficacement les petites tâches
  À l’inverse, Sonnet 4.5 est lent et subtilement erroné, donc inefficace en usage réel
Qwen3-30B-VL est presque parfait pour un usage quotidien
Il est rapide (90tok/s) et couvre la plupart des tâches
Ce type de recherche est important, mais les modèles denses (dense) auront du mal à atteindre cette vitesse
- En tant que développeur d’Olmo, je dirais que les modèles Qwen sont rapides grâce à leur architecture MoE
  Nous prévoyons d’introduire aussi du MoE dans la prochaine version d’Olmo
- Je l’ai essayé sur un nouveau MacBook et c’était lent, mais en revanche Qwen2.5:14B donnait un retour immédiat
  Il était même capable de converser naturellement en espéranto
- Je me demande si le fait que Qwen3-30B-VL soit plus « intelligent » vient davantage de différences d’architecture que de sa simple taille

Olmo 3 : une nouvelle voie pour le model flow afin de faire progresser l’IA open source

Présentation d’Olmo 3

Principale composition de la gamme

Performances et benchmarks

Architecture et processus d’entraînement

Infrastructure d’entraînement efficace

Transparence et écosystème d’outils

Usages et portée

À lire aussi

1 commentaires

Commentaires Hacker News