5 points par GN⁺ 2025-11-22 | 1 commentaires | Partager sur WhatsApp
  • Olmo 3 publie non seulement le résultat final du modèle, mais aussi l’ensemble du processus de développement (model flow), offrant une traçabilité complète jusqu’aux données, au code et aux checkpoints
  • La gamme se compose de quatre modèles — Base, Think, Instruct, RL Zero — en versions 7B et 32B, pour répondre à divers objectifs de recherche comme le raisonnement, le dialogue et l’apprentissage par renforcement
  • Basé sur les jeux de données Dolma 3 et Dolci, le projet publie des données d’entraînement transparentes d’environ 9,3 billions de tokens couvrant le web, le code, les mathématiques et les sciences
  • L’outil OlmoTrace permet de suivre en temps réel de quelles données d’entraînement provient une sortie du modèle, ce qui renforce la transparence et la fiabilité
  • Avec une publication entièrement open source, chacun peut intervenir, modifier ou réentraîner le modèle à une étape précise, contribuant à bâtir un écosystème de recherche en IA vérifiable

Présentation d’Olmo 3

  • Olmo 3 est une famille de modèles de langage open source de nouvelle génération publiée par Allen Institute for AI (Ai2), dont la caractéristique clé est de rendre public l’ensemble du flux de développement (model flow) du modèle
    • Le model flow couvre toutes les étapes : collecte des données, prétraitement, entraînement, fine-tuning et apprentissage par renforcement
    • Cela permet aux chercheurs et aux développeurs d’analyser et de modifier le fonctionnement interne du modèle
  • Olmo 3 est proposé en versions 7B et 32B de paramètres, et peut être exécuté dans des environnements variés, du notebook au cluster de recherche

Principale composition de la gamme

  • Olmo 3-Base (7B, 32B)
    • Modèle de base entièrement ouvert, affichant des performances de tout premier plan dans des domaines variés comme le code, les mathématiques et la compréhension de texte
    • Il rivalise avec des modèles de même catégorie comme Qwen 2.5 et Gemma 3, avec prise en charge d’un contexte étendu de 65K tokens
  • Olmo 3-Think (7B, 32B)
    • Modèle spécialisé dans le raisonnement, entraîné sur des problèmes de raisonnement multi-étapes, adapté à la recherche RL et aux expériences de réflexion à long terme
    • Le modèle 32B atteint des performances au meilleur niveau de sa catégorie sur MATH, OMEGA et BigBenchHard
  • Olmo 3-Instruct (7B)
    • Modèle optimisé pour le dialogue, l’exécution d’instructions et l’usage d’outils, au niveau ou au-dessus de Qwen 2.5, Gemma 3 et Llama 3.1
  • Olmo 3-RL Zero (7B)
    • Fournit un parcours entièrement ouvert pour l’évaluation d’algorithmes d’apprentissage par renforcement, avec des checkpoints sur 4 domaines : mathématiques, code, suivi d’instructions, etc.

Performances et benchmarks

  • Olmo 3-Base 32B surpasse des modèles entièrement ouverts comme Marin 32B et Apertus 70B
    • Excellents résultats sur des benchmarks majeurs, avec par exemple 80,5 sur GSM8k (mathématiques) et 66,5 sur HumanEval (code)
  • Olmo 3-Think 32B affiche des performances similaires ou proches de Qwen 3 32B, et obtient les meilleurs scores sur HumanEvalPlus et IFEval, entre autres
  • Olmo 3-Instruct 7B atteint 87,3 sur le critère de sécurité (Safety), le meilleur score parmi les modèles comparés

Architecture et processus d’entraînement

  • Utilise une architecture Transformer de type decoder-only, avec 3 étapes de préentraînement (base → intermédiaire → long contexte) et 3 étapes de post-entraînement (SFT → DPO → RLVR)
  • Des checkpoints sont publiés à chaque étape, permettant aux chercheurs de forker le modèle ou d’expérimenter au moment voulu
  • Grâce à Dolma 3 (environ 9,3 billions de tokens) et au dataset Dolci, la transparence des données est assurée sur l’ensemble du processus d’entraînement
    • Avec notamment Dolma 3 Mix (6 billions de tokens), Dolmino (100B tokens) et Longmino (50B tokens)
    • Dolci fournit des mélanges de données distincts pour chaque étape : SFT, DPO et RLVR

Infrastructure d’entraînement efficace

  • Entraînement sur jusqu’à 1 024 GPU H100, avec un débit de 7,7K tokens/s pour le modèle 7B
  • Des techniques comme in-flight weight updates, continuous batching et des améliorations du threading permettent un apprentissage RL 4 fois plus efficace
  • Le modèle 32B d’Olmo 3 est positionné comme un point d’équilibre entre performances et accessibilité, afin que les chercheurs puissent le fine-tuner eux-mêmes

Transparence et écosystème d’outils

  • OlmoTrace permet de suivre visuellement le lien entre les sorties du modèle et les données d’entraînement
  • Tous les datasets et toute la toolchain sont publiés en open source
    • Sont notamment inclus Olmo-core (framework d’entraînement distribué), Open Instruct (pipeline de post-entraînement), datamap-rs (nettoyage des données), duplodocus (déduplication) et OLMES (toolkit d’évaluation)
  • Les chercheurs peuvent analyser les étapes intermédiaires de raisonnement du modèle et les points d’échec afin de comprendre les causes de son comportement

Usages et portée

  • Olmo 3 soutient la construction de systèmes d’IA fiables pour la recherche, l’enseignement et le développement applicatif
  • Le fait que toutes les étapes du modèle soient publiques favorise la reproductibilité, la vérifiabilité et la recherche collaborative
  • Ai2 affirme que « la véritable IA open source ne signifie pas seulement l’accès, mais aussi la confiance, la responsabilité et le progrès collectif »
  • Grâce à une transparence totale, Olmo 3 propose un nouveau paradigme de recherche ouverte dans lequel chacun peut comprendre et améliorer l’intérieur de l’IA

1 commentaires

 
GN⁺ 2025-11-22
Commentaires Hacker News
  • À mon avis, l’avenir de l’IA passe par des systèmes dont les étapes de raisonnement sont entièrement traçables
    Sans cette transparence, le grand public n’aura aucun moyen de comprendre ou de contrôler les grands systèmes basés sur des LLM
    Au final, il y a un risque que les Big Tech, des autoritaires, ou l’IA elle-même agissent à leur guise
    • C’est intéressant de voir que beaucoup de gens veulent faire disparaître cette approche elle-même
    • Il faudrait au minimum savoir quelles données d’entraînement chaque modèle a utilisées
      Je pense qu’il faudrait une structure où un organisme tiers réalise des audits et fournit des rapports de transparence
    • La transparence, c’est bien, mais rendre les réponses ajustables représente un gros défi de UI/UX
      J’espère que ce type d’essai continuera à être répété
  • Le terme « open source AI » donne déjà l’impression d’avoir été déformé par le marketing
    Appeler cela open source simplement parce que les poids sont publiés est une mauvaise pratique
    Un vrai modèle open source aurait besoin d’un nouveau nom, comme « modèle transparent »
  • J’ai demandé si les girafes étaient casher (kosher), et le modèle a répondu « non »
    Pourtant, selon mon interprétation et la loi talmudique, la girafe est permise, et GPT5.1 était d’accord avec mon interprétation
    • C’est étrange qu’un modèle mémorise ce genre de détails religieux
      Ce type d’information devrait être récupéré via une recherche de type RAG
      Un modèle qui répondrait « je ne sais pas » serait probablement plus utile
    • Je me demande combien de fois cela a été retenté, et comment les valeurs de temperature et top_p ont été réglées
    • En réalité, il est intéressant de voir que ce type de question ne peut plus vraiment servir de référence du bien public
  • Ces derniers temps, je transfère mon workflow principal d’OpenAI vers des modèles locaux
    Les petits modèles ont tendance à forcer le traitement des cas limites
    Donc, si on leur crée une sortie « edge_case », ils fonctionnent bien mieux
    J’aimerais qu’il existe un dépôt central qui rassemble ce genre d’astuces de prompt hacking
    • Je me demande si « edge_case » est la clé (key) d’un schéma de sortie structuré
    • Je me demande si tu utilises un frontend comme Open WebUI ou LibreChat, ou si tu appelles le modèle directement
  • J’ai cliqué sur « Show OlmoTrace » dans AllenAI Playground
    Il est censé montrer les documents de données d’entraînement correspondant à la réponse du modèle
    Mais en pratique, cela semble se limiter à de simples correspondances de N-gram, donc difficile d’y voir une vraie traçabilité
    Il arrivait aussi que les résultats proviennent de documents sans rapport avec la question
    Explication de N-gram
    • En tant que chercheur sur Olmo, je dirais que le but d’OlmoTrace n’est pas d’attribuer une réponse à un document précis
      Il s’agit plutôt de montrer quels fragments de données d’entraînement ont influencé le modèle
      Par exemple, cela permet de retracer pourquoi plusieurs modèles répètent la même blague ou le même nombre
  • Je pense que la gamme idéale de tailles de modèles est composée de 7B, 20B et 32B
    Le 7B convient à un GPU de 8 Go, le 32B à un GPU de 24 Go, et un modèle autour de 20B rentre parfaitement sur un GPU de 16 Go
    • Bien sûr, cela dépend de l’architecture
      Des expérimentations sont toujours en cours pour trouver la taille optimale
      Personnellement, j’aimerais voir apparaître de la VRAM extensible sur les GPU
  • J’ai demandé au modèle 7B « hi, who are u », et il s’est arrêté après avoir analysé la phrase en interne
    Cela ressemble probablement à un bug OpenWebUI
    • À chaque sortie d’un nouveau modèle, on voit souvent des tests effectués avec des logiciels qui ne le prennent pas en charge
      C’était déjà le cas avec GPT-OSS, et on dirait que la même situation se reproduit avec OLMo
    • Je viens d’essayer moi-même sur le playground
      Le 7B répond « Hi! I'm Olmo 3… », et le 32B répond « Hi! I'm Olmo… »
    • Je suis chercheur dans l’équipe post-training d’Ai2, et je me demande où tu l’as testé
    • Ça me rappelle la blague sur l’analyse excessive de « good morning »
      Au final, on a l’impression qu’un simple salut se termine en interprétation philosophique
    • Je te conseille de vérifier s’il n’y a pas une limite sur les completion tokens
  • J’ai regardé le dataset Dolma3 sur Hugging Face
    J’ai été surpris d’y voir dès la première ligne du texte provenant de sites pour adultes
    • Il est très probable qu’il soit encore à une étape avant curation
      Pour publier tout le pipeline, il faut aussi inclure ce type de données
      Cela dit, il aurait peut-être fallu ajuster l’aperçu pour que ce genre de contenu ne saute pas immédiatement aux yeux
    • De toute façon, la fiction érotique fait aussi partie des principaux cas d’usage de ce type de modèles
  • Je me demande quelles sont les utilisations concrètes des petits modèles
    La plupart semblent destinés à l’inférence on-device, mais y a-t-il d’autres cas ?
    • En tant que chercheur chez Ai2, je dirais que le 7B est un modèle local pour GPU grand public, tandis que le 32B se prête à une plus grande variété d’applications
      Beaucoup d’entreprises qui utilisent des modèles fine-tunés de Qwen 3 pourraient passer à Olmo 32B
    • Notre équipe fine-tune des modèles 7B comme classifieurs spécialisés par domaine
      Les performances étaient meilleures que celles de petits modèles non LLM
    • Je garde en permanence Qwen3-30B-VL chargé en VRAM
      Il est plus rapide qu’une simple recherche Google et gère aussi les commandes terminal, la navigation dans les fichiers et la prise de notes
      Grâce à sa vitesse (90tok/s) et à sa faible latence, je peux traiter bien plus efficacement les petites tâches
      À l’inverse, Sonnet 4.5 est lent et subtilement erroné, donc inefficace en usage réel
  • Qwen3-30B-VL est presque parfait pour un usage quotidien
    Il est rapide (90tok/s) et couvre la plupart des tâches
    Ce type de recherche est important, mais les modèles denses (dense) auront du mal à atteindre cette vitesse
    • En tant que développeur d’Olmo, je dirais que les modèles Qwen sont rapides grâce à leur architecture MoE
      Nous prévoyons d’introduire aussi du MoE dans la prochaine version d’Olmo
    • Je l’ai essayé sur un nouveau MacBook et c’était lent, mais en revanche Qwen2.5:14B donnait un retour immédiat
      Il était même capable de converser naturellement en espéranto
    • Je me demande si le fait que Qwen3-30B-VL soit plus « intelligent » vient davantage de différences d’architecture que de sa simple taille