Rapport sur l’état de l’IA d’OpenRouter : étude empirique sur 100 billions de tokens

(openrouter.ai)

7 points par GN⁺ 2025-12-29 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Étude à grande échelle analysant plus de 100 billions de tokens de données réelles d’usage des LLM, retraçant le basculement fondamental des modes de raisonnement de l’IA depuis la sortie du modèle de raisonnement o1 en décembre 2024
Les modèles open source ont progressé jusqu’à représenter environ 30 % de l’usage total, avec une hausse rapide de la part de marché de modèles open source chinois comme DeepSeek V3 et Kimi K2
Le roleplay et la programmation constituent les deux grands axes d’usage des LLM, plus de la moitié de l’usage des modèles open source étant concentrée sur le roleplay, un résultat en contradiction avec l’hypothèse d’un usage centré sur la productivité
Les modèles de raisonnement traitent plus de 50 % de l’ensemble des tokens, tandis que le raisonnement agentique s’impose comme un nouveau schéma par défaut, avec une hausse des appels d’outils et des tâches en plusieurs étapes
Un effet de « chaussure de verre » a été observé, les premiers utilisateurs affichant à long terme un fort taux de rétention, ce qui suggère que l’adéquation entre modèle et charge de travail constitue un avantage concurrentiel clé

Vue d’ensemble de l’étude et méthodologie

OpenRouter est une plateforme d’inférence IA multimodèle prenant en charge plus de 300 modèles et plus de 60 fournisseurs, au service de millions de développeurs et d’utilisateurs finaux dans le monde
Le jeu de données analysé est composé d’environ deux ans de métadonnées anonymisées au niveau des requêtes, sans accès aux prompts ni aux textes générés eux-mêmes
Toutes les analyses ont été réalisées via la plateforme analytique Hex, avec des requêtes SQL reproductibles, des transformations et des pipelines de visualisation
La classification des contenus a été effectuée via GoogleTagClassifier sur un échantillon aléatoire d’environ 0,25 % de l’ensemble des prompts, classés dans des catégories comme programmation, roleplay, traduction, Q&A général, productivité/rédaction, éducation, littérature/création et adulte
L’analyse régionale détermine la zone utilisateur à partir de la localisation de facturation (billing location), utilisée comme proxy plus stable que l’IP
La période d’analyse couvre principalement 13 mois, de novembre 2024 à novembre 2025, et l’analyse de classification par catégories repose sur les données postérieures à mai 2025

Open source vs modèles fermés

Les modèles open source (OSS) sont définis comme des modèles dont les poids sont publiés, tandis que les modèles fermés ne sont accessibles que via des API restreintes (ex. : Anthropic Claude)
La part des modèles open source a augmenté régulièrement pour atteindre environ 30 % fin 2025, en lien avec les lancements de grands modèles open source comme DeepSeek V3 et Kimi K2
Les modèles développés en Chine sont passés d’une part hebdomadaire de 1,2 % fin 2024 à près de 30 % sur certaines semaines, avec une moyenne annuelle d’environ 13,0 %
- Qwen et DeepSeek ont mené cette progression grâce à des itérations rapides et à un rythme dense de sorties
Les modèles fermés continuent toutefois de définir le plafond de fiabilité et de performance, et gardent l’avantage dans les environnements réglementés ou les charges de travail d’entreprise
Les modèles OSS restent attractifs en matière de coût, transparence et personnalisation, avec un point d’équilibre qui semble aujourd’hui se former autour de 30 %
Les deux types de modèles ne sont pas mutuellement exclusifs et sont utilisés de manière complémentaire dans des stacks multimodèles
Principaux acteurs de l’open source
- DeepSeek est le plus gros contributeur côté OSS avec un total de 14,37 billions de tokens, même si de nouveaux entrants gagnent rapidement des parts
- Qwen (5,59 billions), Meta LLaMA (3,96 billions) et Mistral AI (2,92 billions) complètent le haut du classement
- Après le Summer Inflection de la mi-2025, la structure du marché est passée d’une situation quasi monopolistique à un paysage plus diversifié
  - Kimi K2 de MoonshotAI, la série GPT-OSS d’OpenAI et MiniMax M2 ont atteint une adoption de niveau production en quelques semaines
- Fin 2025, aucun modèle unique ne dépasse 25 % des tokens OSS, la part de marché étant répartie entre 5 à 7 modèles
- L’écosystème OSS constitue un environnement concurrentiel extrêmement dynamique, avec un cycle d’innovation rapide et un leadership jamais garanti
Taille des modèles vs adéquation au marché : le moyen format est le nouveau petit
- Classification par taille : petit (moins de 15B), moyen (15B à 70B), grand (plus de 70B)
- Les petits modèles voient globalement leur part reculer, avec une baisse de l’usage malgré l’arrivée de nouveaux modèles
- Les modèles de taille moyenne ont réellement formé une catégorie avec le lancement de Qwen2.5 Coder 32B en novembre 2024
  - Mistral Small 3 (janvier 2025) et GPT-OSS 20B (août 2025) se sont imposés comme de sérieux concurrents
  - Cela suggère que les utilisateurs recherchent un équilibre entre capacités et efficacité
- Le segment des grands modèles s’est lui aussi diversifié avec plusieurs concurrents très performants, comme Qwen3 235B A22B Instruct, Z.AI GLM 4.5 Air et OpenAI GPT-OSS-120B
- L’ère de domination des petits modèles est terminée et le marché tend désormais vers une bipolarisation entre modèles moyens et grands modèles
Usages des modèles open source
- Les principaux usages des modèles OSS sont le roleplay (environ 52 %) et la programmation, ces deux catégories représentant l’essentiel de la consommation de tokens OSS
- Le fait que le roleplay dépasse 50 % reflète que les modèles ouverts sont moins contraints par les filtres de contenu, ce qui les rend attractifs pour les applications de fantasy ou de divertissement
- Pour les modèles OSS chinois, le roleplay est la catégorie la plus importante avec environ 33 %, mais la programmation et les usages techniques combinés représentent 39 %, soit la majorité
  - Qwen et DeepSeek sont de plus en plus utilisés pour la génération de code et les charges de travail liées à l’infrastructure
- Dans la catégorie programmation, la part au sein de l’OSS évolue de manière dynamique entre OSS chinois et OSS occidentaux
  - À la mi-2025, les OSS chinois dominaient, mais au T4, les OSS occidentaux comme Meta LLaMA-2 Code et la série GPT-OSS d’OpenAI ont fortement progressé
- Fin 2025, le trafic roleplay est réparti presque à parts égales entre OSS du reste du monde (43 %) et modèles fermés (42 %), un changement marqué par rapport à la domination initiale de 70 % des modèles fermés

L’essor du raisonnement agentique

Les modèles de raisonnement représentent plus de la moitié de l’usage total
- La part de tokens traités par des modèles optimisés pour le raisonnement est passée d’un niveau marginal début 2025 à plus de 50 %
- Cette évolution a été portée par le lancement de systèmes très performants comme GPT-5, Claude 4.5 et Gemini 3, ainsi que par la préférence croissante des utilisateurs pour la logique en plusieurs étapes et les workflows de style agent
- D’après les données les plus récentes, xAI Grok Code Fast 1 détient la plus grande part du trafic de raisonnement, suivi par Google Gemini 2.5 Pro/Flash
- Le modèle ouvert OpenAI gpt-oss-120b conserve lui aussi une part significative, signe que les développeurs privilégient l’OSS quand c’est possible
Hausse de l’adoption des appels d’outils
- La part des tokens des requêtes classées avec la raison de terminaison Tool Call suit une tendance haussière continue
- Les appels d’outils étaient d’abord concentrés sur OpenAI gpt-4o-mini et les séries Anthropic Claude 3.5/3.7, mais davantage de modèles ont commencé à prendre en charge les outils à partir de la mi-2025
- Depuis fin septembre 2025, Claude 4.5 Sonnet a rapidement gagné des parts, tandis que Grok Code Fast et GLM 4.5 se sont également imposés
Évolution de la forme prompt-réponse
- Le nombre moyen de tokens de prompt est passé d’environ 1,5K à plus de 6K, soit une multiplication par quatre
- Le nombre moyen de tokens de complétion est lui aussi presque triplé, passant d’environ 150 à 400, principalement en raison de l’augmentation des tokens de raisonnement
- Les tâches liées à la programmation constituent le principal moteur de la hausse des tokens de prompt, avec un usage fréquent d’entrées dépassant 20K tokens
- Les autres catégories restent relativement stables et à faible volume
Des séquences plus longues, des interactions plus complexes
- La longueur moyenne des séquences est passée de moins de 2 000 tokens à plus de 5 400 tokens sur les 20 derniers mois, soit une hausse de plus de trois fois
- Les prompts liés à la programmation affichent en moyenne une longueur de tokens 3 à 4 fois supérieure à celle des prompts généralistes
- Les longues séquences ne reflètent pas une plus grande verbosité des utilisateurs, mais la caractéristique de workflows agentiques sophistiqués intégrés
Implications : le raisonnement agentique devient le nouveau standard
- La hausse de la part du raisonnement, l’extension de l’usage des outils, l’allongement des séquences et la complexification de la programmation indiquent un déplacement du centre de gravité de l’usage des LLM
- Une requête LLM moyenne n’est plus une simple question ou une instruction isolée, mais une partie d’une boucle structurée de type agent
- Pour les fournisseurs de modèles, la latence, la gestion des outils, le support du contexte et la robustesse face aux chaînes d’outils malveillantes deviennent de plus en plus importants
- Bientôt — sinon déjà —, le raisonnement agentique devrait représenter la majorité du raisonnement

Catégorie : comment les gens utilisent les LLM ?

Catégorie dominante
- La programmation est la catégorie qui progresse le plus régulièrement, passant d’environ 11 % au début de 2025 à plus de 50 % récemment
- La série Claude d’Anthropic capte de façon continue plus de 60 % des dépenses liées à la programmation
  - Pour la première fois, cette part est passée sous les 60 % durant la semaine du 17 novembre
- OpenAI a élargi sa part d’environ 2 % à 8 % depuis juillet, tandis que Google reste stable autour de 15 %
- MiniMax se distingue comme un nouvel entrant en forte progression
Composition des tags au sein des catégories
- Jeu de rôle : environ 60 % relèvent de Games/Roleplaying Games, ce qui indique un usage davantage orienté vers du roleplay structuré ou des moteurs de personnages que vers des chatbots casual
  - Cela inclut aussi Writers Resources (15,6 %) et les contenus Adult (15,4 %)
- Programmation : plus des 2/3 sont étiquetés Programming/Other, ce qui reflète la nature large et généraliste des prompts liés au code
  - Development Tools (26,4 %) et la faible part des langages de script signalent une spécialisation émergente
- Traduction, science, santé présentent des structures internes relativement homogènes
  - Traduction : répartition presque équilibrée entre Foreign Language Resources (51,1 %) et Other
  - Science : Machine Learning & AI (80,4 %) domine, avec principalement des questions méta sur l’IA
  - Santé : catégorie la plus fragmentée, aucun sous-tag unique ne dépassant 25 %
- Finance, université, droit sont beaucoup plus dispersés, aucun tag unique n’y représentant 20 %
Enseignements par fournisseur
- Anthropic Claude : les usages programmation + techniques dépassent 80 %, avec un peu de roleplay et de Q&A généralistes
- Google : répartition variée entre traduction, science, technique, culture générale, etc., tandis que la part du coding recule à environ 18 % fin 2025
- xAI : la programmation dépasse 80 % pendant la majeure partie de la période, avec une diversification vers les usages techniques, le roleplay et l’universitaire seulement fin novembre
  - Cela est lié à l’arrivée de trafic non développeur due à la distribution gratuite
- OpenAI : au début de 2025, les tâches scientifiques représentaient plus de la moitié des usages, mais elles tombent sous les 15 % en fin d’année
  - Les usages liés à la programmation et à la technique atteignent chacun 29 %, soit plus de la moitié au total
- DeepSeek : le roleplay, les chats casual et les interactions orientées divertissement dominent à plus des 2/3
- Qwen : la programmation reste constamment entre 40 et 60 % sur toute la période, avec une forte volatilité hebdomadaire en science, technique, roleplay, etc.

Région : en quoi l’usage des LLM diffère-t-il selon les régions ?

Répartition de l’usage par région
- L’Amérique du Nord est la première région prise isolément, mais représente moins de la moitié des dépenses totales sur la majeure partie de la période observée
- L’Europe conserve de façon stable une part hebdomadaire des dépenses située entre 10 et 20 %
- L’Asie émerge non seulement comme productrice de modèles de frontier, mais aussi comme consommatrice en forte expansion
  - Sa part passe d’environ 13 % au début du dataset à environ 31 % récemment, soit plus du double
- Répartition par continent : Amérique du Nord 47,22 %, Asie 28,61 %, Europe 21,32 %, Océanie 1,18 %, Amérique du Sud 1,21 %, Afrique 0,46 %
- Top 10 des pays : États-Unis (47,17 %), Singapour (9,21 %), Allemagne (7,51 %), Chine (6,01 %), Corée du Sud (2,88 %), Pays-Bas (2,65 %), Royaume-Uni (2,52 %), Canada (1,90 %), Japon (1,77 %), Inde (1,62 %)
Répartition par langue
- L’anglais domine avec 82,87 %
- Chinois simplifié (4,95 %), russe (2,47 %), espagnol (1,43 %), thaï (1,03 %), autres (7,25 %)

Analyse de la rétention des utilisateurs de LLM

Le phénomène de la « pantoufle de verre » de Cendrillon
- La plupart des courbes de rétention sont dominées par un fort churn et une baisse rapide des cohortes, mais les cohortes d’utilisateurs précoces affichent une rétention durable au fil du temps
- Ces cohortes fondatrices (foundational cohorts) représentent des utilisateurs ayant atteint une adéquation charge de travail-modèle profonde et durable
- Effet pantoufle de verre : dans un écosystème IA en évolution rapide, chaque nouveau modèle de frontier est « essayé » sur des charges de travail à forte valeur auparavant non satisfaites, et lorsqu’il correspond précisément aux contraintes techniques et économiques, il produit un fort effet de verrouillage
- La cohorte de juin 2025 de Gemini 2.5 Pro et la cohorte de mai de Claude 4 Sonnet affichent un taux de rétention d’environ 40 % au cinquième mois, nettement supérieur à celui des cohortes suivantes
- GPT-4o Mini : une seule cohorte fondatrice (juillet 2024) a établi dès son lancement une adéquation charge de travail-modèle dominante et très solide, puis toutes les cohortes suivantes ont connu le même décrochage
- Gemini 2.0 Flash, Llama 4 Maverick : aucune cohorte fondatrice très performante ne s’est formée, toutes les cohortes restant uniformément faibles, ces modèles n’étant pas perçus comme des modèles « frontier »
- Effet boomerang des modèles DeepSeek : au lieu d’une baisse monotone habituelle, on observe des rebonds de résurrection
  - La cohorte d’avril 2025 de DeepSeek R1 voit sa rétention remonter au troisième mois, et celle de juillet de DeepSeek Chat V3-0324 au deuxième mois
  - Cela reflète des utilisateurs qui reviennent après avoir essayé des alternatives
Implications
- Être le premier à résoudre un problème devient un avantage durable
- Les schémas de rétention au niveau des cohortes constituent un signal empirique de différenciation des modèles
- Contrainte temporelle de la fenêtre frontier : la fenêtre durant laquelle un modèle peut capter des utilisateurs fondateurs est étroite et temporaire, mais décisive pour la dynamique d’adoption de long terme
- Les cohortes fondatrices sont l’empreinte d’un véritable progrès technique et le point où un modèle d’IA passe du stade de nouveauté à celui d’outil indispensable

Dynamique coût vs usage

Analyse de segmentation des charges de travail IA par catégorie
- Construction d’un cadre en quatre quadrants à partir d’un coût médian de 0,73 $/1M tokens
- Charges de travail premium (en haut à droite) : applications à coût élevé et usage élevé, incluant technology et science
  - technology est la plus coûteuse tout en conservant un volume d’usage élevé, ce qui suggère un besoin de modèles puissants pour la conception de systèmes complexes ou l’architecture
- Moteurs de volume grand public (en haut à gauche) : usage élevé et faible coût, dominés par roleplay, programming, science
  - programming est la catégorie « killer professional », combinant le plus fort volume d’usage et un coût intermédiaire fortement optimisé
  - Le volume d’usage de roleplay est comparable à celui de programming, ce qui montre que le roleplay orienté grand public suscite autant d’engagement que les usages professionnels les plus avancés
- Spécialistes experts (en bas à droite) : faible volume et coût élevé, incluant finance, academia, health, marketing
  - Il s’agit de domaines de niche à fort enjeu, où la demande en précision, fiabilité et savoir spécialisé est élevée
- Utilitaires de niche (en bas à gauche) : faible coût et faible volume, incluant translation, legal, trivia
  - Des utilitaires fonctionnels et optimisés en coût, devenus commoditisés avec des alternatives bon marché disponibles
Coût effectif des modèles d’IA vs usage
- En échelle log-log, la corrélation entre prix et volume d’usage est faible, avec une ligne de tendance presque plate
- La demande est relativement inélastique au prix : une baisse de prix de 10 % n’entraîne qu’une hausse d’environ 0,5 à 0,7 % de l’usage
- Deux régimes distincts apparaissent : les modèles fermés (OpenAI, Anthropic) occupent la zone coût élevé-usage élevé, tandis que les modèles ouverts (DeepSeek, Mistral, Qwen) se situent dans la zone faible coût-fort volume
- 4 archétypes usage-coût :
  - Leaders premium : Claude 3.7 Sonnet, Claude Sonnet 4, etc., atteignent un usage élevé autour de 2 $/1M tokens
  - Géants efficaces : Gemini 2.0 Flash, DeepSeek V3 0324, etc., atteignent un usage comparable à moins de 0,40 $/1M tokens
  - Long tail : Qwen 2 7B Instruct, IBM Granite 4.0 Micro, etc., coûtent quelques centimes/1M tokens mais affichent un faible usage en raison de performances limitées ou d’une visibilité réduite
  - Spécialistes premium : GPT-4, GPT-5 Pro, etc., autour de 35 $/1M tokens, à faible usage, réservés aux charges de travail à fort enjeu
- Preuve du paradoxe de Jevons : des modèles très bon marché et rapides sont utilisés pour davantage de tâches, ce qui accroît la consommation totale de tokens
- La qualité et les capacités l’emportent souvent sur le coût : le niveau d’usage élevé des modèles chers (Claude, GPT-4) montre que les utilisateurs acceptent un coût supérieur lorsque le modèle est nettement meilleur ou bénéficie d’un avantage de confiance

Discussion

Écosystème multi‑modèle : aucun modèle unique ne domine tous les usages, et les modèles fermés comme open source conservent tous deux des parts significatives
Une diversité d’usages au‑delà de la productivité : plus de la moitié de l’usage des modèles open source concerne le jeu de rôle et le storytelling
- Cela met en lumière des opportunités autour des applications orientées grand public, de la personnalisation et des passerelles entre l’IA et les licences de divertissement
Agents vs humains : l’essor du raisonnement agentique : passage des interactions en un seul tour au raisonnement agentique, où les modèles planifient, raisonnent et exécutent sur plusieurs étapes
Perspectives régionales : l’usage des LLM devient de plus en plus global et décentralisé, la part de l’Asie passant de 13 % à 31 %, tandis que la Chine émerge comme une force majeure
Dynamique coût vs usage : le marché des LLM n’est pas encore une commodité ; le prix seul n’explique pas les volumes d’usage
- Les modèles open source continuent de repousser la frontière d’efficacité, comprimant le pouvoir de fixation des prix des systèmes fermés
Rétention et phénomène de la pantoufle de verre de Cendrillon : lorsque les modèles de base franchissent un cap, le taux de rétention devient le véritable indicateur de défendabilité
- L’adéquation modèle‑charge de travail constitue le principal avantage concurrentiel

Limites

Les schémas observés sur une seule plateforme (OpenRouter) et sur une fenêtre temporelle limitée n’offrent qu’une vision partielle d’un écosystème plus vaste
Les usages en entreprise, les déploiements en hébergement local et les systèmes internes fermés sont hors du périmètre des données
Une partie de l’analyse repose sur des mesures indirectes : identification du raisonnement agentique via les appels d’outils ou les processus en plusieurs étapes, inférence géographique basée sur la facturation, etc.
Les résultats doivent être interprétés comme des schémas comportementaux indicatifs plutôt que comme des mesures définitives

Conclusion

L’étude apporte une perspective empirique sur la manière dont les LLM s’intègrent à l’infrastructure informatique mondiale
L’apparition, l’an dernier, de modèles de niveau o1 a déclenché un changement par paliers dans la perception du raisonnement, déplaçant l’évaluation au‑delà des benchmarks en un seul shot vers des métriques fondées sur les processus, les arbitrages latence‑coût et la réussite sous orchestration
L’écosystème des LLM est structurellement pluraliste, les utilisateurs choisissant les systèmes selon plusieurs axes comme les capacités, la latence, le prix ou la confiance
Le raisonnement lui‑même évolue : de complétions statiques vers une orchestration dynamique, avec la montée du raisonnement agentique
À l’échelle régionale, l’écosystème est plus décentralisé, avec une progression de la part de l’Asie et l’émergence de la Chine comme développeur et exportateur de modèles
o1 ne met pas fin à la concurrence, mais élargit l’espace de conception, en faisant évoluer l’approche depuis les paris monolithiques vers la pensée systémique, depuis l’intuition vers l’instrumentation, et depuis les écarts de leaderboard vers l’analyse empirique des usages
La prochaine étape consiste à se concentrer sur l’excellence opérationnelle : mesurer l’achèvement réel des tâches, réduire la variance face aux changements de distribution, et aligner le comportement des modèles sur les exigences réelles des charges de travail à l’échelle de la production

Rapport sur l’état de l’IA d’OpenRouter : étude empirique sur 100 billions de tokens

Vue d’ensemble de l’étude et méthodologie

Open source vs modèles fermés

Principaux acteurs de l’open source

Taille des modèles vs adéquation au marché : le moyen format est le nouveau petit

Usages des modèles open source

L’essor du raisonnement agentique

Les modèles de raisonnement représentent plus de la moitié de l’usage total

Hausse de l’adoption des appels d’outils

Évolution de la forme prompt-réponse

Des séquences plus longues, des interactions plus complexes

Implications : le raisonnement agentique devient le nouveau standard

Catégorie : comment les gens utilisent les LLM ?

Catégorie dominante

Composition des tags au sein des catégories

Enseignements par fournisseur

Région : en quoi l’usage des LLM diffère-t-il selon les régions ?

Répartition de l’usage par région

Répartition par langue

Analyse de la rétention des utilisateurs de LLM

Le phénomène de la « pantoufle de verre » de Cendrillon

Implications

Dynamique coût vs usage

Analyse de segmentation des charges de travail IA par catégorie

Coût effectif des modèles d’IA vs usage

Discussion

Limites

Conclusion

À lire aussi

Aucun commentaire pour le moment.