- Au cours des 5 dernières années, chaque entreprise a augmenté de façon compétitive la taille de la fenêtre de contexte, de 2K à 2M
- Cependant, beaucoup soulignent que la taille de fenêtre de contexte annoncée et la taille réellement exploitable par le modèle sont différentes
- Lorsqu’on compare les performances réelles de grands modèles comme Gemini 2.5 Pro, GPT-5, Claude, Qwen, Llama, on constate de nombreux écarts importants par rapport aux promesses marketing
- Une vision sceptique — « les grands contextes ont du sens, mais en pratique cela ne fonctionne correctement qu’autour de 4–8k » — s’oppose à des retours positifs affirmant qu’un usage réel jusqu’à plusieurs centaines de milliers de tokens est possible
Points clés
-
1. Taille de contexte réellement exploitable
- En usage réel, la chronologie est 1k→2k→4k→8k→8k→8k→32k→40k, avec uniquement Gemini 2.5 Pro capable d’aller jusqu’à 80k
- Le périmètre d’usage réellement pratique reste encore limité à 4–8k
- « La taille indiquée sur l’étiquette ne veut rien dire, c’est la longueur de contexte utilisable qui compte »
- Le décalage entre la taille déclarée et la taille réellement utilisable est reconnu
-
2. Performances de Gemini
- Gemini 2.5 Pro reste stable jusqu’à 250k, 500k est aussi exploitable, et à 800k il répond encore mais avec une précision en baisse
- Jusqu’à 200k, la dégradation est très lente, et Gemini reste ensuite le meilleur
- Gemini n’utilise pas une extension de RoPE mais une architecture propriétaire, notamment du sequence sharding ; certaines couches effectuent une attention dense sur l’ensemble des tokens
-
3. Évaluation de GPT-5
- GPT-5-thinking fonctionne bien même au-delà de 200k
- Il est très précis jusqu’à 100k, mais ses performances se dégradent plus vite que celles de Gemini
-
4. Évaluation de Claude
- Avis largement partagé : Claude est fragile lorsqu’il faut maintenir un grand contexte
- Il se trompe sur les détails, l’ordre des événements, les noms de méthodes, ou produit des hallucinations
- Claude Sonnet 4 a des problèmes de mémoire même à 4k, et fait moins bien que Qwen 32b
- « Claude est vraiment mauvais, je suis passé à Qwen »
-
5. Qwen, Mistral, Gemma, etc.
- Mistral Large et Gemma3 27B semblent corrects à 32k
- Gemma3 est jugé parmi les pires ; il est recommandé de consulter le benchmark Fiction.live
-
6. Série Llama
- Llama 4 Scout affirme prendre en charge 10 millions de tokens
- En pratique, la plage réellement exploitable est bien plus petite. Lors d’un test de contexte à 0.5M, il n’a résumé que le dernier document, ce qui le rend aussi inadapté aux grandes codebases
-
7. Retours détaillés selon les modèles
- « La cohérence (coherence) ≠ l’utilisabilité réelle » : même Gemini 2.5 Pro a du mal à suivre le contexte dans des résumés de romans de 10–20k
- Gemini 1.5 Pro est jugé plus faible sur d’autres aspects, mais meilleur que 2.5 Pro pour l’interprétation de longs contextes
- Les outils de code de type agent ont des prompts système de plus de 20k ; l’affirmation selon laquelle seuls 4–8k seraient utilisables est donc fausse. En revanche, le contexte du début reste le plus stable
Divers
- Partage d’outils/ressources :
- Outil de création de graphiques animés : Remotion
- Ressource sur la dégradation des performances : LoCoDiff-bench
Conclusion
- Consensus général : pour chaque modèle, il existe un écart important entre les « spécifications officielles » et les performances réelles en usage
- Gemini : globalement considéré comme le plus stable et puissant même avec de très grands contextes
- GPT-5 : excellent jusqu’à un niveau intermédiaire, mais sa dégradation commence plus tôt que celle de Gemini
- Claude : reçoit l’évaluation la plus faible pour l’exploitation des longs contextes
- Llama/Gemma : l’utilisabilité réelle reste insuffisante au regard des spécifications annoncées
3 commentaires
Honnêtement, je n’ai pas vraiment ressenti un écart écrasant comme le laissent entendre les benchmarks.
À l’usage, j’ai plutôt l’impression que c’est juste « un peu mieux », sans différence vraiment flagrante.
Au contraire, comme les performances des modèles se sont globalement nivelées vers le haut, j’ai aussi l’impression que les gens les comparent de manière plus stricte haha.
Au final, je pense que l’essentiel dépend du contexte d’utilisation.
Gemini a une fenêtre de contexte tellement grande qu’il semble bien adapté aux bases de code volumineuses ou au maintien d’un long contexte, tandis que Claude a pour point fort une précision de codage stable ; il suffit donc de choisir selon l’usage.
Y a-t-il un modèle qui, en usage réel plutôt qu’à travers des scores de benchmark en IA, offre de meilleures performances en programmation que Claude ?
Claude a certes des points faibles avec les longs contextes, mais j’ai l’impression que c’est celui qui code le mieux.