Ce que j’ai appris sur les LLM en 2024

(simonwillison.net)

22 points par GN⁺ 2025-01-01 | 1 commentaires | Partager sur WhatsApp

Résumé par Simon Willison de l’ensemble des évolutions liées aux LLM en 2024

Dépassement complet des limites de GPT-4
Certains modèles de niveau GPT-4 tournent sur mon ordinateur portable
Effondrement des prix des LLM, un changement porté par la concurrence et l’efficacité
Généralisation de la vision multimodale, avec l’arrivée nouvelle de l’audio et de la vidéo
Voix et mode caméra en direct, de la science-fiction devenue réalité
Génération d’apps à partir de prompts, une technologie déjà banalisée
Accès gratuit aux meilleurs modèles, interrompu après seulement quelques mois
Les « agents », un concept toujours pas concrétisé
L’importance des évaluations (evals)
Apple Intelligence est décevant, mais la bibliothèque MLX est excellente
Mise à l’échelle de l’inférence et montée des modèles de « reasoning »
Le meilleur LLM actuel a-t-il été entraîné en Chine pour moins de 6 millions de dollars ?
Amélioration de l’impact environnemental
Dégradation accrue de l’impact environnemental
2024, l’année du « slop »
Les effets surprenants des données d’apprentissage synthétiques
En 2024, utiliser les LLM est devenu plus difficile
Une répartition inégale des connaissances
Il faut de meilleures critiques des LLM

# Dépassement complet des limites de GPT-4

Situation en 2023 : GPT-4 était considéré comme le meilleur modèle de langage, et les autres laboratoires d’IA n’étaient pas parvenus à le dépasser. Les secrets techniques d’OpenAI attiraient beaucoup d’attention.
Évolution en 2024 : 18 organisations ont annoncé des modèles dépassant GPT-4. Le leaderboard actuel de Chatbot Arena référence désormais 70 modèles au-dessus de GPT-4-0314 (lancé en mars 2023).
Principaux modèles et avancées techniques
- Google Gemini 1.5 Pro : lancé en février 2024
  - Fournit une sortie au niveau de GPT-4 avec de nouvelles fonctionnalités
  - Prend en charge une fenêtre de contexte d’entrée de 1 million de tokens (puis 2 millions)
  - Introduit l’entrée vidéo
  - Peut résoudre des problèmes de code et analyser des livres entiers grâce au traitement de longues entrées
  - A fait l’objet d’une annonce importante lors de la keynote Google I/O 2024
- Série Anthropic Claude 3 :
  - Claude 3 Opus : lancé en mars 2024, remarqué pour ses hautes performances
  - Claude 3.5 Sonnet : lancé en juin, avec une version mise à jour annoncée le 22 octobre
  - Même après la mise à jour, le numéro de version est resté 3.5 ; les fans l’appellent Claude 3.6
Extension de la longueur de contexte
- 2023 : la plupart des modèles prenaient en charge 4 096 à 8 192 tokens. Claude 2.1 faisait exception avec 200 000 tokens
- 2024 : les principaux modèles prennent en charge plus de 100 000 tokens, et la série Google Gemini va jusqu’à 2 millions de tokens
- Cela permet de traiter de longues données d’entrée pour résoudre divers problèmes
- C’est avantageux pour analyser des livres entiers ou résoudre des problèmes à partir de code d’exemple
Modèles et organisations ayant dépassé GPT-4
- D’après le leaderboard de Chatbot Arena, les organisations disposant de modèles plus performants que GPT-4-0314 sont notamment :
  - Google, OpenAI, Anthropic, Meta, Nvidia, Amazon, Cohere, DeepSeek, Zhipu AI, xAI et 8 autres organisations
- Sur le leaderboard, GPT-4-0314 se situe désormais autour de la 70e place

# Certains modèles de niveau GPT-4 tournent sur mon ordinateur portable

Matériel utilisé : un MacBook Pro M2 avec 64 Go de RAM, sorti en 2023. C’est le même ordinateur portable, âgé d’environ deux ans, sur lequel j’avais fait tourner un LLM pour la première fois en mars 2023.
Évolution des performances : au départ, il faisait à peine tourner des modèles de niveau GPT-3 ; aujourd’hui, il peut aussi exécuter des modèles de niveau GPT-4.
- Qwen2.5-Coder-32B : en novembre 2024, modèle spécialisé dans le code sous licence Apache 2.0.
- Meta Llama 3.3 70B : modèle de niveau GPT-4 lancé en décembre 2024.
Pourquoi c’est important : il est remarquable que des modèles de niveau GPT-4 puissent fonctionner sur un ordinateur portable, et non plus uniquement sur des serveurs de datacenter équipés de GPU à plus de 40 000 dollars.
- Cela utilise quasiment toute la RAM de 64 Go, ce qui rend les autres tâches difficiles.
- C’est rendu possible par les gains d’efficacité des modèles. On peut y voir le résultat des optimisations réalisées au cours de l’année écoulée.
- Il reste probablement encore beaucoup de marge pour améliorer davantage l’efficacité.
Modèles Meta Llama 3.2 : ils ne sont pas de niveau GPT-4, mais les modèles 1B et 3B offrent des performances remarquables malgré leur petite taille.
- Llama 3.2 3B : peut être exécuté avec l’application iOS gratuite MLC Chat.
- Sa taille est inférieure à 2 Go, ce qui lui permet de tourner sur iPhone à une vitesse de 20 tokens par seconde.
- Exemple : à la demande d’un « synopsis de film de Noël Netflix dans lequel une journaliste de données tombe amoureuse d’un potier local », il génère une réponse basique mais appropriée.
  - Titre : « Love in the Clay »
  - Synopsis : l’histoire suit Jessica, qui retourne dans sa ville natale de Willow Creek pour enquêter sur l’histoire locale et l’impact de la gentrification.
- Le résultat reste ordinaire, mais le fait que ce type de tâche soit possible sur iPhone est intéressant.

# Effondrement des prix des LLM, un changement porté par la concurrence et l’efficacité

Prix à la fin de 2023 : les principaux modèles d’OpenAI étaient tarifés comme suit.
- GPT-4 : $30/million de tokens en entrée
- GPT-4 Turbo : $10/mTok
- GPT-3.5 Turbo : $1/mTok
Évolution des prix en 2024 :
- OpenAI o1 : $30/mTok, le modèle le plus cher
- GPT-4o : $2.50/mTok (12 fois moins cher que GPT-4)
- GPT-4o Mini : $0.15/mTok (environ 7 fois moins cher que GPT-3.5, avec de meilleures performances)
- Anthropic Claude 3 Haiku : $0.25/mTok (lancé en mars, le modèle le moins cher d’Anthropic)
- Google Gemini 1.5 Flash : $0.075/mTok
- Google Gemini 1.5 Flash 8B : $0.0375/mTok (27 fois moins cher que GPT-3.5 Turbo)
Facteurs de baisse des prix :
- Concurrence accrue : de nombreux fournisseurs de modèles sont entrés sur le marché, intensifiant la concurrence sur les prix.
- Amélioration de l’efficacité : l’optimisation de l’entraînement et de l’inférence des modèles a réduit la consommation d’énergie.
  - Les inquiétudes liées au coût énergétique d’un prompt individuel se sont atténuées.
Efficacité et coût environnemental :
- Les gains d’efficacité énergétique ont réduit les préoccupations environnementales.
- Mais l’impact environnemental de la construction des datacenters reste un problème.
Calcul du coût d’un usage réel :
- Calcul du coût de génération de descriptions pour une photothèque personnelle de 68 000 images à l’aide de Google Gemini 1.5 Flash 8B.
  - 260 tokens en entrée et 100 tokens en sortie sont nécessaires par photo.
  - Total : 17 680 000 tokens d’entrée * $0.0375/million = $0.66
  - Total : 6 800 000 tokens de sortie * $0.15/million = $1.02
  - Coût total : $1.68 pour traiter 68 000 photos.
Exemple de description :
- Photo : deux papillons se nourrissent sur un plateau rouge à la California Academy of Sciences.
- Description générée :
  - Une photo de deux papillons mangeant des fruits sur un plateau rouge.
  - Avec une description détaillée allant jusqu’aux couleurs et motifs des papillons.
- Coût : environ 0,0024 centime, soit moins d’un quatre-centième de centime.
L’un des plus grands changements de 2024 :
- La baisse des prix et la réduction du coût énergétique maximisent l’utilité des LLM.

# Généralisation de la vision multimodale, avec l’arrivée nouvelle de l’audio et de la vidéo

Tendances majeures de 2024 : les LLM multimodaux, capables de traiter divers types d’entrées au-delà du texte comme les images, l’audio et la vidéo, se sont généralisés.
- Exemples de 2023 :
  - OpenAI GPT-4 Vision : lancé lors de la DevDay de novembre 2023.
  - Google Gemini 1.0 : annoncé le 7 décembre 2023.
- Principaux lancements de 2024 :
  - Série Anthropic Claude 3 : lancée en mars.
  - Google Gemini 1.5 Pro : lancé en avril (prise en charge du traitement d’images, d’audio et de vidéo).
  - Qwen2-VL : lancé en septembre.
  - Mistral Pixtral 12B : lancé en septembre.
  - Meta Llama 3.2 : lancé en septembre (modèles de vision 11B et 90B).
  - Fonctionnalités d’entrée/sortie audio d’OpenAI : ajoutées en octobre.
  - Hugging Face SmolVLM : lancé en novembre.
  - Modèles d’image et de vidéo Amazon Nova : lancés en décembre.
Outils et prise en charge du multimodal :
- En octobre 2024, j’ai personnellement mis à niveau l’outil CLI LLM que j’utilise afin de prendre en charge les modèles multimodaux.
- Ajout de plugins capables de traiter des pièces jointes comme des images, de l’audio et de la vidéo.
L’importance des modèles multimodaux :
- Les critiques selon lesquelles les progrès des LLM auraient ralenti semblent négliger les avancées des modèles multimodaux.
- L’exécution de prompts exploitant des images, de l’audio et de la vidéo constitue une évolution passionnante qui ouvre de nouveaux usages.

# Mode vocal et caméra en direct, la science-fiction devenue réalité

L’arrivée des premiers modes vocaux :
- En septembre 2023, l’application mobile ChatGPT a ajouté une fonction de conversation vocale.
- Elle s’appuyait sur les modèles Whisper (Speech-to-Text) et tts-1 (Text-to-Speech), mais le modèle ne traitait en réalité que du texte.
Le mode vocal de GPT-4o :
- Dans le nouveau mode vocal annoncé le 13 mai 2024, le modèle GPT-4o devient véritablement multimodal, avec prise en charge de l’audio en entrée et sortie vocale naturelle.
- La démo utilisait une voix ressemblant à celle de Scarlett Johansson, mais après la controverse, cette voix n’a pas été incluse dans le produit commercial.
- Le retard du lancement du mode vocal a semé la confusion, mais il a finalement été déployé progressivement en août et septembre sous la forme du mode ChatGPT Advanced Voice.
  - Retour d’expérience : discuter en mode vocal pendant une promenade a nettement amélioré la qualité du contenu.
  - Des expérimentations avec l’API audio d’OpenAI ont permis de vérifier diverses fonctions vocales.
Caractéristiques du mode vocal :
- Le mode Advanced Voice permet de reproduire diverses intonations.
- Exemple : demander de parler en espagnol avec le fort accent russe d’un pélican brun de Californie.
Les modèles vocaux multimodaux d’autres entreprises :
- Google Gemini : prise en charge de l’entrée audio, avec des conversations vocales similaires à celles de ChatGPT.
- Amazon Nova : préannonce d’un mode vocal (sortie prévue au T1 2025).
- Google NotebookLM (lancé en septembre 2024) : génère une conversation entre deux « présentateurs de podcast » à partir des contenus fournis en entrée. Des instructions personnalisées sont également possibles.
L’arrivée du mode vidéo en direct :
- En décembre 2024, le mode vocal de ChatGPT a ajouté une fonction de partage du flux caméra.
- Il devient possible de converser en temps réel à propos du flux de la caméra.
- Google Gemini a également proposé une fonction similaire en preview à la même période.
Accessibilité via API :
- OpenAI comme Google proposent des API pour ces fonctionnalités.
- En décembre, OpenAI a annoncé l’API WebRTC afin de simplifier le développement d’applications web basées sur la voix.

# Génération d’apps par prompt, une technologie déjà banalisée

Le potentiel de GPT-4 en 2023 :
- GPT-4 permettait déjà de générer des applications interactives complètes en HTML, CSS et JavaScript.
- Des outils comme React pouvaient également être intégrés via des mécanismes de build supplémentaires.
L’introduction de Claude Artifacts en 2024 :
- Nouvelle fonctionnalité présentée au milieu de l’annonce de Claude 3.5 Sonnet par Anthropic.
- Elle permet aux utilisateurs de créer des applications à la demande, exécutables directement dans l’interface de Claude.
- Exemple : un outil d’extraction d’URL créé via Claude.
  - En saisissant une URL, il affiche immédiatement la liste extraite.
- Partage d’expérience : 14 petits outils ont été réalisés en une semaine avec Claude Artifacts.
L’arrivée de fonctions similaires chez les concurrents :
- GitHub Spark : annoncé en octobre 2024.
- Mistral Chat Canvas : ajouté en novembre 2024.
- Steve Krause de Val Town : mise en œuvre de modifications d’apps en temps réel avec des modèles Cerebras traitant 2 000 tokens par seconde.
- Équipe de Chatbot Arena : introduction en décembre d’un nouveau leaderboard où le même type d’app est généré par deux modèles puis soumis au vote.
Mes propres projets :
- Dans le projet Datasette, développement en cours d’un système permettant de générer par prompt des widgets personnalisés et des visualisations de données, puis d’itérer dessus.
- Mise en œuvre d’un schéma similaire avec uv pour écrire un programme Python unique.
Perspectives pour 2025 :
- Une fois les problèmes de sandboxing des navigateurs résolus, il est très probable que cette fonction soit intégrée par défaut dans de nombreux produits.

# L’accès gratuit aux meilleurs modèles, terminé en quelques mois

La gratuité au début de 2024 :
- GPT-4o, Claude 3.5 Sonnet et Gemini 1.5 Pro — les trois meilleurs modèles du moment — étaient accessibles gratuitement à la plupart des utilisateurs.
- OpenAI a rendu GPT-4o gratuit en mai 2024.
- Claude 3.5 Sonnet était disponible gratuitement dès son lancement en juin.
- Jusqu’alors, les utilisateurs gratuits n’avaient généralement accès qu’à des modèles de niveau GPT-3.5, mais cette période leur a offert l’occasion de découvrir les véritables capacités des LLM hautes performances.
La fin de l’accès gratuit :
- OpenAI a mis fin à cet accès gratuit avec le lancement de ChatGPT Pro.
- ChatGPT Pro demande un abonnement de 200 $ par mois et donne accès à o1 Pro, le modèle le plus puissant.
Perspectives d’avenir :
- La principale caractéristique de la série o1 est d’utiliser davantage de ressources de calcul pour offrir de meilleurs résultats.
- Avec cette structure de coûts, il est peu probable que l’ère de l’accès gratuit aux meilleurs modèles revienne.

# Les « agents », un concept toujours pas concrétisé

L’ambiguïté du terme :
- Le terme « agent » manque encore d’une définition unique et claire, et son sens varie selon les utilisateurs.
- Il se divise généralement en deux grandes catégories :
  - des agents de type agence de voyage, qui exécutent des tâches au nom de l’utilisateur ;
  - des agents fondés sur des LLM, qui accèdent à des outils, effectuent des tâches répétitives et résolvent des problèmes.
- Le terme « autonomie (autonomy) » est aussi souvent employé, mais sans définition claire, ce qui ajoute à la confusion.
Les limites conceptuelles :
- Les « agents » restent un concept qui donne toujours l’impression d’être « pour bientôt ».
- 211 définitions ont été collectées (via une enquête sur Twitter) puis résumées à l’aide du modèle Gemini-exp-1206, sans pour autant aboutir à un consensus clair.
Le scepticisme sur leur utilité :
- L’utilité pratique des agents est limitée par la tendance des LLM à être « facilement dupés » (gullibility).
- S’ils ne savent pas distinguer le vrai du faux, il leur est difficile de prendre des décisions pertinentes en tant qu’agence de voyage, assistant numérique ou outil de recherche.
- Exemple : Google Search a résumé à tort le film inexistant « Encanto 2 » à partir d’un wiki fictif de fan fiction.
L’injection de prompt (prompt injection) :
- Ce problème, issu de cette tendance à se laisser duper, est discuté depuis septembre 2022, mais n’a pas connu de progrès majeur en 2024 non plus.
Conclusion :
- L’idée populaire des agents semble en pratique dépendre de l’AGI elle-même.
- Le développement de modèles réellement fiables reste un défi extrêmement difficile.

# L’importance des évaluations (Evals)

L’évaluation devient une compétence clé :
- En 2024, la capacité à concevoir de bonnes évaluations automatiques (Evals) s’est imposée comme la compétence la plus importante pour les systèmes basés sur des LLM.
- Disposer d’outils d’évaluation solides permet d’adopter rapidement de nouveaux modèles, d’améliorer les itérations et de développer des fonctionnalités fiables.
L’approche d’Anthropic :
- Amanda Askell : le secret d’un bon system prompt, c’est le développement piloté par les tests.
  - « Il ne s’agit pas d’écrire un system prompt puis de chercher des tests, mais d’écrire les tests puis de trouver le system prompt qui les fait passer. »
- Cette approche a joué un rôle central dans le développement de Claude.
Le cas de Vercel :
- Malte Ubl : au départ, l’équipe utilisait des méthodes complexes de prétraitement et de post-traitement pour protéger le prompt.
  - Ils ont ensuite compris que la simplicité du prompt, l’évaluation, le modèle et l’UX étaient plus importants, puis ont changé de cap.
  - « Un prompt sans évaluation, c’est comme une machine cassée sans manuel d’utilisation. »
Exploration personnelle :
- Je continue à chercher les meilleurs schémas pour mettre en œuvre des évaluations efficaces.
- Jusqu’à présent, tout le monde souligne l’importance des évaluations, mais il manque encore d’excellents guides sur la manière concrète de les mettre en place.
- J’ai personnellement utilisé le benchmark « SVG pelican riding a bicycle », mais cela ne remplace pas un véritable outil d’évaluation.

# Apple Intelligence est décevant, mais la bibliothèque MLX est excellente

Une meilleure expérience ML sur Mac :
- Un Mac doté de 64 Go de RAM est, en théorie, bien adapté à l’exécution de modèles, car le CPU et le GPU peuvent partager la mémoire.
- Mais les utilisateurs de Mac ont longtemps été limités par des modèles et bibliothèques privilégiant NVIDIA CUDA.
L’innovation de la bibliothèque MLX :
- MLX d’Apple (un framework de tableaux pour Apple Silicon) permet d’exécuter sur Mac, avec d’excellentes performances, de nombreux modèles compatibles MLX.
- mlx-lm en Python : prend en charge les modèles compatibles MLX et offre de très bonnes performances.
- mlx-community sur Hugging Face : propose plus de 1 000 modèles convertis dans le format nécessaire.
- Le projet mlx-vlm de Prince Canuma : permet d’exécuter des vision LLM sur Apple Silicon.
  - Il a récemment servi à faire tourner Qwen QvQ.
La déception Apple Intelligence :
- Lors de son annonce en juin 2024, l’initiative avait suscité de fortes attentes en mettant l’accent sur des applications LLM respectueuses de la vie privée des utilisateurs.
- En pratique, les fonctionnalités effectivement lancées restent faibles et loin des capacités des LLM de pointe.
  - Exemples :
    - des résumés de notifications qui synthétisent mal les titres d’actualité ;
    - des outils d’assistance à l’écriture d’une utilité limitée.
  - Cela dit, Genmoji est jugé légèrement amusant.
Le changement de perspective des utilisateurs Mac :
- Grâce à des outils comme MLX, le niveau de satisfaction vis-à-vis du choix de la plateforme Mac a fortement progressé.
- En particulier, l’environnement d’exécution des LLM sur Apple Silicon s’est amélioré.

# L’essor des modèles de « reasoning » et du scaling à l’inférence

L’émergence d’une nouvelle forme de LLM :
- Au quatrième trimestre 2024, le modèle o1 d’OpenAI (o1-preview, o1-mini) a été présenté pour la première fois le 12 septembre.
- Il pousse plus loin la technique du chain-of-thought, conçue pour amener le modèle à « réfléchir » pendant la résolution d’un problème.
Les caractéristiques du modèle o1 :
- Il utilise des « reasoning tokens » pour raisonner sur le problème ; l’utilisateur ne voit pas directement ce processus, mais peut en consulter une version résumée dans l’interface de ChatGPT.
- Les performances peuvent être améliorées non seulement en augmentant la puissance de calcul pendant l’entraînement, mais aussi en mobilisant davantage de calcul au moment de l’inférence.
Le potentiel d’extension de ces modèles :
- Ils utilisent des ressources de calcul supplémentaires au moment du raisonnement pour traiter des problèmes plus difficiles.
- Cela constitue une nouvelle manière d’étendre l’architecture des LLM existants.
Le modèle suivant, o3 :
- Annoncé le 20 décembre 2024, avec des résultats impressionnants sur le benchmark ARC-AGI.
- Il a probablement nécessité plus de 1 000 000 $ de coûts de calcul.
- Sa sortie est prévue en janvier 2025. Son coût de calcul extrêmement élevé devrait toutefois limiter ses usages réels.
Autres annonces majeures de modèles :
- Google : lancement de gemini-2.0-flash-thinking-exp le 19 décembre.
- Alibaba : annonce du modèle QwQ le 28 novembre (licence Apache 2.0), exécutable en local.
  - Puis annonce, le 24 décembre, du modèle de raisonnement visuel QvQ, lui aussi exécutable en local.
- DeepSeek : mise à disposition du modèle DeepSeek-R1-Lite-Preview via une interface de chat le 20 novembre.
Recherche connexe et anticipations :
- Anthropic et Meta n’ont pas encore annoncé officiellement de modèle de ce type, mais il est fort probable qu’ils développent eux aussi des modèles similaires de scaling du raisonnement.
- Meta a publié en décembre un article intitulé « Training Large Language Models to Reason in a Continuous Latent Space ».
- Pour aller plus loin : Is AI progress slowing down? d’Arvind Narayanan et Sayash Kapoor est recommandé.

# Le meilleur LLM actuel a-t-il été entraîné en Chine pour moins de 6 millions de dollars ?

La grande nouvelle :
- À Noël 2024, DeepSeek v3 a été publié sur Hugging Face (sans fichier README au départ, puis avec documentation et article ajoutés le lendemain).
- Il s’agit d’un très grand modèle de 685B de paramètres, bien plus grand que Llama 3.1 405B de Meta.
- C’est le plus grand modèle disponible sous licence ouverte.
Performances :
- Il affiche des performances sur benchmark comparables à Claude 3.5 Sonnet.
- Il s’est classé 7e sur Chatbot Arena, juste derrière Gemini 2.0 et les modèles 4o/o1 d’OpenAI.
- C’est le modèle sous licence ouverte le mieux classé.
Coût d’entraînement :
- DeepSeek v3 : 2 788 000 heures GPU H800, pour un coût d’environ 5 576 000 $.
- Meta Llama 3.1 405B : 30 840 000 heures GPU, soit un coût 11 fois supérieur à celui de DeepSeek v3, tout en obtenant des performances légèrement inférieures sur benchmark.
L’impact des restrictions américaines sur l’exportation de GPU vers la Chine :
- Les restrictions américaines sur les exportations de GPU semblent avoir fortement stimulé l’optimisation de l’entraînement.
- L’entraînement très efficace de DeepSeek v3 est perçu comme le résultat de ces optimisations.

# Amélioration de l’impact environnemental

Moins de consommation d’énergie grâce aux gains d’efficacité :
- L’efficacité des modèles a fortement progressé, ce qui a fait chuter la consommation d’énergie et l’impact environnemental liés à l’exécution des prompts au cours des dernières années.
- OpenAI a divisé par 100 le coût des prompts par rapport à l’époque de GPT-3.
- Des fournisseurs de modèles à bas coût comme Google Gemini et Amazon Nova peuvent eux aussi exploiter des prompts sans perte.
Du point de vue de l’utilisateur individuel :
- La consommation d’énergie liée à la plupart des exécutions de prompts est en réalité minime.
- Elle a probablement moins d’impact environnemental qu’un court trajet en voiture ou que le visionnage d’une vidéo YouTube.
Baisse du coût d’entraînement :
- Le coût d’entraînement inférieur à 6 millions de dollars de DeepSeek v3 montre que les coûts d’entraînement pourraient continuer à diminuer.
- Il devient possible d’entraîner efficacement avec moins de ressources.
Comparaison avec des modèles inefficaces :
- Le coût énergétique de l’entraînement du plus grand modèle de Llama 3 est comparable à celui de quelques vols commerciaux complets entre New York et Londres.
- Mais une fois l’entraînement terminé, des millions de personnes peuvent l’utiliser sans coût supplémentaire, ce qui le rend efficace à long terme.

# L’impact environnemental s’aggrave encore

Course à la construction de grands data centers :
- De grandes entreprises comme Google, Meta, Microsoft et Amazon investissent des milliards de dollars dans la construction de data centers afin de répondre à la demande des futurs modèles.
- Cette expansion des infrastructures a un impact majeur sur le réseau électrique et sur l’environnement.
- Il y a aussi des discussions sur la construction de nouvelles centrales nucléaires, mais cela pourrait prendre des décennies.
Débat sur la nécessité de ces infrastructures :
- Le coût d’entraînement de 6 millions de dollars de DeepSeek v3 et la baisse des prix des LLM suggèrent qu’une telle expansion n’est peut-être pas indispensable.
- Mais il n’existe pratiquement aucun dirigeant prêt à prendre le risque de « ne pas construire l’infrastructure pour découvrir plus tard que c’était une mauvaise décision ».
Parallèle historique :
- On peut comparer la situation à la période de construction des réseaux ferroviaires à travers le monde au XIXe siècle.
- Cela s’est accompagné d’investissements massifs et d’un impact environnemental important, avec de nombreuses lignes redondantes aboutissant à des résultats inutiles.
- Cela a fini par provoquer plusieurs crises financières :
  - la panique de 1873, la panique de 1893, la panique de 1901, et la Railway Mania au Royaume-Uni.
- L’infrastructure est restée, mais elle s’est aussi accompagnée de faillites massives et de dégâts environnementaux.
Leçon pour aujourd’hui :
- La course aux data centers peut laisser derrière elle une infrastructure utile, mais elle comporte aussi le risque d’une expansion inutile et de dommages environnementaux.

# 2024, l’année du « slop »

Définition de « slop » :
- Le terme s’est imposé pour désigner du contenu généré par l’IA, non désiré et non relu.
- De la même façon que « spam » en est venu à signifier les e-mails non désirés, « slop » est devenu assez répandu pour être intégré aux dictionnaires.
Origine du terme :
- La discussion a commencé avec un tweet de @deepfates :
  - « On est en train de voir “slop” devenir un terme en temps réel. »
- En mai 2024, le concept a été étendu et défini comme du « contenu généré par l’IA, non sollicité et non relu ».
Réaction des médias :
- Le New York Times et le Guardian ont cité des interviews à propos du « slop » :
  - « Nous avons besoin d’un terme simple pour parler de l’IA moderne. “Ignore cet e-mail, c’est du spam” et “Ignore cet article, c’est du slop” sont tous deux des leçons utiles. »
Importance du slop :
- Le terme est utile pour exprimer de façon concise les mauvais usages de l’IA générative.
- Il contribue à encourager un usage plus efficace et plus responsable de l’IA.
Impact culturel en 2024 :
- « Slop » a été finaliste du mot de l’année de l’Oxford, mais n’a pas été retenu face à « brain rot ».

# L’effet surprenant des données d’apprentissage synthétiques

Le concept de « model collapse » :
- Mentionné pour la première fois dans l’article de mai 2023 The Curse of Recursion, puis davantage mis en avant dans Nature en juillet 2024.
- L’idée : si le contenu généré par l’IA envahit internet, les modèles finiront par réapprendre leurs propres sorties en boucle, ce qui dégradera leurs performances.
- La réalité : cet effondrement ne s’est pas produit ; au contraire, l’entraînement de modèles à partir de données synthétiques devient de plus en plus courant.
Les avantages des données synthétiques :
- Comme l’explique le rapport technique de Phi-4 :
  - Les données synthétiques ne remplacent pas les données organiques ; elles offrent plutôt des avantages directs, notamment :
    - Un apprentissage structuré et progressif :
      - Dans les données organiques, les relations entre les tokens sont complexes et indirectes, ce qui rend l’apprentissage difficile.
      - À l’inverse, les données synthétiques étant générées par un modèle de langage à partir des tokens précédents, elles permettent d’apprendre plus facilement des schémas de raisonnement.
    - Le processus d’apprentissage est plus systématique et plus prévisible.
Quand les grands modèles aident les plus petits :
- De grands modèles génèrent des données synthétiques pour des modèles plus petits :
  - DeepSeek v3 : utilisation de données de « raisonnement » produites par DeepSeek-R1.
  - Meta Llama 3.3 70B : affiné avec plus de 25 millions d’exemples synthétiques.
L’importance de la conception des données :
- La conception des données s’impose comme l’élément le plus important dans l’entraînement des LLM.
- L’ancienne méthode consistant à aspirer sans discernement l’intégralité d’internet pour entraîner un modèle n’est plus utilisée.

# En 2024, utiliser les LLM est devenu plus difficile

Les LLM sont des outils complexes :
- En apparence simples, ils sont en réalité des « outils pour power users » qui exigent une compréhension approfondie et de l’expérience.
- Ils sont décrits par la métaphore d’« un outil complexe comme une tronçonneuse déguisé en couteau de cuisine ».
Une aggravation du problème en 2024 :
- Les modèles sont devenus plus puissants, mais conservent leurs anciennes limites et contraintes.
- Divers systèmes ont été introduits, chacun prenant en charge des outils différents (Python, JavaScript, recherche web, génération d’images, etc.).
- Pour les utiliser efficacement, les utilisateurs doivent comprendre les possibilités et les limites de chacun.
Une complexité croissante entre les systèmes :
- Exemple : dans ChatGPT, Python peut être exécuté de deux façons différentes.
- Pour créer un Claude Artifact qui communique avec une API externe, il faut comprendre les en-têtes HTTP CSP et CORS.
- Le o1 d’OpenAI fonctionne avec des capacités limitées, tandis que GPT-4o prend en charge la recherche web et l’interpréteur de code.
  - Il faut comprendre les différences de fonctionnalités entre ces deux modèles au sein de la même interface ChatGPT.
Les limites de l’expérience utilisateur :
- L’interface de chat de base des LLM offre une expérience comparable au fait de lâcher un débutant dans un terminal Linux.
- Beaucoup d’utilisateurs développent de mauvais modèles mentaux de la manière dont fonctionnent les LLM et de ce qu’ils peuvent faire.
  - Exemple : multiplication de cas irrationnels où des captures d’écran de ChatGPT sont utilisées comme preuve dans une dispute.
Un double problème :
- Mauvais usage : des utilisateurs prennent les LLM pour des outils universels malgré leurs imperfections.
- Rejet : même des personnes bien informées renoncent complètement aux LLM à cause de leurs défauts.
- Pour exploiter efficacement les LLM, il est indispensable de savoir collaborer avec une technologie à la fois imparfaite et puissante.
Le besoin de contenus pédagogiques :
- La formation des utilisateurs est importante, mais elle reste insuffisante aujourd’hui.
- Au lieu de dépendre de threads Twitter sensationnalistes sur l’IA, il faut développer des ressources pédagogiques plus fiables.

# Une répartition inégale des connaissances

Ce qui est connu et ce qui ne l’est pas :
- La plupart des gens connaissent ChatGPT, mais très peu ont entendu parler de Claude.
- L’écart de connaissances entre ceux qui suivent activement ce domaine et les 99 % restants est immense.
La vitesse du changement :
- Le rythme du changement technologique creuse encore davantage cet écart.
- Au cours du mois dernier, des interfaces en direct ont été introduites :
  - il est possible de pointer quelque chose avec la caméra de son téléphone et d’en parler à voix haute ;
  - on peut même choisir une fonction qui imite le rôle du Père Noël.
- Même des personnes qui se présentent comme passionnées de technologie n’ont souvent pas essayé ces fonctions.
Impact sociétal et nécessité d’agir :
- Compte tenu de l’impact que ces technologies peuvent avoir sur la société actuelle et future, l’ampleur de cette fracture des connaissances n’est pas saine.
- Il faut davantage d’efforts pour améliorer la situation.

# Il faut de meilleures critiques des LLM

Hostilité envers la technologie :
- Dans certaines communautés comme Mastodon, Bluesky, Lobste.rs et Hacker News, le simple fait d’affirmer que « les LLM sont utiles » suffit à déclencher une controverse.
- Raisons de cette hostilité envers la technologie :
  - Impact environnemental.
  - Problèmes éthiques liés aux données d’entraînement.
  - Manque de fiabilité.
  - Cas d’usage négatifs.
  - Impact potentiel sur l’emploi.
Nécessité de la critique :
- Les LLM méritent d’être critiqués, et il est important de discuter des problèmes, de chercher des solutions et d’enseigner des usages responsables.
- L’objectif est d’aider les usages positifs à l’emporter sur les effets négatifs.
Valeur d’un point de vue sceptique :
- Le battage médiatique excessif (hype) a aggravé les problèmes au cours des deux dernières années :
  - La désinformation et les attentes exagérées se sont répandues.
  - De mauvaises décisions ont été fréquemment prises.
- L’esprit critique est indispensable pour bien comprendre et utiliser cette technologie.
Dialogue avec les décideurs :
- Il faut reconnaître les bons cas d’usage de ces outils tout en expliquant comment éviter les pièges contre-intuitifs.
- Affirmer qu’il n’existe aucun bon cas d’usage revient à passer à côté de la valeur potentielle de cette technologie.
Faire passer le bon message :
- La critique réductrice d’une « machine à plagier destructrice pour l’environnement et qui ment en permanence » n’aide pas à résoudre les problèmes.
- Découvrir et concrétiser la véritable valeur des LLM nécessite des guides et une formation qui ne sont pas intuitifs.
Rôle responsable :
- Les personnes qui comprennent cette technologie ont la responsabilité d’aider les autres à l’utiliser correctement.

1 commentaires

GN⁺ 2025-01-01

Avis Hacker News

Beaucoup de gens ont tendance à penser que les LLMs sont inutiles après avoir utilisé ChatGPT 4. Pourtant, Claude Sonnet 3.5 peut encore être utile
- L’utilité des LLMs dépend fortement de la capacité de l’utilisateur à communiquer
- On peut maximiser les performances des LLMs avec des questions précises et un bon contexte
- Ils sont utiles pour traiter rapidement des tâches ennuyeuses
Le terme « agent » n’a pas de sens clair, ce qui crée de la confusion
- Le mot à la mode « agentic » peut être agaçant
Il existe des inquiétudes concernant la baisse des prix des LLM
- Le niveau gratuit de Gemini reste attractif, mais il est difficile de lui faire confiance
- Certains s’inquiètent d’une possible remontée des prix au premier semestre 2025
Le concept d’« agent » n’est toujours pas clairement défini
- Un véritable « agent » devrait selon eux inclure de l’autonomie
Certains ne sont pas d’accord avec l’idée que l’usage des LLMs est devenu plus difficile
- Il y a davantage d’options, mais l’utilisation en elle-même n’est pas devenue plus compliquée
- Les débutants reçoivent toujours les mêmes consignes de base
Il est devenu plus difficile de juger ce qui est « bon »
- La manipulation des benchmarks est plus répandue, ce qui ajoute à la confusion
- Certains essaient de construire leur propre framework de test
Certaines personnes ont renoncé à utiliser les LLMs à cause de leurs défauts
- Pour en tirer le meilleur parti, il faut apprendre à travailler avec une technologie instable mais puissante
Certains modèles de GPT-4 peuvent fonctionner sur un ordinateur portable
- Cela signifie qu’il n’est pas nécessaire de disposer de vastes data centers
- La valeur d’OpenAI a peut-être été surestimée
Certains ne comprennent pas pourquoi l’usage par Apple de 64 Go de DRAM serait spécial
- Ils se demandent comment Apple s’approvisionne en DRAM alors que les data centers absorbent l’essentiel des capacités de production de RAM
Il existe une confusion sur la structure de coûts de Google Gemini et d’Amazon Nova
- Certains affirment qu’ils sont proposés à un prix inférieur au coût de l’énergie, d’autres soutiennent le contraire
Certains estiment que les LLMs ne sont pas utiles pour les tâches du quotidien
- Les nouveaux modèles de LLM ne seraient que des améliorations surévaluées
Certains ont réalisé que les standards moraux et d’excellence de ce secteur sont faibles
Des questions se posent sur l’état actuel qui consiste à pousser le « raisonnement » dans l’espace latent/neural
- Le fait que le modèle « se parle à lui-même » a peu de lien avec la sortie finale, ce qui est inefficace

Ce que j’ai appris sur les LLM en 2024

# Dépassement complet des limites de GPT-4

# Certains modèles de niveau GPT-4 tournent sur mon ordinateur portable

# Effondrement des prix des LLM, un changement porté par la concurrence et l’efficacité

# Généralisation de la vision multimodale, avec l’arrivée nouvelle de l’audio et de la vidéo

# Mode vocal et caméra en direct, la science-fiction devenue réalité

# Génération d’apps par prompt, une technologie déjà banalisée

# L’accès gratuit aux meilleurs modèles, terminé en quelques mois

# Les « agents », un concept toujours pas concrétisé

# L’importance des évaluations (Evals)

# Apple Intelligence est décevant, mais la bibliothèque MLX est excellente

# L’essor des modèles de « reasoning » et du scaling à l’inférence

# Le meilleur LLM actuel a-t-il été entraîné en Chine pour moins de 6 millions de dollars ?

# Amélioration de l’impact environnemental

# L’impact environnemental s’aggrave encore

# 2024, l’année du « slop »

# L’effet surprenant des données d’apprentissage synthétiques

# En 2024, utiliser les LLM est devenu plus difficile

# Une répartition inégale des connaissances

# Il faut de meilleures critiques des LLM

À lire aussi

1 commentaires

Avis Hacker News