Utilisateur expérimenté des LLM, mais pourquoi il ne les utilise pas si souvent en pratique

(minimaxir.com)

29 points par GN⁺ 2025-05-06 | 2 commentaires | Partager sur WhatsApp

L’auteur explique qu’il étudie les LLM et les technologies de génération de texte depuis plus de 10 ans, mais qu’il ne les utilise pourtant pas aussi souvent qu’on pourrait l’imaginer dans la vie de tous les jours
Lorsqu’il utilise des LLM, il accorde une grande importance à un contrôle fin via le prompt engineering, les system prompts, le réglage de la température, etc., et préfère une approche basée sur l’API plutôt qu’une interface frontend classique
Il a utilisé les LLM pour résoudre des problèmes concrets chez BuzzFeed, notamment pour le data labeling, le résumé de clusters d’articles et la vérification de guides de style, démontrant un gain de temps important
Il n’utilise pas les LLM pour écrire, mais s’en sert pour tester la solidité logique de ses textes en leur demandant de produire de faux commentaires Hacker News critiques
Les LLM sont utiles comme aide au code, mais pour les tâches complexes ou exigeant une forte fiabilité, il préfère implémenter lui-même ; il reste également sceptique vis-à-vis des agents et du vibe coding

Ma distance avec les LLM

L’auteur est un data scientist très expérimenté dans l’usage des outils d’IA générative, avec un long parcours sur la génération de texte basée sur les RNN, le fine-tuning de GPT-2 et les expérimentations autour de GPT-3/ChatGPT
Pourtant, il les utilise rarement de manière directe et fréquente ; son usage relève d’une approche instrumentale, déterminée par la nature de la tâche et le besoin réel

Sa manière de contrôler les LLM

Le prompt engineering est au cœur de son usage des LLM pour obtenir le type de sortie souhaité
Au lieu d’un frontend générique (ChatGPT.com), il appelle directement l’API ou passe par une UI backend, avec une préférence particulière pour l’API de Claude Sonnet
Grâce au system prompt et au réglage de la température (temperature), il ajuste l’équilibre entre créativité et déterminisme ; il la règle généralement entre 0.0 ~ 0.3 afin de garantir une meilleure prévisibilité des sorties
Le problème des hallucinations (génération de contenus factuellement faux) a tendance à s’aggraver lorsque la température est plus élevée, ce qui demande de la prudence

Cas d’usage au travail

Automatisation de la classification des articles BuzzFeed : via l’API Claude, un schéma de classification en JSON et un réglage à temperature 0.0, il obtient une attribution précise des catégories
Résumé de clusters d’articles : en fournissant 5 articles similaires, il fait retourner un titre commun et une description, ce qui permet une automatisation efficace du résumé de clusters
Vérification de la ponctuation et du guide de style : en injectant l’intégralité du guide de style dans le system prompt, il obtient des jugements grammaticaux fondés sur des règles explicites
Chaque tâche permet de réaliser un POC en quelques heures, avec un gain de plusieurs jours par rapport aux méthodes précédentes

L’écriture à la main, la critique par LLM

Il rédige lui-même ses billets de blog, dont le style comporte des singularités que les LLM reproduisent difficilement
En revanche, il demande aux LLM de rédiger des commentaires critiques comme des utilisateurs de Hacker News, afin de repérer les failles logiques
Cette méthode améliore la qualité du texte, sans pour autant remplacer l’écriture humaine

Usage des LLM pour le code

Pour des tâches complexes mais répétitives comme la rédaction d’expressions régulières ou la composition d’images avec Pillow, les LLM améliorent fortement la productivité
En revanche, avec des bibliothèques récentes comme Polars, les LLM peuvent se tromper, par exemple en les confondant avec des fonctions pandas
Il n’apprécie pas les suggestions de code en temps réel comme celles de Copilot, car les changements de contexte mentaux trop fréquents nuisent selon lui à la concentration
Il défend l’idée qu’il vaut mieux reprendre une idée proposée par un LLM puis la corriger soi-même

Son point de vue sur les Agents, MCP et le Vibe Coding

MCP et les agents se sont améliorés sur le plan conceptuel, mais n’apportent pas réellement de nouveaux cas d’usage concrets
Le vibe coding peut être utile pour des projets de loisir, mais il est inadapté à un produit en bonne et due forme et ne doit pas servir de moyen d’échapper à ses responsabilités
Il insiste sur le fait que seul un code fiable est véritablement professionnel

Réflexion sur l’industrie des LLM et l’éthique

L’affirmation selon laquelle « les LLM ne servent à rien » ne reflète pas la réalité de leurs usages ; le vrai sujet concerne plutôt le ROI à court terme et les problèmes de structure industrielle
Les modèles open source et les infrastructures alternatives (Cerebras, Groq, etc.) peuvent répondre à la demande en LLM même si OpenAI disparaissait
Au final, les LLM sont des outils à utiliser de manière appropriée selon l’objectif, et l’enthousiasme aveugle comme le rejet total sont tous deux dangereux

Conclusion

Les LLM sont comme un outil qui consiste à forcer un clou carré dans un trou rond : ils peuvent être inefficaces, ou au contraire révolutionnaires
L’essentiel est le jugement du praticien pour décider quand, où et comment les utiliser ; c’est là la véritable compétence à l’ère des LLM

2 commentaires

ifmkl 2025-05-07

Je suis tout à fait d’accord avec la toute dernière ligne. Cela rejoint aussi assez bien ce que j’ai ressenti : au final, l’IA et les LLM ne s’utilisent et ne se mettent à profit qu’à la mesure des compétences de l’utilisateur.

GN⁺ 2025-05-06

Avis Hacker News

Il y a des avis sur les aspects déroutants du travail avec des LLMs, même pour des programmeurs expérimentés
- pandas est la bibliothèque standard pour manipuler des données tabulaires en Python et est utilisée depuis 2008
- Récemment, certains utilisent la nouvelle bibliothèque polars, et les LLMs confondent souvent les fonctions de polars avec celles de pandas, ce qui oblige à vérifier la documentation
- La raison de ne pas utiliser d’agents de codage est qu’ils sont « distractifs », un point de vue auquel on peut s’identifier quand on n’aime pas l’autocomplétion
- Les LLMs « purs » produisent des erreurs de code dans les tâches de programmation, mais une configuration de LLM agent inclut aussi du code qui structure les interactions avec le LLM
- Si le LLM génère une erreur de fonction, le programme ne compile pas, l’agent la détecte et le LLM la corrige de façon itérative
Le vibe coding est utilisé pour prototyper des UI ou des sites web
- Même sans expérience frontend, il est utile de créer une démo live aboutie à 80 % pour la montrer à d’autres
- Ce n’est pas encore prêt pour un vrai produit, mais c’est utile pour des maquettes destinées aux discussions internes
Diverses méthodes ont été essayées pour obtenir les meilleurs résultats avec les LLMs
- Imaginer des scénarios pour « piéger » les LLMs est inefficace, et l’efficacité varie fortement selon la version du modèle
On est plus prudent avec les sorties des LLM pour des questions de code complexes portant sur des bibliothèques moins populaires
- Ces derniers mois, l’interface ChatGPT s’est révélée efficace pour résoudre des questions de code sur des bibliothèques récentes
- Une migration de code vers une nouvelle bibliothèque JavaScript a été menée avec succès
Une méthode consiste à coller directement la documentation d’une nouvelle bibliothèque ou l’ensemble de son code source dans un modèle à long contexte
- C’est efficace pour les bibliothèques de moins de 50 000 tokens, et Gemini 2.5 Pro gère aussi bien plusieurs centaines de milliers de tokens
Il est apprécié que l’auteur ait inclus des logs de conversation
- Beaucoup de gens ne peuvent pas partager ce type de contenu à cause d’informations sensibles, mais c’est important pour étayer les affirmations sur les performances des LLMs
ChatGPT.com ou les interfaces grand public ne sont pas utilisés
- Les UI backend de chaque service LLM sont utilisées pour obtenir de meilleurs résultats
- OpenAI a tendance à restreindre les modèles dans l’interface ChatGPT
Les interfaces modernes de LLM qui ne permettent pas de définir explicitement un system prompt utilisent leur propre system prompt
- ChatGPT a un system prompt, mais Claude n’en a pas
- Sur les nouveaux modèles, l’utilité du system prompt diminue
Définir des contraintes précises sur le texte généré fonctionne mieux via le system prompt que via le prompt utilisateur
- Les LLMs comprennent le concept de 30 mots, mais n’exécutent pas toujours bien ce type de tâche
Les UI backend de chaque service LLM sont utilisées
- On se demande s’il faut employer un wrapper personnalisé pour interfacer l’API ou utiliser un client déjà bien établi
Les réponses JSON ne fonctionnent pas toujours comme prévu
- Pour obtenir un JSON cohérent, il faut définir un schéma JSON afin de toujours renvoyer la même structure
Les LLM sont utilisés pour apprendre de nouvelles choses ou écrire de petits scripts
- Une technique intéressante consiste à donner à un LLM le texte d’un billet de blog puis à lui demander d’écrire cinq commentaires en jouant le rôle d’un commentateur cynique de Hacker News