Le simulacre du travail intellectuel
(blog.happyfellow.dev)- Alors que les LLM imitent parfaitement la qualité de surface, les indicateurs indirects (proxy measures) qui servaient à juger la qualité réelle du travail intellectuel deviennent inopérants
- Comme il est difficile d’évaluer la qualité intrinsèque du travail intellectuel, on s’est appuyé sur des indicateurs indirects tels que la finition formelle des documents ; or les LLM les franchissent facilement
- Le code et les rapports rédigés par l’IA paraissent professionnels à première vue, mais leur exactitude ou leur utilité réelles passent sans être vérifiées
- Les LLM eux-mêmes sont entraînés non pas sur « est-ce correct ? » mais sur « est-ce plausible ? », ce qui leur fait intégrer le même problème d’indicateur indirect
- Avertissement : des systèmes construits à coups de dizaines de milliards de dollars sont utilisés non pour exécuter le travail réel, mais comme des outils qui produisent le simulacre du travail
Rôle et limites des indicateurs indirects (Proxy Measure)
- Lorsqu’on reçoit un rapport d’analyse de marché, il est fréquent de rejeter l’ensemble du document à cause de défauts de surface comme une erreur de date, des fautes de frappe ou des graphiques dupliqués
- Ce qui nous intéresse réellement, c’est de savoir si le rapport reflète la réalité et conduit à de bonnes décisions ; mais le vérifier directement coûte cher
- La qualité de surface coûte peu à vérifier et présente une corrélation suffisante avec la qualité réelle, d’où son rôle d’indicateur indirect
- Ce problème existe dans tout travail intellectuel : comme juger objectivement la qualité du travail d’autrui exige beaucoup d’efforts, on dépend fortement d’indicateurs indirects
Le mécanisme par lequel les LLM ont neutralisé les indicateurs indirects
- Les indicateurs indirects servaient jusqu’ici à freiner les incitations mal alignées (misaligned incentives), mais les LLM ont fait sauter ce verrou
- Les LLM excellent à simuler le style d’écriture sans pour autant reproduire la qualité réelle du travail
- Si l’on demande à ChatGPT un rapport d’analyse de marché, le résultat donne l’impression d’avoir été rédigé par un expert d’un cabinet de conseil de tout premier plan
- Lorsqu’un ingénieur logiciel produit des milliers de lignes de code avec l’IA, un survol de quelques secondes suffit pour que cela semble être du code de haute qualité
- Les collègues confient eux aussi la revue de code à l’IA et traitent mécaniquement les problèmes détectés, si bien que seul le rituel du travail est préservé, sans garantie sur la qualité réelle
Le même problème, inhérent aux LLM eux-mêmes
- Le processus d’entraînement des LLM n’évalue pas non plus si « la réponse est vraie » ou « la réponse est utile »
- Les critères d’entraînement reviennent à demander : « est-ce le type de réponse qu’on trouverait dans les données d’entraînement ? » ou « est-ce une réponse qui satisfait un évaluateur RLHF ? »
- En conséquence, les LLM sont optimisés pour produire des sorties qui ont l’air de livrables de haute qualité, et ils sont extrêmement performants dans cette optimisation
Avertissement sur la situation actuelle
- Des systèmes développés avec des dizaines de milliards de dollars sont utilisés pour exécuter le simulacre du travail
- Les entreprises rivalisent pour décrocher la première place au classement de la consommation de tokens
- Plus les travailleurs produisent de sorties issues des LLM, moins ils passent de temps à les examiner en profondeur
- Au final, il ne reste plus qu’à survoler, apposer un « LGTM », puis ouvrir la 17e session de Claude Code
1 commentaires
Réactions sur Hacker News
Comme le dit l’article, je ne suis pas totalement d’accord ni avec l’idée qu’il était facile d’évaluer la qualité du travail intellectuel humain à travers des indicateurs de substitution comme les coquilles ou les petites erreurs, ni avec l’idée que le problème vient du fait que ces indices n’existent pas chez l’IA
Il y a toujours eu beaucoup de productions humaines conceptuellement médiocres, mais factuellement correctes et formellement propres
Après dix ans de travail avec des clients en entreprise, je ne dirais absolument pas que l’époque pré-LLM était un âge d’or du travail intellectuel de qualité ; à l’époque aussi, on croulait sous toutes sortes de déchets qui n’étaient rien d’autre qu’un simulacre fonctionnel du travail intellectuel
Un résultat médiocre produit par une personne a généralement une cause — ignorance, pression du temps, objectifs égoïstes — et ces causes sont assez cohérentes
On peut repérer des schémas de confiance, comme un stagiaire prudent mais qui ne sait pas, ou un senior très compétent mais privé de sommeil qui rate une évidence
Avec l’IA, en revanche, on peut avoir dans une même exécution une implémentation parfaite d’un article scientifique puis une erreur de niveau première année, ce qui crée une situation contre-intuitive où, face à une machine capable d’une compétence extrême, il faut faire une revue en partant de l’hypothèse d’une incompétence totale
La présence de coquilles ou d’erreurs factuelles élémentaires permettait d’éliminer facilement un travail, mais leur absence ne signifiait pas pour autant qu’il était de qualité
En général, ce contrôle n’est qu’un premier barrage, pas l’ensemble de l’évaluation ; une fois ce barrage franchi, les vrais problèmes deviennent plus faciles à voir
En code, c’est un peu comme remettre d’abord d’aplomb le lint et le style avant d’examiner le reasoning
Et comme on ne sait pas soi-même que ces 99 % viennent d’une IA, on peut facilement se convaincre qu’on filtre tous les textes IA simplement parce qu’on reconnaît les 100 % des motifs qu’on a déjà identifiés
À l’origine, une grande partie du travail intellectuel servait déjà de substitut à autre chose
Une qualité sans fautes et à la forme impeccable était souvent surtout un signal de respect, comme une chemise blanche repassée et une cravate, et beaucoup de longs documents n’étaient en réalité jamais lus en profondeur
Au fond, c’était une manière symbolique de montrer le sacrifice et la soumission, et les LLM sont en train de détruire ce système de signaux
Si, même avant, on n’évaluait pas vraiment la qualité du contenu lui-même, c’est peut-être que ce contenu n’était pas si important au départ
Dans le monde académique, le problème du coût de revue lié à l’IA apparaît déjà, mais pas tout à fait pour les raisons évoquées dans l’article
Le cœur du problème n’est pas tant la disparition des marqueurs de travail médiocre que le fait que le coût d’une vérification minutieuse des productions faites avec l’IA devient trop élevé pour être supporté par des humains seuls
Par exemple, dans les revues d’économie, les annexes peuvent atteindre des centaines de pages, alors que le temps humain disponible pour les lire est limité
Je me demande si, dans d’autres disciplines aussi, les revues subissent non seulement une hausse du nombre de soumissions, mais aussi une pression croissante sur l’intensité de la revue nécessaire pour valider chaque article
En dessous de ce niveau, il est parfois presque impossible de distinguer ce qui est correct de ce qui a seulement l’air correct
En utilisant l’IA, j’ai l’impression de cargo-cultiver la compréhension
On reproduit l’apparence extérieure du fait d’avoir compris quelque chose, tout en se retirant à soi-même le temps et l’effort nécessaires pour vraiment le comprendre
Il croit que si on gave Claude de Snowflake Cortex, du code intégré, de la documentation et des tickets Jira, on pourra lui demander n’importe quoi et que tout ira beaucoup mieux
Pourtant, cette obsession n’a pas produit de grands résultats, et il a lui-même déjà fait plusieurs fois l’expérience brutale des limites de la technologie
Tout le monde parle d’agentic workflow et de la vision d’un immense wiki interne, mais de mon côté, je préfère utiliser l’IA pour accélérer assez nettement la livraison sans perdre de temps dans des aventures grandiloquentes, et je continue à produire des résultats
Il y a aussi une ironie à voir des gens qui critiquaient autrefois l’adoption des chatbots en entreprise brûler maintenant des tokens pour construire leur propre chatbot à partir de milliers de milliards de fichiers
.mdet de fichiers de skillsCe qui m’inquiète vraiment, c’est la perte de la connaissance réelle à l’échelle institutionnelle dans tous ces raccourcis
Demander un petit exemple ou une explication de concept, très bien ; mais écrire des prompts du type « examine nos outils et notre infrastructure actuels, augmente par 5 notre vitesse de déploiement, fais de la recherche web, rédige une proposition d’adoption pour l’organisation et une analyse coûts-bénéfices sur 5 ans », c’est affaiblir les gens eux-mêmes
En ce moment, tout le monde balance partout des propositions générées par Claude, en sautant l’étape où l’on creuse un peu soi-même ou où l’on explore avec un architecte ou un ingénieur senior
Résultat : on comprend beaucoup de choses seulement en surface, on a du mal à expliquer dès qu’on creuse, et on croit à la réponse de l’IA comme à une stratégie définitive, au point de ne plus vouloir qu’elle soit remise en question
On ne voit même plus l’occasion d’apprendre auprès de personnes plus expérimentées comme une véritable expérience d’apprentissage
Au final, je continue de penser que le cerveau humain reste l’une des technologies les plus impressionnantes qui soient, et je me demande pourquoi on essaie à tout prix de construire à l’extérieur de nous cette immense bibliothèque artificielle
Comme le dit Bret Devereaux dans sa critique de Game Of Thrones, une vision du monde vue du point de vue des élites n’a l’air plausible, voire utopique, que pour les élites elles-mêmes
Ce genre de bulle, coupée du travail réel, finira par éclater violemment ; et quand les masses ayant perdu leur emploi à cause de l’IA diront qu’elles n’ont même plus de pain, répondre qu’elles n’ont qu’à manger de la brioche fait imaginer un retour de bâton de l’ampleur de la Révolution française
Mais comme outil pour chercher à comprendre en profondeur, il y a en réalité peu de choses aussi bonnes que l’IA
Au fond, comprendre quelque chose revient presque à le faire soi-même
Ce n’est pas grave de ne pas comprendre, mais dans ce cas, qu’il y ait ou non des indicateurs de substitution, on n’a finalement pas d’autre choix que de faire confiance à la compréhension de quelqu’un d’autre
Aller vers moins de travail et plus de confiance reste possible jusqu’à un certain point, mais au-delà, c’est le travail futur qui devient fragile
simulacrumest vraiment un excellent motC’est peut-être pour ça que les managers intermédiaires ont semblé être les premiers véritables fidèles du suprémacisme LLM
Les managers intermédiaires ont beaucoup d’incitations à pousser l’abstraction continue du travail intellectuel, au-delà de la maîtrise réelle du rôle, et il semble que cette couche abstraite se décrive particulièrement bien dans l’espace d’embedding
Le code IA a souvent l’air pire qu’il ne l’est réellement
Il est excessivement verbeux, confus, rempli de fallback ; quand un problème survient, il se met à ruisseler à travers une multitude de
try/catchet envoie la stack trace à des endroits absurdesMalgré cela, si l’on ne regarde que la fonctionnalité pure, il m’est souvent arrivé de le voir mieux marcher qu’un code humain à l’apparence similaire
Parce qu’il est difficile à raisonner, aussi bien pour les humains que pour les LLM
J’aimerais voir davantage de ce style de billet de blog
La longueur est juste, le message passe bien, et il y a une vraie dimension narrative
Avec toute la bouillie IA générée par LLM, longue comme des romans, qu’on voit aujourd’hui, c’est d’autant plus appréciable
Pour beaucoup de gens du secteur, cela ressemble à une évolution assez évidente
Le problème, c’est l’ampleur des sommes en jeu : les gros acteurs continuent donc à pousser ce qu’ils veulent
Ça donne envie d’imaginer que les particules subatomiques sont en réalité des univers à elles seules, et que leurs propriétés reflètent les traces d’êtres qui gouvernaient ces univers ainsi que les automatismes qui continuaient de tourner après leur disparition
Une sorte de machine automatique se reproduisant sans cesse en récoltant l’entropie
Nous sommes en train de construire une force plus grande que nous, et il se peut qu’à un moment nous atteignions un point de non-retour
Elle fait imaginer d’innombrables univers et civilisations subatomiques qui naissent et s’effondrent, parfois dévorés par des technologies pseudo-intelligentes autonomes, le tout se manifestant à l’échelle macroscopique sous la forme du comportement des particules
Nous aussi, en ce moment, nous sommes peut-être en train de créer une particule, et nos choix collectifs auront peut-être un effet minuscule mais significatif sur l’univers supérieur auquel nous appartenons
La sortie de quelqu’un devient toujours l’entrée de quelqu’un d’autre
Si les LLM augmentent le volume, la personne suivante utilisera à nouveau un LLM pour parser tout cela et produire sa propre sortie
Et à force de chaîner ainsi, quand le consommateur final se plaindra, plus personne ne pourra identifier précisément où ça a déraillé
Parce que c’est le seul qu’on a encore sous les yeux, pendant que tous les autres sont cachés derrière sept niveaux de proxy