2 points par GN⁺ 3 일 전 | 1 commentaires | Partager sur WhatsApp
  • Alors que les LLM imitent parfaitement la qualité de surface, les indicateurs indirects (proxy measures) qui servaient à juger la qualité réelle du travail intellectuel deviennent inopérants
  • Comme il est difficile d’évaluer la qualité intrinsèque du travail intellectuel, on s’est appuyé sur des indicateurs indirects tels que la finition formelle des documents ; or les LLM les franchissent facilement
  • Le code et les rapports rédigés par l’IA paraissent professionnels à première vue, mais leur exactitude ou leur utilité réelles passent sans être vérifiées
  • Les LLM eux-mêmes sont entraînés non pas sur « est-ce correct ? » mais sur « est-ce plausible ? », ce qui leur fait intégrer le même problème d’indicateur indirect
  • Avertissement : des systèmes construits à coups de dizaines de milliards de dollars sont utilisés non pour exécuter le travail réel, mais comme des outils qui produisent le simulacre du travail

Rôle et limites des indicateurs indirects (Proxy Measure)

  • Lorsqu’on reçoit un rapport d’analyse de marché, il est fréquent de rejeter l’ensemble du document à cause de défauts de surface comme une erreur de date, des fautes de frappe ou des graphiques dupliqués
  • Ce qui nous intéresse réellement, c’est de savoir si le rapport reflète la réalité et conduit à de bonnes décisions ; mais le vérifier directement coûte cher
  • La qualité de surface coûte peu à vérifier et présente une corrélation suffisante avec la qualité réelle, d’où son rôle d’indicateur indirect
  • Ce problème existe dans tout travail intellectuel : comme juger objectivement la qualité du travail d’autrui exige beaucoup d’efforts, on dépend fortement d’indicateurs indirects

Le mécanisme par lequel les LLM ont neutralisé les indicateurs indirects

  • Les indicateurs indirects servaient jusqu’ici à freiner les incitations mal alignées (misaligned incentives), mais les LLM ont fait sauter ce verrou
  • Les LLM excellent à simuler le style d’écriture sans pour autant reproduire la qualité réelle du travail
  • Si l’on demande à ChatGPT un rapport d’analyse de marché, le résultat donne l’impression d’avoir été rédigé par un expert d’un cabinet de conseil de tout premier plan
  • Lorsqu’un ingénieur logiciel produit des milliers de lignes de code avec l’IA, un survol de quelques secondes suffit pour que cela semble être du code de haute qualité
    • Les collègues confient eux aussi la revue de code à l’IA et traitent mécaniquement les problèmes détectés, si bien que seul le rituel du travail est préservé, sans garantie sur la qualité réelle

Le même problème, inhérent aux LLM eux-mêmes

  • Le processus d’entraînement des LLM n’évalue pas non plus si « la réponse est vraie » ou « la réponse est utile »
  • Les critères d’entraînement reviennent à demander : « est-ce le type de réponse qu’on trouverait dans les données d’entraînement ? » ou « est-ce une réponse qui satisfait un évaluateur RLHF ? »
  • En conséquence, les LLM sont optimisés pour produire des sorties qui ont l’air de livrables de haute qualité, et ils sont extrêmement performants dans cette optimisation

Avertissement sur la situation actuelle

  • Des systèmes développés avec des dizaines de milliards de dollars sont utilisés pour exécuter le simulacre du travail
  • Les entreprises rivalisent pour décrocher la première place au classement de la consommation de tokens
  • Plus les travailleurs produisent de sorties issues des LLM, moins ils passent de temps à les examiner en profondeur
  • Au final, il ne reste plus qu’à survoler, apposer un « LGTM », puis ouvrir la 17e session de Claude Code

1 commentaires

 
GN⁺ 3 일 전
Réactions sur Hacker News
  • Comme le dit l’article, je ne suis pas totalement d’accord ni avec l’idée qu’il était facile d’évaluer la qualité du travail intellectuel humain à travers des indicateurs de substitution comme les coquilles ou les petites erreurs, ni avec l’idée que le problème vient du fait que ces indices n’existent pas chez l’IA
    Il y a toujours eu beaucoup de productions humaines conceptuellement médiocres, mais factuellement correctes et formellement propres
    Après dix ans de travail avec des clients en entreprise, je ne dirais absolument pas que l’époque pré-LLM était un âge d’or du travail intellectuel de qualité ; à l’époque aussi, on croulait sous toutes sortes de déchets qui n’étaient rien d’autre qu’un simulacre fonctionnel du travail intellectuel

    • Pour moi, le plus gros problème est plutôt la disparition de l’explicabilité humaine des erreurs
      Un résultat médiocre produit par une personne a généralement une cause — ignorance, pression du temps, objectifs égoïstes — et ces causes sont assez cohérentes
      On peut repérer des schémas de confiance, comme un stagiaire prudent mais qui ne sait pas, ou un senior très compétent mais privé de sommeil qui rate une évidence
      Avec l’IA, en revanche, on peut avoir dans une même exécution une implémentation parfaite d’un article scientifique puis une erreur de niveau première année, ce qui crée une situation contre-intuitive où, face à une machine capable d’une compétence extrême, il faut faire une revue en partant de l’hypothèse d’une incompétence totale
    • L’époque pré-LLM n’était pas un âge d’or de la qualité, mais il est vrai que les LLM ont supprimé un autre marqueur qui permettait de repérer le travail bâclé et absurde produit à la va-vite
    • À l’origine, ce genre de choses n’était pas une détection positive, mais un filtre négatif
      La présence de coquilles ou d’erreurs factuelles élémentaires permettait d’éliminer facilement un travail, mais leur absence ne signifiait pas pour autant qu’il était de qualité
      En général, ce contrôle n’est qu’un premier barrage, pas l’ensemble de l’évaluation ; une fois ce barrage franchi, les vrais problèmes deviennent plus faciles à voir
      En code, c’est un peu comme remettre d’abord d’aplomb le lint et le style avant d’examiner le reasoning
    • On peut repérer des formulations typiques de l’IA, mais on risque de rater les 99 % restants de texte généré par IA qui ne portent aucun marqueur
      Et comme on ne sait pas soi-même que ces 99 % viennent d’une IA, on peut facilement se convaincre qu’on filtre tous les textes IA simplement parce qu’on reconnaît les 100 % des motifs qu’on a déjà identifiés
    • Je ne pense pas que ce soit fondamentalement le point le plus important
      À l’origine, une grande partie du travail intellectuel servait déjà de substitut à autre chose
      Une qualité sans fautes et à la forme impeccable était souvent surtout un signal de respect, comme une chemise blanche repassée et une cravate, et beaucoup de longs documents n’étaient en réalité jamais lus en profondeur
      Au fond, c’était une manière symbolique de montrer le sacrifice et la soumission, et les LLM sont en train de détruire ce système de signaux
      Si, même avant, on n’évaluait pas vraiment la qualité du contenu lui-même, c’est peut-être que ce contenu n’était pas si important au départ
  • Dans le monde académique, le problème du coût de revue lié à l’IA apparaît déjà, mais pas tout à fait pour les raisons évoquées dans l’article
    Le cœur du problème n’est pas tant la disparition des marqueurs de travail médiocre que le fait que le coût d’une vérification minutieuse des productions faites avec l’IA devient trop élevé pour être supporté par des humains seuls
    Par exemple, dans les revues d’économie, les annexes peuvent atteindre des centaines de pages, alors que le temps humain disponible pour les lire est limité
    Je me demande si, dans d’autres disciplines aussi, les revues subissent non seulement une hausse du nombre de soumissions, mais aussi une pression croissante sur l’intensité de la revue nécessaire pour valider chaque article

    • Pour être juste, dans beaucoup de disciplines, à partir du niveau master et au-delà, le simple fait de trancher exige déjà une forte expertise
      En dessous de ce niveau, il est parfois presque impossible de distinguer ce qui est correct de ce qui a seulement l’air correct
  • En utilisant l’IA, j’ai l’impression de cargo-cultiver la compréhension
    On reproduit l’apparence extérieure du fait d’avoir compris quelque chose, tout en se retirant à soi-même le temps et l’effort nécessaires pour vraiment le comprendre

    • C’est quelque chose que je pense souvent en observant un collègue avec qui je travaille : dans son esprit, les scénarios d’usage de l’IA relèvent presque uniquement du fantasme d’un Jarvis personnel
      Il croit que si on gave Claude de Snowflake Cortex, du code intégré, de la documentation et des tickets Jira, on pourra lui demander n’importe quoi et que tout ira beaucoup mieux
      Pourtant, cette obsession n’a pas produit de grands résultats, et il a lui-même déjà fait plusieurs fois l’expérience brutale des limites de la technologie
      Tout le monde parle d’agentic workflow et de la vision d’un immense wiki interne, mais de mon côté, je préfère utiliser l’IA pour accélérer assez nettement la livraison sans perdre de temps dans des aventures grandiloquentes, et je continue à produire des résultats
      Il y a aussi une ironie à voir des gens qui critiquaient autrefois l’adoption des chatbots en entreprise brûler maintenant des tokens pour construire leur propre chatbot à partir de milliers de milliards de fichiers .md et de fichiers de skills
      Ce qui m’inquiète vraiment, c’est la perte de la connaissance réelle à l’échelle institutionnelle dans tous ces raccourcis
      Demander un petit exemple ou une explication de concept, très bien ; mais écrire des prompts du type « examine nos outils et notre infrastructure actuels, augmente par 5 notre vitesse de déploiement, fais de la recherche web, rédige une proposition d’adoption pour l’organisation et une analyse coûts-bénéfices sur 5 ans », c’est affaiblir les gens eux-mêmes
      En ce moment, tout le monde balance partout des propositions générées par Claude, en sautant l’étape où l’on creuse un peu soi-même ou où l’on explore avec un architecte ou un ingénieur senior
      Résultat : on comprend beaucoup de choses seulement en surface, on a du mal à expliquer dès qu’on creuse, et on croit à la réponse de l’IA comme à une stratégie définitive, au point de ne plus vouloir qu’elle soit remise en question
      On ne voit même plus l’occasion d’apprendre auprès de personnes plus expérimentées comme une véritable expérience d’apprentissage
      Au final, je continue de penser que le cerveau humain reste l’une des technologies les plus impressionnantes qui soient, et je me demande pourquoi on essaie à tout prix de construire à l’extérieur de nous cette immense bibliothèque artificielle
    • Ici, je dirais qu’il s’agit moins d’un cargo cult de la compréhension que d’un cargo cult du point de vue managérial
      Comme le dit Bret Devereaux dans sa critique de Game Of Thrones, une vision du monde vue du point de vue des élites n’a l’air plausible, voire utopique, que pour les élites elles-mêmes
      Ce genre de bulle, coupée du travail réel, finira par éclater violemment ; et quand les masses ayant perdu leur emploi à cause de l’IA diront qu’elles n’ont même plus de pain, répondre qu’elles n’ont qu’à manger de la brioche fait imaginer un retour de bâton de l’ampleur de la Révolution française
    • À l’inverse, l’IA peut bel et bien faire des choses à ma place même sans que je les comprenne
      Mais comme outil pour chercher à comprendre en profondeur, il y a en réalité peu de choses aussi bonnes que l’IA
  • Au fond, comprendre quelque chose revient presque à le faire soi-même
    Ce n’est pas grave de ne pas comprendre, mais dans ce cas, qu’il y ait ou non des indicateurs de substitution, on n’a finalement pas d’autre choix que de faire confiance à la compréhension de quelqu’un d’autre
    Aller vers moins de travail et plus de confiance reste possible jusqu’à un certain point, mais au-delà, c’est le travail futur qui devient fragile
    simulacrum est vraiment un excellent mot

    • Le concept de Simulacrum vient de Baudrillard, et son essai Simulation and Simulacra aide pas mal à comprendre pourquoi l’économie moderne est devenue aussi étrange
  • C’est peut-être pour ça que les managers intermédiaires ont semblé être les premiers véritables fidèles du suprémacisme LLM
    Les managers intermédiaires ont beaucoup d’incitations à pousser l’abstraction continue du travail intellectuel, au-delà de la maîtrise réelle du rôle, et il semble que cette couche abstraite se décrive particulièrement bien dans l’espace d’embedding

  • Le code IA a souvent l’air pire qu’il ne l’est réellement
    Il est excessivement verbeux, confus, rempli de fallback ; quand un problème survient, il se met à ruisseler à travers une multitude de try/catch et envoie la stack trace à des endroits absurdes
    Malgré cela, si l’on ne regarde que la fonctionnalité pure, il m’est souvent arrivé de le voir mieux marcher qu’un code humain à l’apparence similaire

    • Cela dit, le code décrit ainsi reste malgré tout du mauvais code
      Parce qu’il est difficile à raisonner, aussi bien pour les humains que pour les LLM
  • J’aimerais voir davantage de ce style de billet de blog
    La longueur est juste, le message passe bien, et il y a une vraie dimension narrative
    Avec toute la bouillie IA générée par LLM, longue comme des romans, qu’on voit aujourd’hui, c’est d’autant plus appréciable

  • Pour beaucoup de gens du secteur, cela ressemble à une évolution assez évidente
    Le problème, c’est l’ampleur des sommes en jeu : les gros acteurs continuent donc à pousser ce qu’ils veulent

  • Ça donne envie d’imaginer que les particules subatomiques sont en réalité des univers à elles seules, et que leurs propriétés reflètent les traces d’êtres qui gouvernaient ces univers ainsi que les automatismes qui continuaient de tourner après leur disparition
    Une sorte de machine automatique se reproduisant sans cesse en récoltant l’entropie
    Nous sommes en train de construire une force plus grande que nous, et il se peut qu’à un moment nous atteignions un point de non-retour

    • Je ne suis pas certain de l’avoir entièrement saisi, mais je trouve cette idée fascinante
      Elle fait imaginer d’innombrables univers et civilisations subatomiques qui naissent et s’effondrent, parfois dévorés par des technologies pseudo-intelligentes autonomes, le tout se manifestant à l’échelle macroscopique sous la forme du comportement des particules
      Nous aussi, en ce moment, nous sommes peut-être en train de créer une particule, et nos choix collectifs auront peut-être un effet minuscule mais significatif sur l’univers supérieur auquel nous appartenons
  • La sortie de quelqu’un devient toujours l’entrée de quelqu’un d’autre
    Si les LLM augmentent le volume, la personne suivante utilisera à nouveau un LLM pour parser tout cela et produire sa propre sortie
    Et à force de chaîner ainsi, quand le consommateur final se plaindra, plus personne ne pourra identifier précisément où ça a déraillé

    • Bien sûr, à ce moment-là, on dira que c’est le dernier utilisateur qui a mal utilisé le système
      Parce que c’est le seul qu’on a encore sous les yeux, pendant que tous les autres sont cachés derrière sept niveaux de proxy