Les effets secondaires d’une efficacité excessive (2022)

(sohl-dickstein.github.io)

6 points par GN⁺ 2024-09-30 | 2 commentaires | Partager sur WhatsApp

L’efficacité n’améliore les résultats que lorsque les objectifs et les métriques sont bien alignés ; sur-optimiser des métriques de substitution peut en réalité détériorer ce qui comptait vraiment
Le surapprentissage en machine learning illustre bien cette structure : même si les données d’entraînement et la fonction objectif de substitution s’améliorent, la performance réelle peut stagner ou se dégrader
Les exemples des examens standardisés, des bonus aux articles scientifiques, de la maximisation du circuit de récompense, du soutien de l’opinion, du partage d’information, du capitalisme et du paperclip maximizer montrent que le désalignement entre objectif et métrique de substitution se répète aussi dans les systèmes sociaux
Les pistes d’atténuation incluent l’alignement des objectifs de substitution, la régularisation, l’injection de bruit, l’arrêt anticipé, la limitation des capacités et l’augmentation des capacités ; elles appliquent par analogie aux systèmes sociaux les réponses au surapprentissage en machine learning
Si l’IA peut augmenter rapidement l’efficacité de presque toutes les tâches, alors les réformes institutionnelles qui rendent plus efficace la poursuite d’objectifs mal alignés peuvent devenir dangereuses

Une version forte de l’efficacité et de la loi de Goodhart

Contrairement à l’intuition, accroître l’efficacité peut produire de pires résultats, un phénomène que l’auteur appelle la version forte de la loi de Goodhart
Le suivi des progrès des élèves via des examens standardisés semble être une mesure centralisée et efficace, mais peut pousser les écoles à se concentrer sur la réussite aux tests plutôt que sur des compétences largement utiles
La loi de Goodhart dit que « lorsqu’une mesure devient un objectif, elle cesse d’être une bonne mesure »
- À l’origine formulée dans le contexte de la politique monétaire, elle peut s’appliquer à des domaines bien plus larges
- En machine learning, elle correspond au cas où la fonction objectif de substitution qu’on optimise cesse d’être une bonne mesure de l’objectif réel qui nous importe

Le lien avec le surapprentissage en machine learning

En machine learning, on ne peut pas optimiser directement l’objectif souhaité ; on utilise donc un jeu de données de substitution et une fonction objectif de substitution
- Dans un exemple de classification d’images, l’objectif réel est la précision de classification sur le jeu de test
- Le modèle ne peut pas être entraîné sur le jeu de test ; on utilise donc le jeu d’entraînement
- La précision n’est pas différentiable, donc difficile à utiliser comme objectif direct pour un entraînement naïf par descente de gradient ; on la remplace généralement par une valeur différentiable comme la softmax-cross-entropy loss
Au début, à mesure que les métriques de substitution s’améliorent, l’objectif réel s’améliore lui aussi
À mesure que l’optimisation continue, la similarité exploitable entre l’objectif et la métrique de substitution s’épuise ; la métrique de substitution continue de s’améliorer, mais l’objectif ne progresse plus
Une optimisation excessive peut détériorer absolument l’objectif réel, et dans bien des cas l’objectif diverge même à l’infini

En quoi cette version forte diffère de la loi de Goodhart au sens général

La loi de Goodhart au sens général considère que l’optimisation d’une métrique de substitution finit par ne plus améliorer l’objectif réel
La version forte considère qu’une mesure efficacement optimisée détériore au contraire l’objet même qu’elle cherchait à mesurer
En une phrase :
- « Lorsqu’une mesure devient un objectif, si elle est efficacement optimisée, alors l’objet qu’elle cherchait à mesurer se détériore »
Ce phénomène n’est pas exactement la même chose qu’un simple surapprentissage
- Le surapprentissage désigne un phénomène relatif où la métrique de substitution s’améliore plus que l’objectif
- L’accent mis ici porte sur le fait que l’objectif se détériore en valeur absolue
Sont aussi abordées des notions liées comme perverse incentives, Campbell’s law, Streisand effect, unintended consequences, Jevons paradox, negative externalities et Goodhart’s curse
- Goodhart’s curse inclut optimizer’s curse comme mécanisme causal, mais cela ne suffit pas, selon l’auteur, à expliquer pourquoi l’objectif réel devient absolument pire

Le surapprentissage qui se répète dans les systèmes sociaux

L’augmentation de l’efficacité se diffuse dans presque tous les aspects de la société
- Si ce qu’on rend plus efficace est réellement bénéfique, cela peut améliorer le monde
- Si l’on rend plus efficaces des choses socialement nuisibles, on peut aboutir à des résultats effrayants ou déprimants, comme la surveillance de masse ou les armes robotiques
- Le cas le plus fréquent est celui où l’on rend plus efficace quelque chose qui est lié à un résultat bénéfique, sans lui être identique
Quand l’objectif et la métrique de substitution divergent, les systèmes sociaux peuvent eux aussi surapprendre, comme en machine learning
- Objectif : bien éduquer les enfants Métrique de substitution : mesurer les élèves et les écoles par des examens standardisés Résultat : les écoles se concentrent sur des enseignements adaptés aux types de questions du test plutôt que sur les compétences de base que le test était censé mesurer
- Objectif : accélérer le progrès scientifique Métrique de substitution : verser une prime en argent pour chaque article Résultat : publication de résultats inexacts ou incrémentaux, collusion entre évaluateurs et auteurs, apparition d’usines à articles
- Objectif : mener une vie réussie Métrique de substitution : maximiser les circuits de récompense du cerveau Résultat : addiction aux drogues, addiction au jeu, temps perdu en doomscrolling sur Twitter
- Objectif : une population en bonne santé Métrique de substitution : l’accès à une nourriture riche et nourrissante Résultat : épidémie d’obésité
- Objectif : des dirigeants qui agissent selon l’intérêt de la population Métrique de substitution : les dirigeants qui obtiennent le plus de soutien populaire Résultat : des dirigeants qui concentrent leur expertise et leur énergie sur la manipulation de l’opinion plutôt que sur les résultats sociaux
- Objectif : des citoyens informés, réfléchis et engagés Métrique de substitution : la capacité des gens à partager et trouver facilement des idées Résultat : bulles de filtres, théories du complot, mèmes parasitaires, tribalisme renforcé
- Objectif : répartir le travail et les ressources selon les besoins de la société Métrique de substitution : le capitalisme Résultat : d’immenses écarts de richesse, de quelques centaines de dollars par an à quelques centaines de dollars par seconde, et plus d’un milliard de personnes dans la pauvreté
- Objectif : la richesse du propriétaire de Paperclips Unlimited, LLC Métrique de substitution : le nombre de trombones produits par l’usine automatisée pilotée par une IA Résultat : le scénario du paperclip maximizer, où l’ensemble du système solaire, y compris le propriétaire de l’entreprise, est transformé en trombones

Domaines où une efficacité excessive peut devenir dangereuse

Les domaines suivants sont présentés comme des exemples où les améliorations initiales ont pu être largement bénéfiques, mais où devenir trop performant pourrait produire de lourdes conséquences négatives
- téléprésence et réalité virtuelle
- médecine personnalisée
- thérapie génique
- messages marketing adaptés à chaque consommateur ou électeur
- prévision des résultats électoraux
- écriture de code
- intelligence artificielle
- suppression des marges de sécurité dans les chaînes logistiques
- diffusion rapide des idées
- génération de divertissement
- identification de nouveaux produits que les gens achèteront
- élevage industriel
- trading de titres
- extraction de poissons dans l’océan
- fabrication automobile

Atténuation 1 : alignement des objectifs de substitution et régularisation

Mieux aligner les objectifs de substitution avec les résultats souhaités constitue une première piste d’atténuation
- En machine learning, on collecte souvent avec soin des exemples d’entraînement aussi proches que possible des conditions de test
- En dehors du machine learning, on peut modifier des métriques de substitution contrôlables comme les lois, les incitations ou les normes sociales pour encourager directement des comportements mieux alignés avec l’objectif
Les pénalités de régularisation peuvent aussi atténuer l’optimisation excessive
- En machine learning, il est courant de pénaliser la norme carrée des paramètres pour maintenir de petites valeurs
- La régularisation n’a pas besoin de viser directement un comportement indésirable ; presque toute méthode qui pénalise l’écart à la typicalité peut bien fonctionner
Dans les systèmes sociaux, la régularisation est comparée à l’ajout de complexité, de friction ou de coûts supplémentaires
- Ajouter un mécanisme de paiement à SMTP pour imposer un faible coût à chaque e-mail
- Mettre en place un impôt progressif afin qu’un succès inhabituel s’accompagne d’un coût disproportionné
- Imposer des frais de justice proportionnels au carré ou à l’exponentielle du nombre de procès lancés par une organisation
- Taxer le nombre de bits d’information stockés sur les utilisateurs

Atténuation 2 : injection de bruit et arrêt anticipé

L’injection de bruit consiste à ajouter des perturbations aléatoires aux entrées, aux paramètres ou aux états internes du modèle afin de rendre le surapprentissage plus difficile
Dans les systèmes sociaux aussi, on peut introduire de l’aléa pour réduire les comportements trop ajustés à la métrique de substitution
- Après avoir classé les meilleurs candidats pour une école ou un emploi, au lieu de faire une offre ferme aux k premiers, on fait les offres selon des probabilités proportionnelles au classement
  - Cela peut accroître la diversité des admis
  - Cela peut réduire les ressources consacrées par les candidats au peaufinage extrême de leur dossier, ou par les évaluateurs à l’examen de micro-écarts de classement
  - Des candidats de long terme au profil plus risqué peuvent être retenus, mais aussi réussir de façon très précieuse et non conventionnelle
- Choisir la date des examens de manière aléatoire sans l’annoncer à l’avance afin d’encourager un apprentissage fondé sur la compréhension plutôt que le bachotage
- Exiger des places boursières qu’elles ajoutent un jitter aléatoire d’environ une seconde d’écart-type au moment de traitement des transactions
- Randomiser certains détails du vote le jour de l’élection afin d’éviter que les candidats ne surapprennent sur les détails accidentels du système électoral en vigueur
L’arrêt anticipé est présenté comme l’un des outils les plus efficaces, en machine learning, pour éviter un surapprentissage catastrophique
- On surveille la loss de validation en plus de la loss d’entraînement et des performances sur le test
- Si la loss d’entraînement continue de s’améliorer mais que la loss de validation commence à se dégrader, on arrête l’entraînement
Dans les systèmes sociaux, on peut répondre par des mécanismes qui arrêtent la sur-préparation, la sur-analyse ou la sur-optimisation
- Réduire fortement le temps entre un appel d’offres et la date limite de soumission pour mieux refléter le niveau de préparation existant
- Suspendre toute activité de marché si la volatilité boursière dépasse un certain seuil
- Démanteler, via le droit de la concurrence, les entreprises qui empêchent la concurrence
- Estimer l’importance d’une décision en argent, puis décider immédiatement lorsque la valeur du temps déjà consacré à l’analyse approche ce montant
- Geler l’information que les agents peuvent utiliser pour atteindre leur objectif, par exemple avec une limitation de la couverture médiatique dans les 48 heures précédant une élection

Relation entre capacité du modèle et surapprentissage

L’une des causes bien comprises du surapprentissage extrême est la situation où la capacité de représentation du modèle correspond de trop près à la complexité de la tâche de substitution
Si le modèle est très faible, il ne peut progresser que modestement sur la tâche et n’épuise pas la similarité entre objectif et métrique de substitution
Si le modèle est très puissant et a une forte capacité de représentation, il peut optimiser indépendamment l’objectif de substitution sans produire pour autant de comportements extrêmes ailleurs
Quand la capacité de représentation correspond approximativement à la complexité de la tâche, par exemple lorsque le nombre de paramètres n’est ni de plusieurs ordres de grandeur supérieur ni inférieur au nombre d’exemples d’entraînement, il peut être nécessaire d’adopter des comportements extrêmes ailleurs pour bien réussir la tâche de substitution
L’expérience-jouet de la Figure 1 entraîne des modèles qui mappent une entrée unidimensionnelle x vers une sortie unidimensionnelle y sur les mêmes 10 points de données
- Le modèle à 4 paramètres est trop faible pour ajuster exactement les points, mais les approxime en douceur
- Le modèle à 10 000 paramètres ajuste facilement tous les points et interpole aussi en douceur entre eux
- Le modèle à 10 paramètres est juste assez puissant pour ajuster les points, mais peut se tordre de manière extrême hors des données d’entraînement et très mal prédire de nouvelles valeurs de x
- Le détail de l’expérience se trouve dans ce notebook Colab

Atténuation 3 : limitation des capacités et augmentation des capacités

La limitation des capacités correspond à la technique de machine learning consistant à rendre le modèle suffisamment petit pour qu’il ne puisse pas surapprendre
- plafonnement du financement électoral
- fixation d’un nombre maximum de personnes autorisées à travailler dans certains types d’entreprises, par exemple limiter les groupes de lobbying à 10 personnes
- plafonnement du nombre de paramètres ou du compute d’entraînement qu’un système d’IA peut utiliser
L’augmentation des capacités répond à l’observation selon laquelle, quand un modèle devient très grand, le surapprentissage sur les données d’entraînement ne dégrade pas nécessairement les performances sur les données de test
- Il s’agit d’augmenter la capacité suffisamment pour qu’il n’y ait plus besoin de compromis de performance entre l’objectif et la métrique de substitution
- Un exemple donné est un scénario où toutes les bases de données deviennent librement accessibles et où des caméras sont installées dans tous les bâtiments, de sorte que toutes les informations sur toutes les personnes, les gouvernements et les organisations soient en permanence accessibles à tous
  - L’auteur précise que ce scénario est dystopique selon son propre système de valeurs
- investissement dans la recherche fondamentale sur l’énergie propre
- développer autant que possible des produits de marché complexes, opaques et variés sur de nombreuses échéances
- utiliser, dans tous les scénarios, les plus grands modèles d’IA possibles, très gourmands en compute et en données
Continuer à augmenter les capacités fonctionne étonnamment bien en machine learning et constitue la voie de moindre résistance
Chercher à réparer des institutions tout en les rendant aveuglément plus efficaces dans la poursuite d’objectifs mal alignés est présenté comme une très mauvaise idée

IA et pistes de recherche

La version forte de la loi de Goodhart est présentée comme le fondement d’une peur personnelle majeure à propos de l’IA
Le changement clé rendu possible par l’IA est une augmentation d’efficacité sur presque toutes les tâches dans un délai très court
Il faut traiter simultanément de nombreux effets secondaires indésirables, tandis que la capacité à coopérer pour les résoudre peut elle aussi être perturbée
Il existe une forte opportunité de recherche pour construire des ponts formels et mathématiques entre les résultats du surapprentissage en machine learning et des problèmes d’économie, de science politique, de management ou de recherche opérationnelle
- Un exemple mentionne l’usage d’une borne PAC-Bayes pour prédire le niveau optimal de pouvoir syndical afin de maximiser la richesse des travailleurs
- Un autre exemple consiste à estimer le spectre des variables qu’un candidat politique peut contrôler ou non dans une compétition politique afin de prédire le point de rupture politique
Plus les systèmes sociaux se dégradent à cause de la version forte de la loi de Goodhart, plus l’action collective rationnelle nécessaire pour les réparer devient difficile

2 commentaires

gguimoon 2024-10-02

J’ai entendu dire que l’examen du CSAT dans notre pays s’est éloigné de son objectif initial, qui était de mesurer les compétences en mathématiques, pour se transformer en un système cherchant uniquement à optimiser la répartition des seuils par niveau. Cela semble être un exemple qui n’échappe pas à la loi de Goodhart.

GN⁺ 2024-09-30

Avis sur Hacker News

Je connais Jascha comme un chercheur en machine learning extrêmement brillant, auparavant chez Google Brain et désormais chez Anthropic.
Avec ses coauteurs, il a utilisé des techniques issues de la physique et des statistiques — la théorie du champ moyen et les probabilités libres — pour caractériser mathématiquement la façon dont les signaux se propagent dans les réseaux de neurones profonds. À mon avis, c’est l’un des résultats théoriques et expérimentaux les plus profonds, mais aussi les plus sous-estimés, du machine learning de ces dix dernières années. Par exemple, la dynamical isometry [1] et les développements de cette idée ont joué un rôle important pour obtenir la convergence de modèles Transformer très profonds [2].
Après avoir lu cet article et ses exemples, il me semble évident que cette personne possède une intuition hors du commun sur l’optimisation, au-delà du machine learning, à l’échelle de la société moderne dans son ensemble. Il faut reconnaître ce bagage technique et élever le débat au-delà des querelles de mots sur le sens ou les définitions.
Le cœur du propos est un appel à l’action très humain et empathique, placé dans l’ombre des progrès technologiques rapides : « Si vous êtes un scientifique à la recherche d’idées de recherche prosociales et susceptibles de créer un domaine entièrement nouveau, vous devriez envisager de construire des ponts formels et mathématiques entre les résultats du surapprentissage en machine learning et des problèmes dans des domaines comme l’économie, la science politique, les sciences de gestion ou la recherche opérationnelle. »
[1] Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convolutional Neural Networks
http://proceedings.mlr.press/v80/xiao18a/xiao18a.pdf
[2] ReZero is All You Need: Fast Convergence at Large Depth
https://arxiv.org/pdf/2003.04887
- Le timing est intéressant. Il y a quelques jours, j’ai découvert les travaux du biologiste Olivier Hamant, qui posait exactement le même problème.
  Son argument central est qu’une très haute performance — c’est-à-dire l’efficacité et l’efficience vis-à-vis d’un objectif connu — et une grande robustesse face à de fortes variations du système sont physiquement incompatibles. La nature en offre de nombreux exemples et, contrairement à une idée reçue, l’évolution n’optimise pas la haute performance, mais la haute robustesse. Dans un monde abondant en ressources, donner la priorité à la performance pouvait avoir du sens, mais nous sommes désormais entrés dans une période totalement différente où l’instabilité est la norme. Pour devenir robustes, nous n’aurons pas d’autre choix que de revenir en arrière sur une partie de la performance, et nous finirons par y être contraints. C’est l’interprétation la plus fraîche et la plus intéressante de la polycrise que j’aie vue depuis longtemps.
  https://books.google.co.uk/books/about/Tracts_N_50_Antidote_...
- Traduction pour le grand public : il établit une analogie entre le machine learning et la structure mathématique de la transmission de signaux entre individus et institutions dans la société.
  En somme, le mathématicien estime qu’un problème qui affecte l’un des deux domaines — le surapprentissage en machine learning, où un entraînement excessif réduit la capacité de généralisation d’un réseau de neurones et lie fortement les fonctions qu’il peut imiter aux données d’entraînement — affectera aussi l’autre.
  En résumé, cela signifie que si les systèmes sociaux, ou la transmission de signaux entre eux, se développent de façon excessive, il existera forcément un point de rupture à partir duquel les choses empireront tout simplement. À titre personnel, il suffit à mes yeux de regarder ce qui se passerait si chacun respectait parfaitement tous les systèmes pour penser que, dans plusieurs secteurs, nous avons peut-être déjà largement dépassé ce point de rupture.
- J’aime bien l’idée de ReZero. Fondamentalement, il s’agit d’ajouter un paramètre apprenable α aux couches résiduelles.
  Deep Network | xi+1 = F(xi)
  Residual Network | xi+1 = xi + F(xi)
  Deep Network + Norm | xi+1 = Norm(F(xi))
  Residual Network + Pre-Norm | xi+1 = xi + F(Norm(xi))
  Residual Network + Post-Norm | xi+1 = Norm(xi + F(xi))
  ReZero | xi+1 = xi + αi F(xi)
  Cela dit, je ne l’ai jamais vu utilisé en pratique. Les articles sur Gemma et Llama semblent toujours utiliser la normalisation de couche. Est-ce que quelque chose m’échappe ?
- Ce qui rend cette idée intéressante, c’est que si l’on pouvait, par exemple, relier le fonctionnement de l’économie à celui du machine learning, des programmes informatiques exécutables, modifiables et transformables pourraient fournir directement des données mesurables sur les interactions de systèmes complexes.
  La réalité est si subtile et multicouche qu’il est difficile de vérifier formellement les concepts ; ces interactions ont donc surtout existé comme des idées platoniciennes. L’idée qu’il existe, sous l’économie, un sous-ensemble de logique prouvable et exacte est une idée puissante qui mérite vraiment d’être poursuivie.
- Écarter ainsi toute une catégorie d’objections sans en traiter réellement le contenu est une méthode assez manipulatrice.
  Il y a aussi plusieurs sophismes, comme l’appel à l’émotion ou à l’autorité, et cela ne correspond pas à l’esprit de curiosité intellectuelle que HN cherche à promouvoir.
Cet argument s’appuie sur la célèbre loi de Goodhart, selon laquelle lorsqu’une mesure devient un objectif, elle cesse d’être une bonne mesure.
Mais il n’explique le problème que comme un problème de mesure : comme nous ne pouvons pas mesurer ce qui nous importe vraiment, nous optimisons des indicateurs de substitution. À mon avis, c’est une perspective beaucoup trop réductionniste. Le problème ne tient pas seulement à la mesure, mais au comportement humain. Contrairement aux particules, les humains cherchent activement à exploiter tout système de contrôle que nous mettons en place.
C’est un problème bien plus profond que le simple fait de ne pas pouvoir bien mesurer des choses comme « paix, amour, chiots ». Je pense que la loi de Campbell [0] le saisit mieux que la loi de Goodhart classique : « Plus un indicateur social quantitatif est utilisé pour la prise de décision sociale, plus il est exposé aux pressions de corruption, et plus il est susceptible de déformer et de corrompre les processus sociaux qu’il était censé surveiller. »
Les mesures d’atténuation proposées, la régularisation et l’arrêt anticipé, ne traitent au mieux le problème qu’indirectement, et peuvent au pire créer de nouvelles singularités qui seront exploitées pour produire des comportements indésirables.
[0] https://en.wikipedia.org/wiki/Campbell%27s_law
- Dire que « les humains cherchent activement à exploiter tout système de contrôle que nous mettons en place » est juste, mais cela n’est possible que parce que le système de contrôle ne contrôle pas exactement ce que nous voulons contrôler.
  Un système de contrôle n’est qu’un proxy imparfait de ce que nous voulons réellement, ce qui ressemble beaucoup au rôle que joue la mesure dans la loi de Goodhart. Il existe aussi une autre variante, la loi des conséquences imprévues [0]. Il existe peut-être une version computationnelle ou issue des systèmes complexes, plus générale, que nous n’avons pas encore découverte.
  [0] https://www.sas.upenn.edu/~haroldfs/540/handouts/french/unin...
- Ce ne sont pas seulement les humains qui font cela, mais tout agent.
  Si l’on crée un algorithme génétique pour un agent IA récompensé lorsqu’il rapporte beaucoup de cobras morts à Delhi, il me semble que les agents qui commenceraient rapidement à élever des cobras obtiendraient les meilleures performances. Dans le cas humain comme dans le cas de l’IA, la fonction de récompense a été hackée. Pour l’IA, on estime que la fonction de récompense a été mal conçue ; pour les humains, on estime que les agents ont été rusés et peu moraux, et qu’ils ont « exploité » le système.
- Les humains n’aiment pas être évalués uniquement par des chiffres, et ils ont tendance à se rebeller contre les systèmes qui les serrent comme une vis, et à les manipuler.
  Cette citation me paraît donc très juste, et peu susceptible d’être gravement erronée.
- Ces « lois » sont des approximations et des réductions imparfaites.
  Celle qui est utile ou explicative dépend du cas concret. L’optimisation en machine learning, l’optimisation des algorithmes de réseaux sociaux et l’optimisation du système éducatif par des tests standardisés sont des choses différentes.
  Il n’existe pas d’abstraction parfaite qui corresponde exactement à toutes ces situations, et nous n’avons pas besoin d’une telle précision. Il suffit d’en tirer une intuition sur les endroits où les problèmes risquent d’apparaître.
En Suède, c’est devenu un problème social au cours des quelque 20 dernières années.
1 : En mesurant l’efficacité des soins par les « tâches accomplies » des médecins de premier recours, le dispositif a été optimisé pour traiter beaucoup de cas simples. Les médecins se contentent donc souvent d’un examen superficiel, prescrivent le médicament statistiquement approprié, par exemple de l’aspirine ou des antibiotiques, puis renvoient le patient chez lui ; ou, si le cas paraît complexe, l’adressent à un spécialiste.
Le problème, c’est qu’avec cette rationalisation, le nombre de médecins de premier recours a diminué et ceux-ci sont, de fait, devenus des travailleurs à la chaîne. Le contact personnel avec les patients a disparu, ce qui rend plus difficile de repérer les signaux indiquant que quelque chose ne va pas. Résultat : des maladies comme le cancer sont souvent diagnostiquées trop tard, et même si les traitements spécialisés contre le cancer se sont améliorés, il est souvent déjà trop tard pour intervenir.
2 : Le système ferroviaire a été privatisé et, à en juger par le volume de marchandises transportées, cela a probablement été un grand succès. Mais le système laisse très peu de marge aux trains en retard pour rattraper leur retard, ni pour faire davantage que la maintenance de base ; les retards sont donc fréquents et finissent par entraîner des problèmes plus importants.
- Comme le disait Steve Jobs, il y a des exemples partout.
  « Quand une entreprise devient assez grande, elle veut reproduire son premier succès. Tout le monde réfléchit au processus qui a permis ce premier succès. On reproduit donc ce processus dans toute l’entreprise. Peu de temps après, les gens confondent le processus avec le contenu. »
  Cela s’applique aussi bien aux petites entreprises qu’aux plus grands gouvernements du monde. La plupart ont oublié leur contenu.
- J’aimerais que les plus gros problèmes auxquels sont confrontés le rail et le secteur de la santé aux États-Unis se limitent à cela.
Il existe une loi liée à la théorie des files d’attente : quand le taux d’utilisation approche 100 %, le temps d’attente diverge vers l’infini.
Si un processus, une machine ou un ingénieur ne dispose pas d’une certaine marge, certaines tâches attendront éternellement.
- Je me souviens avoir lu autrefois que les villes utilisent les ressources de manière beaucoup plus efficace que les banlieues ou les zones rurales.
  En repensant à cette remarque sur les temps d’attente, je comprends maintenant pourquoi les villes sont si désagréables : c’est à cause de la concurrence permanente pour les ressources.
- J’ai travaillé autrefois dans une usine, et le taux d’utilisation visé à l’étape de planification était de 80 %.
  Si l’on surestime le taux d’utilisation, on gaspille de l’argent ; si on le sous-estime, les tâches « sans importance » commencent à s’accumuler en énormes files d’attente.
- On peut intégrer une mesure de robustesse dans les critères d’optimisation.
  On peut optimiser explicitement pour conserver une marge d’utilisation suffisante afin de faire face aux imprévus. Par exemple, en priorisant les charges du système, on peut libérer de la capacité en situation d’urgence en abandonnant les charges de faible priorité, sans devoir laisser le système inactif lorsqu’il est peu sollicité.
  Je comprends ce que l’article veut dire, mais ce n’est pas une raison pour renoncer aussi facilement à l’optimisation.
- J’ai le sentiment qu’un système efficace à 100 % n’a aucune résilience.
  Une petite perturbation dans un sous-système peut entraîner un effondrement majeur. Nous en avons vu une version extrême lors des ruptures de chaînes d’approvisionnement dues au COVID-19. Les constructeurs automobiles avaient mis en place des systèmes de production juste-à-temps presque à 100 %, incapables d’absorber la pénurie de puces, et il leur a fallu des années pour s’en remettre.
  La marge pour expérimenter disparaît aussi. Toute expérimentation doit alors se faire à l’extérieur du système, et non en son sein.
- C’est vrai. J’ai travaillé dans plusieurs entreprises et équipes, et les tâches qui n’étaient pas P0 n’étaient, en pratique, jamais traitées.
On trouve aussi des exemples de cette loi d’approximation en physiologie de l’exercice
Pour le grand public, il existe beaucoup de bons indicateurs indirects de la condition physique. On peut s’entraîner au sprint, au saut vertical, au squat, au clean and jerk, etc. Courir plus vite, sauter plus haut, squatter plus lourd : tout cela indique que la condition physique progresse et que l’entraînement réussit.
Premièrement, plus la méthode d’entraînement est générale, plus l’indicateur est significatif. Par exemple, si la mesure de la condition physique est « peut-on pousser une voiture en haut d’une côte ? » et que les méthodes d’entraînement sont le sprint et la natation, pousser une voiture plus lourde est un indicateur fort de réussite. À l’inverse, si la méthode d’entraînement est « s’exercer à pousser des voitures », la même amélioration ne signifie pas le même niveau de gain de condition physique.
Deuxièmement, plus un athlète se spécialise, comme un pratiquant de clean and jerk, moins l’amélioration des performances reflète la condition physique générale. Passer de zéro à un niveau d’haltérophilie amateur implique une augmentation globale de la force et de la masse musculaire, mais passer du niveau universitaire au niveau olympique exige généralement des qualités physiques hautement spécialisées qui se transfèrent mal à d’autres activités.
La notion sportive de condition physique de base et de pic de forme pourrait être une métaphore similaire. Entraîner par accident une performance maximale non durable est aussi un piège de la sur-optimisation. Cela peut arriver si l’on suit aveuglément le simple fait que « la courbe monte », et une optimisation apparemment fantastique peut en réalité vous enfermer dans un maximum local. Je pense qu’il existe de nombreuses analogies non seulement en biologie, mais aussi dans l’optimisation en machine learning et dans les phénomènes sociaux.
- Le clean and jerk peut presque être considéré comme l’un des mouvements « complets » par excellence
  C’est encore plus vrai si l’on y ajoute des variantes de squat. Ce n’est donc peut-être pas le meilleur exemple. Je ne connais personne capable de faire plusieurs clean and jerks avec une charge supérieure à son poids de corps sans être un monstre sur la plupart des dimensions significatives de la condition physique humaine.
  Le corps humain est une seule machine, et les réponses hormonales sont systémiques. L’endurance et la force forment un spectre, mais l’ensemble du corps suit.
- C’est plutôt le signe que la « condition physique générale » n’est pas une mesure rigoureuse
  Jusqu’à un certain point, le concept flou de « capacité physique » convient, mais au-delà, il perd son sens, car les gains de performance se spécialisent par tâche et ne se transfèrent pas aux autres tâches.
C’est pourquoi je n’aime pas qu’on se focalise sur le PIB. Je pense que des enquêtes trimestrielles sur la satisfaction de vie et l’optimisme seraient de meilleurs indicateurs
Si le PIB vous intéresse : si ma voiture tombe en panne et que je la fais réparer, le PIB augmente. Si des parents restent à la maison pour élever leurs enfants, le PIB baisse. Si je nettoie moi-même ma maison, le PIB baisse.
Le taux de chômage est aussi un indicateur grossier. Il ne dit pas si ces emplois sont ceux que les gens veulent, ou s’ils ont le sentiment de devoir accepter de mauvais emplois.
- Je ne suis pas vraiment en désaccord avec l’idée que le PIB est une mesure grossière ; j’essaie de clarifier ma pensée
  Je ne pense pas que la satisfaction de vie et l’optimisme des individus doivent dépendre fortement de l’économie d’un État-nation, encore moins au point que le gouvernement en fasse un objectif d’optimisation. Le rôle du gouvernement est de créer les conditions de sécurité, de prospérité et d’opportunités, sans opprimer le reste du monde ni détruire la planète.
  Dans ce cadre, c’est à moi de trouver une vie satisfaisante, et une telle vie est possible dans des structures économiques et sociales très différentes. De même, il n’existe probablement pas de conditions qui apportent une satisfaction universelle à tous les citoyens ; dans ce cas, quelle statistique agrégée de satisfaction de vie et d’optimisme faudrait-il optimiser ?
- L’essentiel est que peu importe ce que l’on mesure
- Il est ironique qu’en machine learning on manipule des vecteurs de milliers de grandeurs, alors que pour mesurer la société et l’économie on n’utilise qu’un seul nombre, ou quelques-uns
  Dans les discours ordinaires — médias, responsables politiques, forums, etc. — tout est toujours fortement simplifié autour de quelques métriques. Un discours reposant sur des milliers de métriques est trop complexe pour être communiqué facilement.
  J’espère qu’un jour la plupart des gens admettront implicitement que moins il y a de métriques, plus il est probable qu’il s’agisse d’une simplification qui cache quelque chose. Par exemple : « X est milliardaire, donc il est intelligent », ou « le pays X a un PIB élevé, donc il vaut mieux que le pays Y au PIB plus faible ».
- Je suis d’accord, et cela s’applique aussi au capitalisme dans son ensemble
  On trouve ici les grandes lignes d’une proposition visant à remplacer le capitalisme et les anciennes alternatives de planification centrale qui ont échoué :
  https://jacobin.com/2019/03/sam-gindin-socialist-planning-mo...
  Dans le passage pertinent, il est expliqué que les pierres angulaires du socialisme sont la planification et le contrôle par les travailleurs, mais que des plans trop ambitieux ont échoué à la manière soviétique, tandis que des lieux de travail trop autonomes ont échoué à la manière yougoslave. La planification globale n’est ni efficace ni souhaitable, et la décentralisation vers des collectifs de travail est économiquement trop fragmentée pour identifier l’intérêt social, et politiquement trop fragmentée pour influer sur la planification. La question centrale est donc de savoir comment transformer l’État, la planification, les lieux de travail et leurs relations afin de résoudre ce dilemme.
  Dans le capitalisme comme dans le socialisme, l’unité opérationnelle est le lieu de travail. Dans le capitalisme, il fait partie d’unités de capital concurrentes ; dans le socialisme, les unités privées vouées à leur propre expansion étant exclues, les collectifs de travail s’inscrivent dans des « secteurs » constitués de manière pragmatique selon des technologies, des produits, des services, des histoires passées communes, etc. Ces secteurs deviennent les unités centrales de la planification économique et relevaient traditionnellement de ministères nationaux comme les mines, les machines, la santé, l’éducation ou les transports.
  L’innovation radicale consiste ici à transférer l’autorité et les capacités de planification des ministères hors de l’État, vers la société civile. Les anciens ministères sont constitutionnellement reconnus, mais placés en dehors de l’État, et réorganisés en conseils sectoriels dirigés par des représentants élus des lieux de travail de chaque secteur. La commission centrale de planification continue d’allouer des fonds à chaque secteur selon les priorités nationales, mais la concentration du pouvoir des lieux de travail au niveau sectoriel modifie l’équilibre des pouvoirs entre l’État et les travailleurs, et permet de traiter les problèmes du marché d’une manière plus compatible avec le socialisme.
  L’enjeu central est l’équilibre entre les incitations qui accroissent les inégalités et un biais d’investissement égalitariste. Le surplus gagné par chaque collectif de travail peut servir à accroître la consommation collective ou individuelle, mais pas à réinvestir. Les priorités nationales sont fixées au niveau de la planification centrale par des processus et des pressions démocratiques, puis traduites en allocations d’investissement par secteur. Les conseils sectoriels répartissent les fonds d’investissement entre les collectifs de travail dont ils ont la charge, mais, contrairement à une décision de marché, ils ne favorisent pas davantage les lieux de travail les plus productifs au risque de reproduire des écarts permanents ; ils prennent plutôt comme critère principal le fait de rapprocher la productivité des collectifs les plus faibles de celle des meilleurs.
  Contrairement à ce qu’affirmait Hayek, c’est plutôt le capitalisme qui empêche le partage systématique de l’information. La propriété privée et la maximisation du profit impliquent que l’information est un actif concurrentiel et doit donc être cachée. Dans le socialisme, au contraire, le partage actif de l’information est une condition indispensable au fonctionnement, et il est institutionnalisé comme une responsabilité des conseils sectoriels.
J’essayais de me rappeler où j’avais entendu le nom de cet auteur
C’est la personne qui a inventé le premier modèle de diffusion générative en 2015
https://arxiv.org/abs/1503.03585
- Je m’en souviens surtout pour un article ingénieux de 2019 écrit avec Stephan Hoyer et Sam Greydanus
  Il y est question de faire de l’optimisation structurelle en utilisant un réseau de neurones contraint à servir de dépôt, de modificateur et d’ajusteur du modèle physique décrivant la structure à optimiser : https://arxiv.org/abs/1909.04240
  Une approche très intéressante, et l’article est aussi très bien écrit
Ça me fait penser aux fois où l’on va dans une chaîne de restaurants
Tout y a été optimisé à coups de focus groups, et cela ressemble à une métrique proxy surajustée pour un repas agréable. On a l’impression d’être dans une machine évidente, optimisée pour m’extraire du profit quand je viens, et le fait que ce soit un restaurant paraît presque secondaire
C’est le genre de scène où quelqu’un dit : « Bonjour ! Je m’appelle Tracy ! Je serai votre serveuse ce soir ! », puis écrit parfaitement son nom à l’envers au crayon sur la nappe en papier. On dirait que cet endroit aurait besoin de recalibrer un peu la personnalité de son personnel
Je pense que cela s’applique aussi quand des managers essaient de sur-optimiser les processus de travail
Au bout du compte, les personnes créatives perdent tout intérêt et le travail devient insupportable. Je pense qu’il faut un peu de chaos dans le travail comme dans la vie
- À force de vouloir trop optimiser les parties que je n’ai pas envie de faire, je finis souvent par tuer moi-même mon envie de lancer plein de projets parallèles
  Il faut juste expédier la partie pénible et passer à autre chose. Au moins, personne ne me paie pour me faire entraîner dans ce tourbillon
J’ai vu un exemple de cette loi dans une grande quincaillerie de quartier
Il y a une dizaine d’années, le magasin a installé des cages verrouillées antivol. Au début, seuls les articles chers y étaient placés, et c’était un peu gênant, mais pas trop. Si l’on achète un outil électroportatif haut de gamme à plus de 200 dollars, on accepte en général d’attendre cinq minutes
Puis, quelques années plus tard, un changement est apparu, presque certainement piloté par les données. Soudain, il n’y avait plus de logique identifiable dans ce qui était enfermé et ce qui restait en libre accès. Désormais, un outil de diagnostic à 500 dollars pouvait être posé librement en rayon, tandis qu’une ampoule à 5 dollars pouvait se trouver derrière un cadenas
C’était probablement le résultat d’un tri de la base de données par pertes cumulées dues au vol. Autrement dit, on enfermait les articles qui faisaient perdre le plus d’argent à la quincaillerie
Résultat, l’ambiance du magasin donne l’impression d’un endroit « tellement obsédé par le profit qu’il ne fait pas confiance aux clients pour ne pas voler même une boîte de cure-dents », et, côté client, cela ne vaut souvent pas la peine d’attendre un employé pour ouvrir une cage
Même si cela a empêché le vol de quelques savons à 3 dollars, je doute que cette optimisation ait aidé le bénéfice net
- Il est beaucoup plus pratique d’acheter sur Amazon que de chercher quelqu’un pour ouvrir une vitrine en verre à la pharmacie
  Les pharmacies qui mettent même les produits de base sous verre sont généralement aussi en sous-effectif
- Dire « on verrouille les articles qui causent le plus de pertes cumulées à la quincaillerie à cause du vol » et « je doute que cette optimisation ait aidé le bénéfice net » semble être une contradiction directe
  À moins de vraiment penser que cela a poussé les gens à ne plus aller dans ce magasin, et que cette perte dépasse la baisse des vols. En plus, même si les gens n’y vont plus, les grandes quincailleries concurrentes du coin font probablement la même chose. Il faut aussi se rappeler que les marges dans le commerce de détail ne sont généralement pas énormes. Quand un article est volé, combien d’autres faut-il vendre pour compenser la perte ? Même si une partie des clients passe chez Amazon, éviter le vol peut rester rentable
  En réalité, il est bien plus probable que cela ait eu le plus gros impact sur la réduction des vols. Si la « logique identifiable » n’est pas visible, c’est peut-être simplement parce qu’on n’a pas d’expérience dans ce domaine. Le vol dépend souvent davantage de la facilité de revente que du prix de l’article. Un outil électroportatif de niche coûteux peut prendre longtemps à revendre, tandis que de la lessive et des lames de rasoir peuvent être écoulées en gros le jour même. Les gens utilisent beaucoup plus souvent de la lessive et des lames de rasoir que des ampoules
  Je comprends que l’inconvénient soit agaçant. Mais à mon avis, le reproche devrait viser les voleurs, ou les facteurs qui produisent le vol, plutôt que le magasin