6 points par GN⁺ 2024-09-30 | 2 commentaires | Partager sur WhatsApp

Une efficacité trop élevée aggrave tout : surapprentissage et version forte de la loi de Goodhart

Quand l’efficacité augmente, les résultats peuvent paradoxalement se dégrader. C’est vrai presque partout. Appelons ce phénomène la version forte de la loi de Goodhart. Par exemple, le suivi centralisé de la réussite des élèves via des tests standardisés peut sembler être une bonne idée, mais cela peut pousser les écoles à se concentrer sur la préparation aux examens et détériorer les résultats éducatifs dans leur ensemble. On trouve des exemples similaires dans de nombreux domaines, notamment en politique, en économie, en santé et en science.

Surapprentissage et loi de Goodhart

  • Surapprentissage : en machine learning, on ne peut pas viser directement l’objectif, donc on entraîne le modèle à l’aide d’un proxy similaire. Au début, quand le proxy s’améliore, l’objectif s’améliore aussi, mais si l’on poursuit l’optimisation, le proxy continue de s’améliorer alors que l’objectif cesse de progresser. C’est ce qu’on appelle le surapprentissage.
  • Loi de Goodhart : quand une mesure devient un objectif, elle cesse d’être une bonne mesure. Cela s’applique non seulement à l’économie, mais aussi à de nombreux autres domaines.

Version forte de la loi de Goodhart : quand on devient trop efficace, ce qui nous importe se dégrade

  • Continuer à optimiser un objectif proxy peut dégrader l’objectif lui-même. C’est un phénomène très courant en machine learning.
  • Version forte de la loi de Goodhart : lorsqu’une mesure devient un objectif et qu’elle est optimisée efficacement, ce qu’elle était censée mesurer se dégrade.

L’augmentation de l’efficacité et le surapprentissage sont partout

  • Une hausse de l’efficacité peut produire, à l’échelle de la société, des effets positifs comme négatifs.
  • Exemples :
    • Objectif : bien éduquer les enfants
      • Proxy : scores aux tests standardisés
      • Résultat : on se concentre uniquement sur la préparation aux examens, ce qui réduit la qualité réelle de l’enseignement
    • Objectif : faire progresser rapidement la science
      • Proxy : bonus liés au nombre de publications
      • Résultat : augmentation de la publication de résultats de recherche inexacts
    • Objectif : une population en bonne santé
      • Proxy : accès à une alimentation nutritive
      • Résultat : problème d’obésité

Comment atténuer le surapprentissage et la version forte de la loi de Goodhart

  • Mieux aligner les objectifs proxy et les résultats souhaités : en machine learning, on collecte des exemples d’entraînement proches des situations de test. Dans les systèmes sociaux, on modifie les lois, les incitations et les normes sociales pour mieux les aligner sur l’objectif.
  • Ajouter une pénalité de régularisation : en machine learning, on maintient de petits paramètres. Dans les systèmes sociaux, on réduit la complexité ou on impose des coûts supplémentaires.
  • Injecter du bruit dans le système : en machine learning, on ajoute du bruit aléatoire aux entrées, aux paramètres et aux états internes. Dans les systèmes sociaux, on ajoute des éléments aléatoires pour réduire la prévisibilité.
  • Arrêt anticipé : en machine learning, on arrête l’entraînement lorsque la loss de validation commence à se dégrader. Dans les systèmes sociaux, on limite le temps de décision ou on suspend l’activité du marché.
  • Limiter les capacités / la taille : en machine learning, on réduit la taille du modèle pour éviter le surapprentissage. Dans les systèmes sociaux, on limite la capacité des organisations ou des agents.
  • Augmenter les capacités / la taille : en machine learning, on rend le modèle très grand pour éviter le surapprentissage. Dans les systèmes sociaux, on augmente fortement les capacités pour supprimer le compromis entre objectif et proxy.

Réflexions finales

La version forte de la loi de Goodhart est la cause profonde de mes craintes personnelles à propos de l’IA. L’IA peut accroître l’efficacité dans presque toutes les tâches. Il existe de nombreuses opportunités de recherche pour résoudre ce problème. Si les systèmes sociaux s’effondrent à cause de la version forte de la loi de Goodhart, il devient difficile d’adopter des réponses rationnelles pour y remédier. Nommer ce phénomène et mieux le comprendre pourrait aider.

Le résumé de GN⁺

  • La version forte de la loi de Goodhart explique qu’une hausse de l’efficacité peut dégrader l’objectif.
  • Elle est comparable au phénomène de surapprentissage en machine learning et peut s’appliquer à de nombreux domaines.
  • On peut atténuer le problème en alignant mieux les objectifs proxy et les objectifs réels, en ajoutant des pénalités de régularisation et en injectant du bruit dans le système.
  • L’augmentation de l’efficacité liée à l’IA peut entraîner divers effets pervers, et des recherches sont nécessaires pour y répondre.
  • Il est important de comprendre la version forte de la loi de Goodhart et d’y réagir afin d’éviter l’effondrement des systèmes sociaux.

2 commentaires

 
gguimoon 2024-10-02

J’ai entendu dire que l’examen du CSAT dans notre pays s’est éloigné de son objectif initial, qui était de mesurer les compétences en mathématiques, pour se transformer en un système cherchant uniquement à optimiser la répartition des seuils par niveau. Cela semble être un exemple qui n’échappe pas à la loi de Goodhart.

 
GN⁺ 2024-09-30
Discussion Hacker News
  • Jascha est un brillant chercheur en ML qui a travaillé chez Google Brain et se trouve maintenant chez Anthropic

    • Il est connu pour ses travaux expliquant mathématiquement la propagation du signal dans les réseaux neuronaux profonds
    • Il a permis la convergence de modèles Transformer très profonds grâce à des concepts comme la "dynamical isometry"
    • Son intuition en matière d’optimisation dépasse le cadre du ML et s’étend à la société moderne dans son ensemble
    • Son message dépasse le cadre technique et constitue un appel à une conduite humaine et empathique
    • Il suggère des liens mathématiques entre le problème du surapprentissage et d’autres domaines comme l’économie, la science politique et le management
  • La loi de Goodhart dit que lorsqu’une mesure devient un objectif, elle cesse d’être une bonne mesure

    • Le problème ne tient pas seulement à la mesure, mais aussi au comportement humain
    • Les humains cherchent à exploiter le système de contrôle mis en place
    • La loi de Campbell l’explique mieux
    • Des mesures d’atténuation comme la régularisation ou l’arrêt anticipé sont indirectes ou peuvent créer de nouveaux problèmes
  • En Suède, c’est devenu un problème social majeur au cours des 20 dernières années

    • L’efficacité des soins de santé est mesurée par les "tâches accomplies" par le médecin traitant
    • Le système est optimisé pour traiter des cas simples, au prix de la disparition du contact personnel
    • Le système ferroviaire a été privatisé, mais souffre toujours de problèmes de retards
  • Une loi similaire existe aussi en physiologie de l’exercice

    • Les méthodologies d’entraînement général fournissent des indicateurs plus pertinents
    • Chez les athlètes spécialisés, l’amélioration des performances n’indique pas une amélioration générale de la condition physique
    • Il existe dans le sport une analogie entre la "condition physique de base" et la "forme maximale"
  • Il existe aussi une loi connexe dans la théorie des files d’attente

    • Quand le taux d’utilisation approche les 100 %, le temps d’attente augmente à l’infini
    • Il faut de la marge
  • Je n’aime pas qu’on se focalise sur le PIB

    • Des enquêtes trimestrielles sur la satisfaction de vie et l’optimisme seraient de meilleurs indicateurs
    • Le PIB reflète l’activité économique, mais pas la qualité de vie
  • Un exemple de cette loi a été observé dans une quincaillerie locale

    • L’installation de cages antivol a dégradé l’expérience client
    • Les décisions fondées sur les données ne produisent pas toujours les meilleurs résultats
  • Une expérience similaire a eu lieu en visitant une chaîne de restaurants

    • Tout est optimisé au point de sembler mécanique et artificiel
    • L’accent est mis sur la génération de revenus plutôt que sur l’expérience client
  • Je me suis rappelé le nom de l’auteur

    • Il a inventé le premier modèle génératif de diffusion en 2015
  • L’effet existe, mais les exemples ne sont pas exacts

    • L’accent excessif mis sur les résultats scolaires diffère de l’objectif de l’éducation
    • L’obésité n’est pas le résultat du fait d’avoir privilégié des aliments nutritifs
    • L’augmentation des inégalités n’a rien à voir avec une répartition des ressources selon les besoins sociaux
    • Le manque de stimulation conduit à l’addiction sensorielle ou au jeu
    • Étendre l’éducation publique, taxer le sucre et redistribuer les richesses sont des solutions plus simples