11 points par davespark 2026-01-16 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Qu’est-ce que le model collapse ?

  • Un phénomène de dégradation qui survient quand une IA est réentraînée sur des données générées par d’autres IA
  • Un risque structurel démontré sur la base d’un article publié dans Nature

Caractéristiques visibles en surface

  • Les performances moyennes et les scores de benchmark se maintiennent, voire augmentent
  • Mais les cas rares (outliers, edge cases) disparaissent peu à peu
  • Les sorties convergent progressivement vers quelque chose de typique, sûr et moyen

Mécanisme clé

  • Au départ → apprentissage sur des données humaines
  • Ensuite → explosion des contenus générés par l’IA sur le web → les nouveaux modèles apprennent sur des données synthétiques
  • Chaque génération amplifie et renforce les angles morts de la génération précédente
  • Les événements ou données rares sont ignorés progressivement → disparition permanente

Symptômes concrets selon la modalité

  • Texte : fluide mais creux et répétitif, avec une préférence pour des opinions sûres plutôt que des idées nouvelles (par exemple, usage excessif du tiret cadratin)
  • Systèmes de recommandation : suppression de la curiosité et de la diversité → le feed devient extrêmement étroit
  • Image/Vidéo : convergence uniquement vers des styles familiers, avec très peu de place pour des variations créatives (ex. : toujours dans une esthétique très proche)
  • Point commun : l’optimisation ne produit pas un « dysfonctionnement », mais un état où tout devient « trop semblable »

Prévention et réponses possibles

  • Suivi et gestion de la provenance
    → préserver les données créées par des humains et les prioriser pour l’apprentissage, distinguer clairement les données générées par l’IA
  • Choisir la certitude plutôt que la facilité
    → éviter le biais de centralité des données IA, préserver la complexité du monde réel
  • Valoriser l’étendue (range)
    → réserver un espace d’apprentissage pour les cas rares (même au prix d’une part d’efficacité)
  • Redéfinir les cas rares non comme du bruit, mais comme des actifs

Message de conclusion

  • L’apprentissage récursif (IA → IA) est catastrophique à long terme
  • L’idée selon laquelle il ne faut pas entraîner une IA avec des données d’IA dispose d’arguments de plus en plus solides
  • L’indifférence à l’origine des données d’entraînement est le plus grand facteur de risque

Comme la plupart des grands modèles ont déjà ingéré une quantité importante de données synthétiques, la gestion de la provenance et la préservation des données rares devraient devenir des enjeux majeurs à l’avenir.

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.