Nouveaux résultats de recherche d’OpenAI : décomposer les représentations internes de GPT-4 en schémas interprétables
(openai.com)• OpenAI introduit une nouvelle méthode évolutive pour décomposer les représentations internes de GPT-4 en 16 millions de schémas interprétables, afin de mieux comprendre l’activité neuronale au sein des modèles de langage.
• Les réseaux neuronaux n’ont pas été conçus directement et manquent de composants clairement identifiables, ce qui les rend difficiles à interpréter et complique le raisonnement sur la sécurité de l’IA.
• En utilisant des autoencodeurs clairsemés, il devient possible d’identifier des « caractéristiques » pertinentes dans les réseaux neuronaux, représentant des concepts plus faciles à comprendre pour les humains.
• L’équipe de recherche a développé une méthodologie avancée pour étendre les autoencodeurs clairsemés à des dizaines de millions de caractéristiques dans des modèles d’IA de pointe, en démontrant une montée en échelle fluide et prévisible.
• Des visualisations montrant l’activation dans les documents pour certaines caractéristiques illustrent leur interprétabilité.
• Parmi les exemples de caractéristiques interprétables figurent des expressions liées aux défauts humains, des tendances à la hausse des prix, des formulations de type « X et Y », des journaux d’entraînement de machine learning, des questions rhétoriques ou emphatiques, des anneaux algébriques, ainsi que les récepteurs de l’adénosine et de la dopamine.
• L’équipe se dit enthousiasmée par le potentiel de l’interprétabilité pour améliorer la fiabilité des modèles et leur capacité d’alignement, tout en reconnaissant ses limites, notamment la difficulté d’interpréter un grand nombre des caractéristiques découvertes et la nécessité de meilleures méthodes de validation.
2 commentaires
https://github.com/openai/sparse_autoencoder
https://openaipublic.blob.core.windows.net/sparse-autoencoder/…