1 points par GN⁺ 2024-05-13 | 1 commentaires | Partager sur WhatsApp

Étude sur la détection automatique des tokens non entraînés dans les grands modèles de langage

  • Dans les modèles de langage, le décalage entre la création du tokenizer et l’entraînement du modèle peut amener certaines entrées, comme le token SolidGoldMagikarp, à provoquer des comportements indésirables
  • Ces « glitch tokens » existent dans le vocabulaire du tokenizer mais sont rares, voire totalement absents, lors de l’entraînement. Ils ont été observés dans différents modèles, mais il manquait une méthode cohérente pour les identifier
  • Cette étude propose une analyse complète des tokenizers de grands modèles de langage (LLM), en se concentrant sur le problème de la détection des tokens non entraînés ou insuffisamment entraînés
  • En combinant l’analyse du tokenizer, des indicateurs fondés sur les poids du modèle et des techniques de prompting, les auteurs ont développé une méthode efficace pour détecter automatiquement ces tokens problématiques
  • Les résultats montrent que ces tokens sont largement répandus dans divers modèles et offrent des pistes pour améliorer l’efficacité et la sécurité des modèles de langage

Avis GN⁺

  • Le problème des glitch tokens causé par le décalage entre le tokenizer et l’entraînement du modèle est un sujet intéressant. Il s’agit d’un enjeu important qui peut affecter les performances et la stabilité des modèles de langage
  • Il est impressionnant de voir une méthodologie automatisée proposée pour résoudre ce problème. L’usage combiné de l’analyse du tokenizer, d’indicateurs fondés sur les poids du modèle et de techniques de prompting semble être une approche à la fois créative et pragmatique
  • Cette étude met en avant des points importants à prendre en compte lors du développement et du déploiement des modèles de langage. Elle suggère notamment qu’il est essentiel de maintenir une cohérence entre le tokenizer et l’entraînement du modèle pour garantir stabilité et fiabilité
  • Cela dit, une validation supplémentaire semble nécessaire concernant la généralisabilité des résultats. Il faudra vérifier si la méthodologie proposée fonctionne efficacement sur des jeux de données couvrant divers domaines et langues
  • Au-delà du problème des glitch tokens, des recherches supplémentaires paraissent également nécessaires sur d’autres facteurs susceptibles de nuire à la stabilité et à la fiabilité des modèles de langage, notamment les biais, la confidentialité et la sécurité

1 commentaires

 
GN⁺ 2024-05-13
Avis Hacker News
  • Il est difficile de croire qu’un modèle d’une entreprise canadienne contienne des tokens sous-entraînés liés au hockey. Mais il est intéressant de mieux comprendre l’impact de la tokenisation sur les modèles. En particulier, les premiers modèles open source avaient souvent des problèmes de retours chariot selon l’origine des données.

  • Une vidéo de Computerphile datant d’il y a un an explique très bien les glitch tokens.

  • Il ne faut pas seulement chercher les tokens sous-entraînés, mais aussi les déséquilibres des données d’entraînement dans tous les poids de toutes les couches du réseau. Une fois repérés, supprimer les poids où le flux de données est presque nul pourrait aider à réduire la taille du modèle ou à améliorer la généralisation.

  • Il existe une méthode fondée sur la théorie des matrices aléatoires pour le diagnostic de l’entraînement. Elle utilise la densité spectrale de la matrice de corrélation des poids, et considère qu’une couche est correctement entraînée lorsque sa densité spectrale suit une loi de puissance tronquée avec un exposant alpha légèrement supérieur à 2.

  • Le titre de cet article est impressionnant.

  • Est-ce que la solution ne serait pas d’entraîner le tokenizer sur le même corpus que le LLM ? Je ne comprends pas bien pourquoi la réutilisation des tokenizers est si courante.