1 points par GN⁺ 2023-08-06 | 1 commentaires | Partager sur WhatsApp
  • Article sur le caractère non déterministe observé dans GPT-4, le modèle de langage développé par OpenAI
  • GPT-4/GPT-3.5-turbo restent non déterministes même avec temp=0, alors qu’un modèle dense de type décodeur-only devrait en théorie être entièrement déterministe
  • Au départ, ce caractère non déterministe a été attribué à un bug potentiel ou au caractère non déterministe des calculs en virgule flottante optimisés
  • Nouvelle hypothèse de l’auteur : le caractère non déterministe de GPT-4 provient principalement du fait que l’architecture Sparse Mixture of Experts (MoE) ne parvient pas à imposer un déterminisme par séquence
  • L’approche Sparse MoE route les tokens dans des groupes de taille fixe et maintient un équilibrage au sein de ces groupes, ce qui entraîne un caractère non déterministe au niveau de la séquence
  • Pour tester cette hypothèse, l’auteur a demandé à GPT-4 d’écrire un script et a observé un grand nombre de complétions uniques, confirmant qu’il existe une cause rendant GPT-4 bien plus non déterministe que d’autres modèles
  • L’auteur suppose aussi que GPT-3.5-turbo pourrait être un modèle MoE en raison de sa vitesse, de son caractère non déterministe et de la suppression des logprobs
  • Les implications de ces observations sont importantes : si le caractère non déterministe est une propriété intrinsèque de l’inférence par lot avec Sparse MoE, cela devrait être clairement indiqué à toute personne utilisant ces modèles
  • En conclusion, l’auteur affirme que, même si le caractère non déterministe des modèles GPT d’OpenAI est généralement attribué à l’imprécision d’opérations en virgule flottante CUDA non déterministes et optimisées, la cause fondamentale pourrait être l’inférence par lot dans les modèles Sparse MoE

1 commentaires

 
GN⁺ 2023-08-06
Commentaire Hacker News
  • Le caractère non déterministe de GPT-4 provient de son modèle Sparse Mixture of Experts (MoE).
  • Les imprécisions en virgule flottante dans les systèmes IA/ML sont généralement déterministes, et des résultats hétérogènes peuvent venir d’autres sources d’état ou d’entropie.
  • L’article suggère que l’inférence efficace de GPT-4 pourrait dépendre du mélange de tokens issus d’entrées distinctes, ce qui peut introduire de la non-détermination et affecter la qualité des réponses.
  • La qualité des réponses peut aussi dépendre du nombre de requêtes simultanées en concurrence pour la même attribution d’« experts ».
  • Cela pourrait expliquer la dégradation de qualité perçue au fil du temps, un usage simultané plus important pouvant mener à des résultats moins fiables.
  • L’utilisation de modèles MoE dans GPT-3.5 signifie qu’on peut faire plus avec moins, ce qui pourrait donner de l’espoir au mouvement open source.
  • Si les séquences d’un lot peuvent influencer le routage des autres, cela introduit la possibilité d’attaques par canal auxiliaire.
  • L’approche MoE introduit une part de probabilisme ou d’aléa dans le fonctionnement du modèle en sélectionnant différents « experts » ou sous-parties du modèle selon les différentes parties des données d’entrée.
  • Les mêmes données d’entrée traitées deux fois dans des contextes légèrement différents peuvent consulter des ensembles d’experts légèrement différents, et donc produire des sorties légèrement différentes.
  • Sous forte charge, les résultats peuvent varier parce que les tokens sont en concurrence pour les places disponibles dans le tampon des experts.
  • Cette concurrence pour le tampon des experts pourrait aussi expliquer pourquoi ChatGPT écrit des placeholders au lieu de fonctions lorsqu’on lui demande du code long.