- Article sur le caractère non déterministe observé dans GPT-4, le modèle de langage développé par OpenAI
- GPT-4/GPT-3.5-turbo restent non déterministes même avec
temp=0, alors qu’un modèle dense de type décodeur-only devrait en théorie être entièrement déterministe
- Au départ, ce caractère non déterministe a été attribué à un bug potentiel ou au caractère non déterministe des calculs en virgule flottante optimisés
- Nouvelle hypothèse de l’auteur : le caractère non déterministe de GPT-4 provient principalement du fait que l’architecture Sparse Mixture of Experts (MoE) ne parvient pas à imposer un déterminisme par séquence
- L’approche Sparse MoE route les tokens dans des groupes de taille fixe et maintient un équilibrage au sein de ces groupes, ce qui entraîne un caractère non déterministe au niveau de la séquence
- Pour tester cette hypothèse, l’auteur a demandé à GPT-4 d’écrire un script et a observé un grand nombre de complétions uniques, confirmant qu’il existe une cause rendant GPT-4 bien plus non déterministe que d’autres modèles
- L’auteur suppose aussi que GPT-3.5-turbo pourrait être un modèle MoE en raison de sa vitesse, de son caractère non déterministe et de la suppression des
logprobs
- Les implications de ces observations sont importantes : si le caractère non déterministe est une propriété intrinsèque de l’inférence par lot avec Sparse MoE, cela devrait être clairement indiqué à toute personne utilisant ces modèles
- En conclusion, l’auteur affirme que, même si le caractère non déterministe des modèles GPT d’OpenAI est généralement attribué à l’imprécision d’opérations en virgule flottante CUDA non déterministes et optimisées, la cause fondamentale pourrait être l’inférence par lot dans les modèles Sparse MoE
1 commentaires
Commentaire Hacker News