2 points par GN⁺ 2025-02-11 | 1 commentaires | Partager sur WhatsApp

À qui s’adresse cette analyse approfondie ?

  • Comprendre le fonctionnement réel des LLM : pour celles et ceux qui veulent connaître les principes de fonctionnement des LLM au-delà d’une compréhension superficielle.
  • Comprendre une terminologie de fine-tuning déroutante : pour celles et ceux qui veulent comprendre des termes comme chat_template et ChatML.
  • Améliorer le prompt engineering : pour celles et ceux qui veulent comprendre quels prompts fonctionnent le mieux.
  • Réduire les hallucinations : pour celles et ceux qui veulent éviter que les LLM ne génèrent des informations erronées.
  • Comprendre l’importance de DeepSeek-R1 : pour celles et ceux qui veulent saisir l’importance de DeepSeek-R1, très remarqué actuellement.

Données de pré-entraînement

Internet

  • Les LLM crawlsent Internet pour constituer d’immenses jeux de données textuelles.
  • Les données brutes sont remplies de contenus dupliqués, de textes de faible qualité et d’informations non pertinentes, ce qui exige un filtrage rigoureux avant l’entraînement.
  • Par exemple, le jeu de données FineWeb comprend plus de 1,2 milliard de pages web.

Tokenisation

  • La tokenisation est la méthode qui consiste à découper le texte en petits éléments (tokens) avant que le modèle ne le traite.
  • Des techniques comme Byte Pair Encoding (BPE) sont utilisées.
  • GPT-4 utilise 100 277 tokens.

Entrées et sorties du réseau de neurones

  • Les données tokenisées sont fournies en entrée au réseau de neurones.
  • Le modèle prédit le token suivant à partir des motifs qu’il a appris.
  • Les poids sont ajustés pour réduire les erreurs.

À l’intérieur du réseau de neurones

  • À l’intérieur du modèle, des milliards de paramètres interagissent avec les tokens d’entrée pour produire une distribution de probabilité sur le token suivant.
  • L’architecture du modèle est conçue pour équilibrer vitesse, précision et parallélisation.

Inférence

  • Les LLM ne produisent pas une sortie déterministe ; ils sont probabilistes.
  • Le résultat diffère légèrement à chaque exécution.
  • Cette part d’aléatoire permet aux LLM d’être créatifs, mais les conduit aussi parfois à générer des informations incorrectes.

GPT-2

  • GPT-2, publié par OpenAI en 2019, est un exemple des premiers LLM basés sur les transformers.
  • Il a 1,6 milliard de paramètres, une longueur de contexte de 1024 tokens et a été entraîné sur environ 100 milliards de tokens.
  • Andrej Karpathy a reproduit GPT-2 pour 672 $ à l’aide de llm.c.

Modèles open source de base

  • Certaines entreprises entraînent des LLM à grande échelle et publient gratuitement leur modèle de base.
  • Les modèles de base sont entraînés sur du texte brut issu d’Internet, ce qui leur permet de générer des complétions sans pour autant comprendre l’intention humaine.
  • OpenAI a publié GPT-2 en open source.
  • Meta a publié Llama 3.1 (405B paramètres) en open source.

Du pré-entraînement au post-entraînement

  • Les modèles de base génèrent beaucoup d’hallucinations.
  • Le post-entraînement affine le modèle pour produire de meilleures réponses.
  • Le post-entraînement coûte bien moins cher que le pré-entraînement.

Fine-tuning supervisé (SFT)

Conversations de données

  • Après avoir été entraîné sur des données issues d’Internet, le modèle de base est post-entraîné sur des conversations humain/assistant.
  • Des templates de conversation sont utilisés pour aider le modèle à comprendre la structure d’un échange.

Hallucinations, usage d’outils et mémoire

  • Le principal problème des LLM est l’hallucination.
  • Meta explique dans l’article sur Llama 3 des méthodes pour améliorer la factualité.
  • Il existe aussi des moyens de réduire les hallucinations en utilisant des outils.

Apprentissage par renforcement

  • Après avoir été entraîné sur des données Internet, le modèle ne sait pas forcément utiliser efficacement ses connaissances.
  • L’apprentissage par renforcement (RL) améliore le modèle par essais et erreurs.

Fonctionnement du RL

  • Le RL permet au modèle d’expérimenter différentes solutions et de trouver la meilleure.
  • Par exemple, il peut générer 15 solutions et seulement 4 donnent la bonne réponse.

Apprentissage par renforcement à partir du feedback humain (RLHF)

  • Dans les domaines non vérifiables, il faut inclure des humains dans la boucle.
  • Le RLHF améliore le modèle à l’aide du feedback humain.

Perspectives

  • Capacités multimodales : comprendre et générer non seulement du texte, mais aussi des images, de l’audio et de la vidéo.
  • Modèles agentiques : aller au-delà d’une tâche unique avec mémoire à long terme, raisonnement et correction des erreurs.
  • IA universelle et invisible : s’intégrer naturellement dans les workflows.
  • IA utilisant l’ordinateur : interagir avec les logiciels et accomplir des tâches au-delà de la simple génération de texte.

Comment trouver un LLM

  • Modèles propriétaires : OpenAI (GPT-4), Google (Gemini), Anthropic (Claude), etc.
  • Modèles à poids ouverts : DeepSeek, Meta (Llama), etc.
  • Exécution en local : utiliser Ollama ou LM Studio.
  • Modèles de base : explorer Hyperbolic.

1 commentaires

 
GN⁺ 2025-02-11
Commentaire Hacker News
  • Je cherche encore un bon endroit pour discuter après que la vidéo originale a disparu de la première page de Hacker News

  • Quelques questions me sont venues en regardant la vidéo

    • Les maths et les LLMs
      • Je me demande pourquoi les exemples qu’Andrej a donnés pour les LLM sont en majorité des problèmes de calcul
      • Je pense que les capacités de calcul des LLM deviennent puissantes et utiles, mais que ce n’est pas une capacité fondamentale
      • J’aimerais qu’on distingue les prompts qui montrent les capacités essentielles des LLM des calculs mathématiques
      • J’aimerais avoir de bonnes références sur la discussion autour des capacités mathématiques ou sur la pertinence de faire faire des maths aux LLM
    • Meta
      • Andrej mentionne brièvement les cas où des LLM servent à entraîner et évaluer d’autres LLM, mais il n’y a pas beaucoup de discussion à ce sujet
      • J’aimerais en savoir plus sur les limites et les risques liés à l’utilisation de LLM pour entraîner/évaluer d’autres LLM
      • J’ai l’impression que le fait que les premiers résultats et les avancées soient immédiatement réinjectés dans le développement de techniques plus puissantes ressemble au projet Manhattan et aux armes atomiques
  • L’approche de Meta pour résoudre le problème des hallucinations est intéressante

    • Ils extraient une partie des données d’entraînement et utilisent Llama 3 pour générer des questions factuelles
    • Llama 3 génère des réponses, puis elles sont comparées aux données d’origine pour être notées
    • Si c’est faux, le modèle est entraîné à reconnaître la mauvaise réponse et à la rejeter
    • Cela va à l’encontre de la tendance naturelle des ingénieurs ML, et il est important d’apprendre au modèle à reconnaître ce qu’il ne sait pas
  • La vidéo d’Andrej est excellente, mais l’explication de la partie RL me paraît un peu vague

    • Je me demande comment l’entraînement sur les bonnes réponses est effectué
    • Je me demande si l’on collecte le processus de raisonnement pour entraîner le modèle comme en apprentissage supervisé, ou si l’on calcule un score pour l’utiliser comme fonction de perte
    • La récompense peut être très clairsemée, et je me demande ce qui se passe quand le problème est trop difficile pour que le LLM puisse générer la bonne réponse
    • Je me demande comment l’entraînement des LLM peut être parallélisé alors que les mises à jour de paramètres sont séquentielles
  • À 53 minutes dans la vidéo originale, on voit la précision avec laquelle le LLM cite à partir du texte qu’il a appris

    • Je me demande comment les grandes entreprises ont réussi à convaincre les tribunaux que cela ne constituait pas une violation du droit d’auteur
    • Si j’entraînais un modèle à dessiner des personnages Disney, j’imagine que je serais attaqué en justice immédiatement
  • Pour qu’un modèle soit « complètement » open source, il faut non seulement le modèle lui-même et la manière de l’exécuter, mais aussi le programme permettant d’entraîner les données

    • Voir la définition de l’IA open source de l’OSI
  • J’ai lu beaucoup d’articles sur les LLM et je comprends globalement comment ils fonctionnent, mais je me suis toujours demandé pourquoi d’autres modèles ne marchent pas aussi bien que les modèles SOTA

    • Je suis curieux de connaître l’histoire et les raisons derrière l’architecture actuelle des modèles
  • J’ai vu un bon fil aujourd’hui : [lien]

  • C’est dommage que son LLC in C n’ait servi que de tremplin pour son cours

  • C’est probablement un excellent résumé d’un excellent cours

    • J’hésite à suivre l’original
  • Je n’ai pas regardé la vidéo, mais j’étais curieux à propos de la partie sur la tokenisation dans le TL;DR

    • Si l’on regarde le texte tokenisé dans l’article lié, ce n’est pas "I View" mais bien une barre verticale "|"
    • À l’étape 3 du lien que @miletus a posté dans les commentaires Hacker News, le texte tokenisé est "|Viewing Single (Post From) . . ."
    • L’usage des majuscules (View, Single) a plus de sens quand on regarde cette partie de la phrase