Comment le fondateur d’OpenAI utilise l’IA au quotidien et dans son travail

(stdy.blog)

46 points par spilist2 2025-03-04 | 3 commentaires | Partager sur WhatsApp

Résumé accompagné de captures de la conférence IA d’Andrej Karpathy, cofondateur d’OpenAI, destinée au grand public, How I use LLMs, publiée le 28/02
Réalisé car les nombreuses visualisations et les exemples d’usage réels de Karpathy apportent une grande valeur, et un simple résumé écrit ne restitue pas vraiment la richesse de la vidéo

Il existe plusieurs types de LLM

ChatGPT est le plus connu et le plus riche en fonctionnalités. Parmi les autres, on trouve notamment :

Gemini de Google
Meta AI de Meta
Copilot de MS
Claude d’Anthropic
Grok de xAI
Perplexity
DeepSeek de Chine
Le Chat de Mistral, en France

Comment fonctionne ChatGPT

Un LLM ressemble à un fichier zip compressé avec perte de l’ensemble des documents d’Internet en 1 To. À l’intérieur se trouve un réseau de neurones artificiels avec des milliers de milliards de paramètres, qui produit probabilistiquement le « caractère suivant ».

Ce fichier compressé est créé via deux grands types d’apprentissage.

Pré-entraînement : cela coûte plusieurs dizaines de millions de dollars et prend plus de 3 mois. Comme c’est très cher, on ne peut pas le faire souvent, d’où l’existence d’une knowledge cutoff.

Post-entraînement : un fine-tuning bien moins coûteux. Le but n’est plus simplement de recracher des documents d’Internet, mais de faire agir le modèle comme un assistant qui répond aux questions de l’utilisateur.

apprentissage supervisé avec des réponses modèles (Supervised Fine-Tuning)
apprentissage par renforcement à partir des préférences humaines sur les réponses générées (Reinforcement Learning from Human Feedback)
apprentissage par renforcement fondé sur les réponses idéales d’un assistant à des questions humaines (Reinforcement Learning on Conversation)

Quand on crée une nouvelle session dans ChatGPT et que l’utilisateur saisit un message, celui-ci est tokenisé puis envoyé en entrée du modèle. Le LLM génère alors le token suivant. Et toute cette conversation (entrée utilisateur, sortie de ChatGPT) est stockée dans la Context Window.

La Context Window est comparable à la mémoire de travail humaine, et comme chez l’humain, elle a ses limites. Plus elle s’allonge, plus il devient légèrement probable qu’elle produise des informations inexactes, et plus la génération de la réponse suivante coûte cher (= devient plus lente).

Donc, sauf nécessité, garder une session très longtemps n’est pas forcément un bon choix.

Quand faut-il utiliser un modèle « Thinking » ?

Il s’agit d’un modèle qui, en plus du pré-entraînement et du post-entraînement classiques, a reçu un apprentissage par renforcement supplémentaire pour pouvoir répondre à des problèmes STEM complexes (sciences, technologie, ingénierie, mathématiques) via un long processus de réflexion.

Comme il « réfléchit » en produisant de nombreux tokens, cela coûte plus cher et prend plus de temps, mais la précision des réponses sur des problèmes complexes augmente fortement.

Attention toutefois : un modèle qui « réfléchit » ne résout pas forcément correctement un problème, et à l’inverse un modèle sans « réflexion » peut aussi le résoudre correctement. (Sur un problème complexe de débogage donné par Karpathy, tous les modèles de réflexion ont réussi et ChatGPT-4o a échoué, mais Sonnet 3.5, Gemini 2.0 Pro et Grok 3 ont aussi réussi sans mode Thinking.)

Karpathy dit qu’il commence généralement par tester avec un modèle non-thinking, plus rapide à répondre, puis passe au Thinking si la réponse lui semble douteuse.

Les outils qui aident les LLM

Recherche Internet

Certains modèles peuvent faire des recherches sur Internet, d’autres non. (Et pas seulement la recherche.) Il faut toujours savoir ce qu’un modèle est capable de faire avant de l’utiliser.

La recherche est nécessaire d’abord à cause de la knowledge cutoff, qui empêche de répondre avec des données récentes. À l’origine, ChatGPT ne savait pas faire cela, et Perplexity a percé en le proposant, attirant ainsi beaucoup d’utilisateurs.

Selon la requête de l’utilisateur, le système décide que « cela nécessite une recherche », puis tokenise les résultats trouvés sur Internet et les injecte dans la Context Window avant de répondre. (Parfois, il faut demander explicitement qu’il fasse la recherche.)

Karpathy dit qu’aujourd’hui il pose souvent ses questions à Perplexity à la place de chercher sur Google. Il a pris l’habitude de se dire : « ce type d’info, je dois le demander à Perplexity ».

Des choses qu’on pourrait sans doute apprendre en googlant puis en cliquant sur quelques premiers liens (le marché boursier est-il ouvert aujourd’hui, quand la saison 3 de White Lotus a-t-elle été tournée, etc.)
Des informations qui changent constamment et qu’il faut avoir à jour (Vercel prend-il en charge PostgreSQL, que font aujourd’hui les acteurs de la saison 4 de Single’s Inferno, etc.)

Deep Research

En bref, c’est de la recherche Internet + Thinking. Cela peut chercher pendant des dizaines de minutes, puis organiser les informations obtenues via le Thinking pour produire un rapport.

Une caractéristique de Deep Research dans ChatGPT est qu’il commence par demander quelle est l’intention de l’utilisateur et sur quoi il faut se concentrer afin de produire un meilleur rapport. Perplexity propose aussi une fonction similaire, et Grok3 a également « Deep Search ». La vitesse et la qualité diffèrent selon les outils.

Comme pour la recherche Internet, il faut garder à l’esprit que la réponse peut être inexacte. Il peut être nécessaire de vérifier directement les sources, mais cela reste un « brouillon extrêmement utile ».

Karpathy dit avoir fait une vingtaine de Deep Research, et que les réponses de ChatGPT étaient les meilleures parce qu’elles étaient les plus longues en informations réellement utiles. Parmi les sujets qu’il a testés :

comprendre certains ingrédients de compléments alimentaires
entre Brave et Arc, quel navigateur est meilleur en sécurité et en confidentialité
quelles sont les techniques les plus récentes pour augmenter la durée de vie des souris ? Quels types d’interventions ont été testés ? Je viens du domaine ML, donc j’ai l’habitude de définir et d’améliorer des métriques d’évaluation. Évalue-t-on aussi la longévité des souris de cette manière ?
fais-moi un tableau de tous les grands laboratoires de recherche LLM aux États-Unis : date de création, effectifs, niveau de financement, etc.

Interpréteur de code

Le LLM écrit du code, l’exécute, puis injecte le résultat du code dans le contexte pour répondre. Il y a du Python et du JavaScript. Bien utilisé, c’est extrêmement puissant. On peut voir ça comme avoir un junior très compétent à disposition.

faire de l’analyse de données avec ChatGPT 4o
créer avec Claude une application de flashcards résumant le contenu d’un livre
créer avec Claude un diagramme Mermaid visualisant le contenu d’un livre
créer un jeu de morpion avec Cursor puis l’améliorer, uniquement par chat, en ajoutant des effets pour le gagnant

Modalités

Les échanges avec un LLM ne se limitent pas au texte : on peut aussi utiliser l’audio, l’image et la vidéo.

Entrée/sortie audio

Pour l’entrée audio, Karpathy utilise sur Mac des applis de dictée comme SuperWhisper, WisprFlow, MacWhisper. Il dit qu’environ la moitié de ce qu’il aurait tapé auparavant, il le dit désormais à voix haute.

Pour la sortie audio, la fonctionnalité est généralement fournie directement dans l’application. On peut aussi faire de la dictée d’écran.

Mais fondamentalement, ces outils fonctionnent encore via du texte. Il faut faire Speech-to-Text puis Text-to-Speech, donc c’est lent.

Il est aussi possible d’échanger avec un LLM en audio pur. Les informations audio sont alors tokenisées. Karpathy appelle cela True Audio, et dans ChatGPT cela s’appelle Advanced Voice Mode.

vidéo de démonstration de conversation où on lui fait parler avec différents accents et rythmes, et même imiter des cris d’animaux

Grok3 propose aussi Advanced Voice Mode dans son application mobile. Avec ses nombreux modes sans filtre, comme le mode sexy ou le mode grossier, c’est à certains égards plus amusant et intrigant.

vidéo de démonstration de conversation de Karpathy avec Grok3

NotebookLM permet aussi d’uploader des fichiers pour les analyser, puis de générer un podcast à plusieurs voix naturelles basé sur leur contenu. On peut intervenir au milieu et poser librement des questions (Interactive Mode).

Karpathy s’en est souvent servi pour créer des podcasts sur des domaines où il n’est pas expert mais qu’il trouve intéressants. Il a même mis en ligne sur Spotify ceux qu’il a ainsi produits, sous le nom Histories of Mysteris

Entrée/sortie image

Quand il fait de l’OCR, Karpathy a toujours l’habitude de vérifier d’abord si le texte a bien été lu correctement avant de poser des questions sur le contenu, car il y a toujours un risque d’erreur de lecture.

Exemples d’usage concrets : vérifier les informations nutritionnelles de compléments alimentaires, analyser une prise de sang et son interprétation, obtenir une version LaTeX d’une formule, interpréter un mème, etc.

Pour la sortie image, il utilise DALL·E, IdeoGram, etc. La génération d’image n’est pas une fonction intégrée au LLM lui-même : le LLM envoie un prompt à un modèle séparé, puis récupère l’image produite.

Entrée/sortie vidéo

Comme pour l’audio, on peut utiliser Advanced Voice + Video en entrée pour obtenir des réponses. C’est possible sur mobile. Au lieu de prendre réellement la vidéo en entrée, le LLM fonctionne probablement en prélevant des images à intervalles réguliers pour les convertir en entrées image.

Karpathy lui-même ne l’utilise pas souvent, mais il trouve cela utile car même des personnes ayant peu de bagage technique, comme la génération de ses parents, peuvent immédiatement poser des questions et obtenir des réponses.

vidéo de démonstration

Pour la sortie vidéo, il existe plusieurs modèles dont Sora. Karpathy estime qu’à l’heure actuelle, Google Veo 2 est le plus réaliste.

comparatif de 9 modèles vidéo

Fonctions supplémentaires

Mémoire

Au fil des échanges avec l’utilisateur, ce que le système juge utile à retenir pour mieux répondre, ou ce que l’utilisateur demande explicitement de mémoriser, est enregistré avec la mention Memory Updated
= on peut considérer que ces éléments sont ensuite injectés dans la Context Window à chaque nouvelle conversation. Il est aussi possible de consulter et gérer la liste complète

Customize

Si l’on renseigne comment appeler l’utilisateur, ce qu’il fait, le style de réponse souhaité, etc., cela aussi est intégré à la context window pendant les réponses
Karpathy expérimente en ce moment avec ce réglage parce qu’il apprend le coréen

Custom GPTs

Karpathy a créé et utilise plusieurs GPTs pour étudier le coréen. Il emploie des prompts simples avec du few-shot.

Korean Vocabulary Extractor : découpe une phrase en coréen et en extrait les termes

Korean Detailed Translator : similaire au précédent, mais traduit en faisant une correspondance mot à mot

KoreanCap : à partir d’une capture d’écran, fait de l’OCR puis traduit, en découpant mot par mot avec la prononciation

3 commentaires

halfenif 2025-03-06

> « produire probabilistiquement le “mot suivant” »

Je me demande s’il existe une meilleure description que celle-ci.

ned0909 2025-03-05

C’est étonnant de voir quelqu’un apprendre le coréen.

stadia 2025-03-04

https://youtube.com/watch/… Regardez avec les sous-titres