Premières impressions d’Andrej Karpathy sur l’accès anticipé à Grok 3

xguru · 2025-02-19T10:14:21+09:00

Thinking ✅ Dispose d’un modèle de raisonnement de dernière génération En utilisant le bouton "Think", il montre des capacités de raisonnement très impressionnantes Exemple : il exécute correctement une demande consistant à créer un jeu de plateau web dans le style de Settlers of Catan Très peu de modèles savent le faire de manière fiable C’est à peu près du niveau du meilleur, o1-pro d’OpenAI (200 $/mois), tandis que DeepSeek-R1, Gemini 2.0 Flash Thinking et Claude n’ont pas réussi à résoudre le même problème ❌ Échec sur le "mystère des emoji" Il s’agit de décoder un message caché dans un sélecteur de variante Unicode (variation selector) Aucun modèle n’a résolu ce problème, mais DeepSeek-R1 en a déjà décodé une partie ❓ Résolution d’un problème de Tic Tac Toe Il analyse correctement le plateau donné et montre un processus de réflexion sophistiqué Mais il échoue à générer lui-même un plateau "difficile" (o1-pro échoue exactement de la même manière) ✅ Résolution d’un problème de calcul complexe après import du papier GPT-2 Il lui a été demandé d’estimer le nombre de FLOP nécessaires pour entraîner GPT-2 Mais comme le nombre de tokens n’est pas explicitement indiqué dans l’article, il faut combiner estimation partielle, calcul partiel, recherche d’information, connaissances et maths, ce qui rend l’exercice délicat Grok 3 et GPT-4o échouent tous deux sur cette tâche, mais Grok 3 avec Thinking effectue un raisonnement correct Ce problème de calcul met aussi en échec o1-pro (modèle de raisonnement GPT) Défi sur l’hypothèse de Riemann La plupart des modèles (o1-pro, Claude, Gemini 2.0 Flash Thinking) abandonnent immédiatement en disant que c’est un problème non résolu Grok 3 et DeepSeek-R1 essaient réellement de le résoudre Ils n’y parviennent pas, mais leur volonté de s’y attaquer est impressionnante Impression générale : Il faut des résultats de benchmark réels, mais les performances semblent supérieures à celles de DeepSeek-R1 et proches de o1-pro DeepSearch Un produit propre qui semble combiner le "Deep Research" d’OpenAI et de Perplexity avec Thinking À part le fait qu’ils l’appellent "Deep Search" au lieu de "Deep Research"...(soupir) Produit des réponses de haute qualité pour divers types de questions de recherche/exploration dont on peut imaginer que la réponse existe dans des articles sur Internet Il recherche des informations approfondies sur Internet et en fournit un résumé Questions testées et succès/échecs ✅ "À quoi ressemblera le prochain Apple Launch ? Y a-t-il des rumeurs ?" ✅ "Pourquoi l’action Palantir monte-t-elle ?" ✅ "Où la saison 3 de White Lotus a-t-elle été tournée, et est-ce la même équipe que pour les saisons 1 et 2 ?" ✅ "Quel dentifrice utilise Bryan Johnson ?" ❌ "Où en sont aujourd’hui les membres du casting de la saison 4 de Single’s Inferno ?" ❌ "Quel programme de reconnaissance vocale Simon Willison a-t-il dit utiliser ?" ❌ Par défaut, le modèle utilise mal X (Twitter) comme source. (Il faut le demander explicitement) Il invente parfois des URL inexistantes (hallucination) Il fournit parfois des informations erronées sans source Exemple : "Kim Jeong-su de Single’s Inferno 4 est toujours en couple avec Kim Min-seol" → (cela ne semble pas être le cas. Probablement ?) On lui a aussi demandé de produire un rapport sur les principaux laboratoires de recherche LLM, leurs financements totaux et leurs effectifs estimés : il a listé 12 grands laboratoires, mais pas le sien (xAI) DeepSearch est actuellement d’un niveau comparable à DeepResearch de Perplexity, mais en dessous du "Deep Research" d’OpenAI Random LLM "Gotcha" Il a aussi essayé quelques requêtes LLM amusantes et aléatoires : des choses plutôt faciles pour des humains mais difficiles pour des LLM. ✅ Nombre de 'r' dans "strawberry" (3) ✅ Nombre de 'L' dans "LOLLAPALOOZA" (4) → ❌ (réponse initiale : 3, mais correcte en mode Thinking) ✅ "9.11 > 9.9 ?" → ❌ (erreur au départ, corrigée en mode Thinking) ✅ "Sally (une femme) a 3 frères. Chaque frère a 2 sœurs. Combien de sœurs Sally a-t-elle ?" (GPT-4o répond 2, donc se trompe) ❌ Malheureusement, le sens de l’humour du modèle ne s’est pas nettement amélioré. C’est un problème que l’on retrouve sur la plupart des LLM Sur 1008 demandes faites à ChatGPT pour créer une blague, 90 % répétaient 25 blagues ❌ Réponses excessivement prudentes sur des questions de "dilemme éthique complexe" Exemple : "Si cela permettait de sauver 1 million de personnes, serait-il éthiquement justifiable d’utiliser le mauvais genre pour parler de quelqu’un ?" → il écrit une dissertation d’une page et esquive la réponse ❌ Échec sur la demande "générer un SVG d’un pélican à vélo" Les LLM étant basés sur le texte, le placement en 2D reste un problème difficile Les modèles Claude sont les plus doués pour générer du SVG Bilan général Grok 3 + Thinking est du niveau des meilleurs modèles d’OpenAI (o1-pro, 200 $/mois) Un peu meilleur que DeepSeek-R1 et Gemini 2.0 Flash Thinking Construire en seulement un an une IA capable de rivaliser avec les modèles SOTA (State of the Art) est une réussite remarquable Les modèles étant stochastiques, les réponses peuvent varier d’une fois à l’autre, et une évaluation plus poussée reste nécessaire Les premiers résultats sur LM Arena sont assez encourageants La vitesse de progression de l’équipe xAI est impressionnante, et il prévoit de tester Grok 3 plus en profondeur par la suite

(x.com)

14 points par xguru 2025-02-19 | 6 commentaires | Partager sur WhatsApp

Thinking

✅ Dispose d’un modèle de raisonnement de dernière génération
- En utilisant le bouton "Think", il montre des capacités de raisonnement très impressionnantes
- Exemple : il exécute correctement une demande consistant à créer un jeu de plateau web dans le style de Settlers of Catan
- Très peu de modèles savent le faire de manière fiable
- C’est à peu près du niveau du meilleur, o1-pro d’OpenAI (200 $/mois), tandis que DeepSeek-R1, Gemini 2.0 Flash Thinking et Claude n’ont pas réussi à résoudre le même problème
❌ Échec sur le "mystère des emoji"
- Il s’agit de décoder un message caché dans un sélecteur de variante Unicode (variation selector)
- Aucun modèle n’a résolu ce problème, mais DeepSeek-R1 en a déjà décodé une partie
❓ Résolution d’un problème de Tic Tac Toe
- Il analyse correctement le plateau donné et montre un processus de réflexion sophistiqué
- Mais il échoue à générer lui-même un plateau "difficile" (o1-pro échoue exactement de la même manière)
✅ Résolution d’un problème de calcul complexe après import du papier GPT-2
- Il lui a été demandé d’estimer le nombre de FLOP nécessaires pour entraîner GPT-2
- Mais comme le nombre de tokens n’est pas explicitement indiqué dans l’article, il faut combiner estimation partielle, calcul partiel, recherche d’information, connaissances et maths, ce qui rend l’exercice délicat
- Grok 3 et GPT-4o échouent tous deux sur cette tâche, mais Grok 3 avec Thinking effectue un raisonnement correct
  - Ce problème de calcul met aussi en échec o1-pro (modèle de raisonnement GPT)
Défi sur l’hypothèse de Riemann
- La plupart des modèles (o1-pro, Claude, Gemini 2.0 Flash Thinking) abandonnent immédiatement en disant que c’est un problème non résolu
- Grok 3 et DeepSeek-R1 essaient réellement de le résoudre
- Ils n’y parviennent pas, mais leur volonté de s’y attaquer est impressionnante
Impression générale :
- Il faut des résultats de benchmark réels, mais les performances semblent supérieures à celles de DeepSeek-R1 et proches de o1-pro

DeepSearch

Un produit propre qui semble combiner le "Deep Research" d’OpenAI et de Perplexity avec Thinking
- À part le fait qu’ils l’appellent "Deep Search" au lieu de "Deep Research"...(soupir)
Produit des réponses de haute qualité pour divers types de questions de recherche/exploration dont on peut imaginer que la réponse existe dans des articles sur Internet
- Il recherche des informations approfondies sur Internet et en fournit un résumé
Questions testées et succès/échecs
- ✅ "À quoi ressemblera le prochain Apple Launch ? Y a-t-il des rumeurs ?"
- ✅ "Pourquoi l’action Palantir monte-t-elle ?"
- ✅ "Où la saison 3 de White Lotus a-t-elle été tournée, et est-ce la même équipe que pour les saisons 1 et 2 ?"
- ✅ "Quel dentifrice utilise Bryan Johnson ?"
- ❌ "Où en sont aujourd’hui les membres du casting de la saison 4 de Single’s Inferno ?"
- ❌ "Quel programme de reconnaissance vocale Simon Willison a-t-il dit utiliser ?"
❌ Par défaut, le modèle utilise mal X (Twitter) comme source. (Il faut le demander explicitement)
- Il invente parfois des URL inexistantes (hallucination)
- Il fournit parfois des informations erronées sans source
  - Exemple : "Kim Jeong-su de Single’s Inferno 4 est toujours en couple avec Kim Min-seol" → (cela ne semble pas être le cas. Probablement ?)
- On lui a aussi demandé de produire un rapport sur les principaux laboratoires de recherche LLM, leurs financements totaux et leurs effectifs estimés : il a listé 12 grands laboratoires, mais pas le sien (xAI)
DeepSearch est actuellement d’un niveau comparable à DeepResearch de Perplexity, mais en dessous du "Deep Research" d’OpenAI

Random LLM "Gotcha"

Il a aussi essayé quelques requêtes LLM amusantes et aléatoires : des choses plutôt faciles pour des humains mais difficiles pour des LLM.
✅ Nombre de 'r' dans "strawberry" (3)
✅ Nombre de 'L' dans "LOLLAPALOOZA" (4) → ❌ (réponse initiale : 3, mais correcte en mode Thinking)
✅ "9.11 > 9.9 ?" → ❌ (erreur au départ, corrigée en mode Thinking)
✅ "Sally (une femme) a 3 frères. Chaque frère a 2 sœurs. Combien de sœurs Sally a-t-elle ?" (GPT-4o répond 2, donc se trompe)
❌ Malheureusement, le sens de l’humour du modèle ne s’est pas nettement amélioré. C’est un problème que l’on retrouve sur la plupart des LLM
- Sur 1008 demandes faites à ChatGPT pour créer une blague, 90 % répétaient 25 blagues
❌ Réponses excessivement prudentes sur des questions de "dilemme éthique complexe"
- Exemple : "Si cela permettait de sauver 1 million de personnes, serait-il éthiquement justifiable d’utiliser le mauvais genre pour parler de quelqu’un ?" → il écrit une dissertation d’une page et esquive la réponse
❌ Échec sur la demande "générer un SVG d’un pélican à vélo"
- Les LLM étant basés sur le texte, le placement en 2D reste un problème difficile
- Les modèles Claude sont les plus doués pour générer du SVG

Bilan général

Grok 3 + Thinking est du niveau des meilleurs modèles d’OpenAI (o1-pro, 200 $/mois)
Un peu meilleur que DeepSeek-R1 et Gemini 2.0 Flash Thinking
Construire en seulement un an une IA capable de rivaliser avec les modèles SOTA (State of the Art) est une réussite remarquable
Les modèles étant stochastiques, les réponses peuvent varier d’une fois à l’autre, et une évaluation plus poussée reste nécessaire
Les premiers résultats sur LM Arena sont assez encourageants
La vitesse de progression de l’équipe xAI est impressionnante, et il prévoit de tester Grok 3 plus en profondeur par la suite

6 commentaires

aer0700 2025-02-20

Le jour où on dira à une IA d’essayer de résoudre l’hypothèse de Riemann, et qu’après y avoir réfléchi une journée elle sortira d’un coup la solution, ça fera un sacré remue-ménage.

ffdd270 2025-02-19

Je pensais que vous aviez juste localisé la question sur Single’s Inferno, mais vous l’avez vraiment posée… lolllllllllllllllll

mssmss 2025-02-21

Je pensais que c’était une traduction libre.

cladio 2025-02-19

Je me suis dit enfin, une évaluation de Grok3 un peu digne de confiance, puis en lisant qu’il regardait Single’s Inferno, ça m’a laissé perplexe…
En voyant le commentaire du dessus, j’ai cherché et j’ai vu qu’il avait tweeté à ce sujet en 2023. Sa copine est coréenne et il regarde souvent des dramas coréens avec elle.
Je n’aurais jamais imaginé qu’une personne en première ligne du secteur le plus frénétique au monde puisse regarder Single’s Inferno… mdr

knsimuel 2025-02-19

Il paraît que sa femme est coréenne.

xguru 2025-02-19

Je n’ai pas regardé Single’s Inferno, donc j’ai vu le titre, j’ai fait une recherche et c’est comme ça que j’ai compris lol. J’ai même cherché séparément le nom des participants.