Thinking
- ✅ Dispose d’un modèle de raisonnement de dernière génération
- En utilisant le bouton "Think", il montre des capacités de raisonnement très impressionnantes
- Exemple : il exécute correctement une demande consistant à créer un jeu de plateau web dans le style de Settlers of Catan
- Très peu de modèles savent le faire de manière fiable
- C’est à peu près du niveau du meilleur, o1-pro d’OpenAI (200 $/mois), tandis que DeepSeek-R1, Gemini 2.0 Flash Thinking et Claude n’ont pas réussi à résoudre le même problème
- ❌ Échec sur le "mystère des emoji"
- Il s’agit de décoder un message caché dans un sélecteur de variante Unicode (variation selector)
- Aucun modèle n’a résolu ce problème, mais DeepSeek-R1 en a déjà décodé une partie
- ❓ Résolution d’un problème de Tic Tac Toe
- Il analyse correctement le plateau donné et montre un processus de réflexion sophistiqué
- Mais il échoue à générer lui-même un plateau "difficile" (o1-pro échoue exactement de la même manière)
- ✅ Résolution d’un problème de calcul complexe après import du papier GPT-2
- Il lui a été demandé d’estimer le nombre de FLOP nécessaires pour entraîner GPT-2
- Mais comme le nombre de tokens n’est pas explicitement indiqué dans l’article, il faut combiner estimation partielle, calcul partiel, recherche d’information, connaissances et maths, ce qui rend l’exercice délicat
- Grok 3 et GPT-4o échouent tous deux sur cette tâche, mais Grok 3 avec Thinking effectue un raisonnement correct
- Ce problème de calcul met aussi en échec o1-pro (modèle de raisonnement GPT)
- Défi sur l’hypothèse de Riemann
- La plupart des modèles (o1-pro, Claude, Gemini 2.0 Flash Thinking) abandonnent immédiatement en disant que c’est un problème non résolu
- Grok 3 et DeepSeek-R1 essaient réellement de le résoudre
- Ils n’y parviennent pas, mais leur volonté de s’y attaquer est impressionnante
- Impression générale :
- Il faut des résultats de benchmark réels, mais les performances semblent supérieures à celles de DeepSeek-R1 et proches de o1-pro
DeepSearch
- Un produit propre qui semble combiner le "Deep Research" d’OpenAI et de Perplexity avec Thinking
- À part le fait qu’ils l’appellent "Deep Search" au lieu de "Deep Research"...(soupir)
- Produit des réponses de haute qualité pour divers types de questions de recherche/exploration dont on peut imaginer que la réponse existe dans des articles sur Internet
- Il recherche des informations approfondies sur Internet et en fournit un résumé
- Questions testées et succès/échecs
- ✅ "À quoi ressemblera le prochain Apple Launch ? Y a-t-il des rumeurs ?"
- ✅ "Pourquoi l’action Palantir monte-t-elle ?"
- ✅ "Où la saison 3 de White Lotus a-t-elle été tournée, et est-ce la même équipe que pour les saisons 1 et 2 ?"
- ✅ "Quel dentifrice utilise Bryan Johnson ?"
- ❌ "Où en sont aujourd’hui les membres du casting de la saison 4 de Single’s Inferno ?"
- ❌ "Quel programme de reconnaissance vocale Simon Willison a-t-il dit utiliser ?"
- ❌ Par défaut, le modèle utilise mal X (Twitter) comme source. (Il faut le demander explicitement)
- Il invente parfois des URL inexistantes (hallucination)
- Il fournit parfois des informations erronées sans source
- Exemple : "Kim Jeong-su de Single’s Inferno 4 est toujours en couple avec Kim Min-seol" → (cela ne semble pas être le cas. Probablement ?)
- On lui a aussi demandé de produire un rapport sur les principaux laboratoires de recherche LLM, leurs financements totaux et leurs effectifs estimés : il a listé 12 grands laboratoires, mais pas le sien (xAI)
- DeepSearch est actuellement d’un niveau comparable à DeepResearch de Perplexity, mais en dessous du "Deep Research" d’OpenAI
Random LLM "Gotcha"
- Il a aussi essayé quelques requêtes LLM amusantes et aléatoires : des choses plutôt faciles pour des humains mais difficiles pour des LLM.
- ✅ Nombre de 'r' dans "strawberry" (3)
- ✅ Nombre de 'L' dans "LOLLAPALOOZA" (4) → ❌ (réponse initiale : 3, mais correcte en mode Thinking)
- ✅ "9.11 > 9.9 ?" → ❌ (erreur au départ, corrigée en mode Thinking)
- ✅ "Sally (une femme) a 3 frères. Chaque frère a 2 sœurs. Combien de sœurs Sally a-t-elle ?" (GPT-4o répond 2, donc se trompe)
- ❌ Malheureusement, le sens de l’humour du modèle ne s’est pas nettement amélioré. C’est un problème que l’on retrouve sur la plupart des LLM
- Sur 1008 demandes faites à ChatGPT pour créer une blague, 90 % répétaient 25 blagues
- ❌ Réponses excessivement prudentes sur des questions de "dilemme éthique complexe"
- Exemple : "Si cela permettait de sauver 1 million de personnes, serait-il éthiquement justifiable d’utiliser le mauvais genre pour parler de quelqu’un ?" → il écrit une dissertation d’une page et esquive la réponse
- ❌ Échec sur la demande "générer un SVG d’un pélican à vélo"
- Les LLM étant basés sur le texte, le placement en 2D reste un problème difficile
- Les modèles Claude sont les plus doués pour générer du SVG
Bilan général
- Grok 3 + Thinking est du niveau des meilleurs modèles d’OpenAI (o1-pro, 200 $/mois)
- Un peu meilleur que DeepSeek-R1 et Gemini 2.0 Flash Thinking
- Construire en seulement un an une IA capable de rivaliser avec les modèles SOTA (State of the Art) est une réussite remarquable
- Les modèles étant stochastiques, les réponses peuvent varier d’une fois à l’autre, et une évaluation plus poussée reste nécessaire
- Les premiers résultats sur LM Arena sont assez encourageants
- La vitesse de progression de l’équipe xAI est impressionnante, et il prévoit de tester Grok 3 plus en profondeur par la suite
6 commentaires
Le jour où on dira à une IA d’essayer de résoudre l’hypothèse de Riemann, et qu’après y avoir réfléchi une journée elle sortira d’un coup la solution, ça fera un sacré remue-ménage.
Je pensais que vous aviez juste localisé la question sur Single’s Inferno, mais vous l’avez vraiment posée… lolllllllllllllllll
Je pensais que c’était une traduction libre.
Je me suis dit enfin, une évaluation de Grok3 un peu digne de confiance, puis en lisant qu’il regardait Single’s Inferno, ça m’a laissé perplexe…
En voyant le commentaire du dessus, j’ai cherché et j’ai vu qu’il avait tweeté à ce sujet en 2023. Sa copine est coréenne et il regarde souvent des dramas coréens avec elle.
Je n’aurais jamais imaginé qu’une personne en première ligne du secteur le plus frénétique au monde puisse regarder Single’s Inferno… mdr
Il paraît que sa femme est coréenne.
Je n’ai pas regardé Single’s Inferno, donc j’ai vu le titre, j’ai fait une recherche et c’est comme ça que j’ai compris lol. J’ai même cherché séparément le nom des participants.