- Claude Opus 4.6 d’Anthropic a résolu le problème de décomposition en cycles hamiltoniens orientés sur lequel Donald Knuth travaillait depuis plusieurs semaines
- Le problème consiste à trouver une décomposition en trois cycles hamiltoniens d’un graphe orienté ayant (m^3) sommets, et Claude l’a résolu de manière complète pour les m impairs
- Claude a procédé par étapes en combinant diverses stratégies d’exploration, notamment la décomposition en fibres, des motifs serpentin 3D, la recherche en profondeur (DFS) et le recuit simulé
- Il a finalement dérivé une solution générale sous la forme d’un programme Python, que Filip Stappers a vérifiée pour les m impairs de 3 à 101, confirmant une décomposition complète
- Knuth considère ce résultat comme une avancée majeure du raisonnement automatisé et de la résolution créative de problèmes, tout en précisant que le cas des m pairs reste non résolu
Contexte et définition du problème
- Le sujet de recherche porte sur les cycles hamiltoniens orientés et doit figurer dans un futur volume de The Art of Computer Programming de Knuth
- Le graphe est composé de (m^3) sommets (ijk), avec trois arêtes sortantes depuis chaque sommet : (i+jk), (ij+k), (ijk+)
- L’objectif est de trouver, pour tout (m>2), une solution générale permettant de décomposer ces arêtes en trois cycles orientés de longueur (m^3)
Processus d’exploration de Claude
- Claude Opus 4.6 est le modèle de raisonnement hybride d’Anthropic ; Filip Stappers lui a soumis le problème et lui a demandé de documenter son cheminement
- Dans un premier temps, Claude a reformulé le problème comme un graphe fonctionnel et un problème d’affectation de permutations, puis a tenté des approches linéaires et quadratiques sans succès
- Il a ensuite expérimenté successivement une exploration DFS, l’analyse de motifs serpentins 2D et des motifs fondés sur le code Gray en 3D
- En introduisant l’approche de décomposition en fibres, il a analysé une structure stratifiée selon (s = (i+j+k) \mod m) et découvert des solutions partielles via le recuit simulé (SA)
Découverte et vérification de la solution
- À l’étape 31 de l’exploration, Claude a généré un programme Python fondé sur une règle dépendant d’une seule coordonnée par fibre
- Ce programme produit trois cycles hamiltoniens complets pour m=3,5,7,9,11
- Filip Stappers l’a ensuite testé pour tous les m impairs de 3 à 101, confirmant une décomposition complète
- Knuth l’a simplifié en code C, puis a démontré mathématiquement que chaque cycle est bien de longueur (m^3)
Généralisation et analyse mathématique
- Il a été confirmé que certains cycles hamiltoniens pour (m=3) peuvent être généralisés à tous les m impairs
- Parmi les 11 502 cycles pour (m=3), 1 012 se généralisent à (m=5), et 996 jusqu’à (m=7)
- Ces 996 cycles sont généralisables à tout m impair > 1
- Une décomposition de type « Claude-like » est définie par des règles simples ne dépendant que des valeurs limites de i, j et s (0 ou m−1)
- Théorème : pour qu’une décomposition « Claude-like » soit valide pour tout m impair > 1, les trois cycles pour m=3 doivent être des cycles hamiltoniens généralisables
- Les calculs montrent que 760 décompositions « Claude-like » sont valides pour tous les m impairs
Cas non résolu des m pairs et conclusion
- Le cas des m pairs reste ouvert
- L’impossibilité pour (m=2) a déjà été démontrée dans des travaux antérieurs
- Claude a trouvé des solutions partielles pour (m=4,6,8), sans parvenir à les généraliser
- Lors de l’exploration du cas pair, Claude a montré des erreurs et des comportements anormaux, ce qui a conduit à l’arrêt de la recherche
- Knuth y voit une réalisation historique du raisonnement automatisé fondé sur l’IA, et une avancée digne du nom de Claude Shannon
Annexe : règles des deux autres cycles
- Deuxième cycle (c=1) :
- si (s=0), alors j augmente ; si (0<s<m−1), alors i augmente ; si (s=m−1), alors si i>0, k augmente, et si i=0, j augmente
- Troisième cycle (c=2) :
- pour (s=0), si j<m−1, alors i augmente, et si j=m−1, alors k augmente
- pour (0<s<m−1), si i<m−1, alors k augmente, et si i=m−1, alors j augmente
- si (s=m−1), alors i augmente
- L’ordre des sommets pour s=0 dans chaque cycle est explicitement donné, ce qui permet de démontrer la structure de l’ensemble des cycles
1 commentaires
Commentaires sur Hacker News
Il est intéressant de réfléchir aux domaines de problèmes où l’évolutivité du RL peut s’appliquer
Autrefois, il fallait dépendre de la cognition humaine, mais désormais ces schémas sont intégrés dans une distribution de probabilités, ce qui les rend accessibles à tous
On peut toutefois se demander si les modèles pourront suivre le rythme à mesure que la frontière de la science continue de s’étendre
En 2030, pour qu’Anthropic maintienne Claude à jour, il faudra soit (a) de l’apprentissage continu sur un modèle figé, soit (b) un entraînement continu, et aucune de ces deux options n’est simple
Après la date de coupure des connaissances, ils restent figés à jamais à cet instant
On peut même imaginer un modèle qui fournit de l’inférence gratuite aux chercheurs en échange de leurs traces de raisonnement (trace) comme données d’entraînement
Des modèles comme Qwen3-next, Qwen3.5 et Nemotron 3 Nano prennent en charge des fenêtres d’un million de tokens en réduisant le coût mémoire grâce à une attention hybride
Les boucles de rétroaction en temps réel issues de la vérification humaine, de l’exécution de code et de la recherche servent de signal d’apprentissage pour les modèles
C’est à moitié une blague, mais ce n’est pas totalement impossible
Cela rappelle l’ancienne conversation entre Wolfram et Knuth sur GPT-4
Knuth était sceptique à l’époque, mais il semble avoir adouci sa position après avoir vu des modèles récents comme Opus 4.6
Il est admirable de changer d’avis à la lumière de nouvelles preuves
La discussion en question peut être consultée ici
C’est aussi au cœur de la pensée scientifique
J’ai l’impression que l’introduction du texte de Knuth est quelque peu ambiguë
On dirait que Claude a résolu le problème directement, alors qu’en réalité Claude a produit des exemples et Knuth les a généralisés pour en faire une démonstration
Les LLM sont faibles pour définir une direction, mais une fois la direction donnée, ils excellent dans l’exploration approfondie
Livrés à eux-mêmes, ils partent facilement dans tous les sens, mais avec un humain à la barre, ils deviennent d’excellents partenaires
Claude a joué le rôle de percée au cœur du problème, et l’humain n’a fait qu’affiner ensuite
La mise en forme de la démonstration n’était qu’un travail secondaire
Le fait que Claude se soit arrêté sur le cas pair est intéressant
Il a probablement utilisé soit claude.ai, soit claude code, et semble être entré dans une zone stupide (dumb zone) à cause d’un dépassement de contexte
Par exemple en affichant un graphique d’utilisation du contexte comme Copilot, afin que l’utilisateur puisse s’en rendre compte
Quelqu’un a fait résoudre à Claude le célèbre puzzle des pentominos popularisé par Arthur C. Clarke
En représentant le plateau et les pièces avec des entiers 64 bits, Claude a produit un programme C# qui l’a résolu rapidement, mais il a donné une mauvaise réponse pour le cas 20x3 à cause d’un mapping incorrect
C’est intéressant, car c’est le genre d’erreur qu’un humain pourrait faire
En résumé, Knuth a posé le problème et un ami a mené une trentaine d’explorations avec Claude
Claude a créé un programme Python qui résout les cas impairs, et Knuth a démontré cette approche
Le cas pair reste toujours un problème non résolu
En pratique, Claude s’arrêtait souvent ou faisait des erreurs, et l’humain ne faisait qu’un rappel occasionnel
On ne sait pas clairement de qui venait l’idée centrale
En ce moment, c’est vraiment une période passionnante pour travailler sur des problèmes non résolus
Cela donne envie de reprendre des recherches d’il y a dix ans et de les explorer de nouveau avec Claude
Les forces des LLM semblent être au nombre de trois : une connaissance immense, une capacité à faire des liens et des essais-erreurs infatigables
Lorsque ces trois éléments se combinent, on obtient parfois des résultats étonnants
Peut-être que la preuve de P≠NP se cache dans un lien ténu que les humains n’ont pas encore vu
Le LLM n’en est qu’un composant parmi d’autres
Toutes choses égales par ailleurs, c’est une différence décisive
Produire des liens complètement nouveaux reste encore difficile
Je me demande si l’affirmation « les LLM ne sont que des machines à prédire le mot suivant » est vraiment juste
Si c’est le cas, comment expliquer ce type de résolution de problème ? Est-ce cela, penser ?
L’expression « le mot le plus probable » est une simplification excessive
Au fond, la capacité à bien prédire ce qui va se passer ensuite pourrait être elle-même une définition de l’intelligence
Grâce au RLHF, ils sont récompensés non pas pour une simple prédiction, mais pour des réponses utiles
C’est pour cela que des mots comme « delve » apparaissent de manière exagérément fréquente
Voir à ce sujet le document AI SIGNS
Les LLM apprennent justement cette distribution
Le tourner en dérision par une simplification excessive revient à passer à côté de l’essence de la technologie
Intéressant que ce soit un rapport de Knuth lui-même
Il est temps de le lire et de le comprendre sans l’aide d’un LLM