- En recherche sur l’intelligence artificielle, l’absence d’une définition claire de l’AGI (Artificial General Intelligence) brouille l’écart entre la cognition de niveau humain et l’IA actuelle
- Cet article propose un cadre quantifiable qui définit l’AGI comme une « IA possédant la diversité cognitive et le niveau de maîtrise d’un adulte bien éduqué »
- En s’appuyant sur la théorie Cattell-Horn-Carroll (CHC), un modèle de référence de la cognition humaine, il décompose l’intelligence générale humaine en 10 grands domaines cognitifs pour les appliquer à l’évaluation de l’IA
- Grâce à ce cadre, les profils cognitifs de GPT-4 et GPT-5 ont été quantifiés : GPT-4 obtient un score AGI de 27 %, GPT-5 de 57 %
- Cela montre la progression rapide de l’IA, tout en suggérant qu’un écart important subsiste encore avant d’atteindre l’AGI, en raison notamment de lacunes fondamentales dans les capacités cognitives, comme le stockage en mémoire à long terme
La nécessité de définir l’AGI et le constat du problème
- L’AGI (Artificial General Intelligence) est considérée comme l’une des avancées technologiques les plus importantes de l’histoire humaine, mais le flou de sa définition alimente les controverses
- À mesure que l’IA conquiert des domaines comme les mathématiques ou l’art, autrefois jugés réservés à l’intelligence humaine, le seuil définissant l’« AGI » ne cesse de se déplacer
- Cela rend les discussions sur le moment ou le niveau d’atteinte de l’AGI peu productives, tout en masquant l’écart réel entre l’IA actuelle et l’AGI
- Cet article propose un cadre quantitatif et systématique pour éliminer cette ambiguïté
- Définition proposée : « l’AGI est une IA possédant la diversité cognitive et le niveau de maîtrise d’un adulte bien éduqué »
- Il s’agit d’une intelligence dotée à la fois d’une largeur cognitive (versatility) et d’une profondeur de maîtrise (proficiency), et non d’une simple capacité à exécuter une tâche isolée
Une approche fondée sur un modèle de la cognition humaine
- Pour rendre la définition de l’AGI opérationnelle, l’étude prend comme modèle la structure de la cognition humaine
- L’intelligence générale humaine n’est pas une capacité unique, mais un ensemble composite de facultés cognitives diverses façonnées par l’évolution
- Ce sont ces facultés qui rendent possible l’adaptabilité humaine et la compréhension du monde
- La recherche s’appuie sur la théorie Cattell-Horn-Carroll (CHC)
- La théorie CHC est le modèle de l’intelligence humaine le plus solidement validé empiriquement, en synthétisant plus de 100 ans d’analyses factorielles de tests d’aptitudes cognitives
- Depuis les années 1990-2000, la plupart des tests cliniques d’intelligence sont conçus sur la base du modèle CHC
- Le CHC classe l’intelligence humaine de manière hiérarchique en capacités supérieures (larges) et capacités inférieures (détaillées)
- Exemples : raisonnement inductif, mémoire associative, exploration spatiale
Conception du cadre d’évaluation pour l’IA
- Le système de tests psychométriques accumulé sur plusieurs décennies a été adapté à l’évaluation de l’IA
- Alors que les évaluations classiques de l’IA reposaient sur l’exécution de tâches générales, cette étude vérifie directement la possession des capacités cognitives détaillées du CHC
- En appliquant à l’IA des tests de même forme que ceux destinés aux humains, elle mesure la diversité cognitive et le niveau de maîtrise
- Les résultats sont exprimés sous la forme d’un score AGI standardisé (0 à 100 %), où 100 % correspond à une AGI complète
- GPT-4 est évalué à 27 % et GPT-5 à 57 %, ce qui met en évidence à la fois des progrès rapides et un écart encore important
- Les expériences montrent que l’IA excelle sur des benchmarks complexes, mais ne parvient à résoudre qu’environ la moitié de tâches cognitives fondamentales pourtant simples pour un humain
- Cela signifie que l’IA actuelle peut être très performante dans certains domaines, mais qu’elle possède une structure cognitive globalement plus étroite que celle de l’humain
Les 10 composantes cognitives clés
- Le cadre définit 10 grands domaines cognitifs à partir des capacités larges du CHC, en attribuant à chacun le même poids (10 %)
- Connaissances générales (General Knowledge, K) : ampleur de la compréhension factuelle du monde, incluant culture générale, science, sciences sociales et histoire
- Lecture et écriture (Reading & Writing, RW) : décodage du langage, compréhension, rédaction et usage des styles d’écriture
- Capacité mathématique (Mathematical Ability, M) : connaissances et résolution de problèmes en arithmétique, algèbre, géométrie, probabilités et calcul différentiel
- Raisonnement à chaud (On-the-Spot Reasoning, R) : capacité flexible de contrôle de l’attention permettant de résoudre de nouveaux problèmes sans s’appuyer sur des connaissances préexistantes
- Mémoire de travail (Working Memory, WM) : capacité à maintenir et manipuler simultanément des informations textuelles, auditives et visuelles
- Stockage en mémoire à long terme (Long-Term Memory Storage, MS) : capacité à apprendre et stocker durablement de nouvelles informations
- Récupération en mémoire à long terme (Long-Term Memory Retrieval, MR) : capacité à rappeler avec précision les connaissances stockées et à éviter les hallucinations (confabulation)
- Traitement visuel (Visual Processing, V) : capacité à reconnaître, analyser, générer et explorer des informations visuelles
- Traitement auditif (Auditory Processing, A) : capacité à distinguer, reconnaître et exploiter de manière créative des stimuli auditifs comme la parole, le rythme ou la musique
- Vitesse (Speed, S) : capacité à exécuter rapidement des tâches cognitives simples, incluant vitesse perceptive, temps de réaction et fluidité de traitement
- Ces 10 domaines permettent une évaluation multimodale couvrant texte, vision et audio, ainsi qu’un diagnostic précis des forces et faiblesses de l’IA
Profil cognitif de l’IA actuelle et implications
- La comparaison des capacités cognitives de GPT-4 et GPT-5 montre que les domaines centrés sur les connaissances sont solides, mais que les domaines liés à la mémoire restent nettement déficients
- En particulier, la capacité de stockage en mémoire à long terme est identifiée comme la plus grande lacune
- Cela montre l’absence, dans l’IA actuelle, des structures cognitives fondamentales nécessaires pour atteindre une intelligence générale de niveau humain
- Le cadre peut servir d’outil de suivi quantitatif des progrès de l’IA
- Le score AGI permet de chiffrer clairement la vitesse de progression entre modèles et l’écart restant à combler
- Il peut aussi servir d’indicateur soulignant l’importance d’un développement cognitif équilibré dans les recherches futures sur l’IA
Conclusion
- Cette étude élimine l’ambiguïté des discussions sur l’AGI et propose une définition quantitative fondée sur un modèle de la cognition humaine
- En évaluant 10 domaines cognitifs issus de la théorie CHC, il devient possible de mesurer objectivement l’étendue et la profondeur cognitives de l’IA
- Les résultats de GPT-4 et GPT-5 montrent que, malgré des progrès rapides, l’IA reste encore très éloignée de l’humain sur des composantes cognitives clés telles que la mémoire, le raisonnement et l’intégration sensorielle
- Le cadre proposé a le potentiel de devenir un standard d’évaluation pour la recherche future sur l’AGI
1 commentaires
Commentaires sur Hacker News
Définir l’AGI comme la « diversité cognitive et le niveau de maîtrise d’un adulte bien éduqué » semble être un objectif beaucoup trop ambitieux.
En réalité, même une intelligence artificielle dotée de capacités cognitives au niveau d’un enfant non éduqué serait déjà un accomplissement immense.
Je pense même qu’atteindre une intelligence de niveau animal constituerait un événement historique pour l’humanité.
Si l’on construisait une véritable IA générale, ce serait probablement un modèle composé de dizaines de milliards de paramètres, capable de chercher des informations en ligne, de ne conserver sa mémoire que lorsque nécessaire, de planifier et d’étendre ses connaissances.
Il n’aurait pas besoin de connaître 30 langues ni de mémoriser tout Wikipédia.
C’est ce type de modèle efficace qui correspond, pour moi, à la définition de l’AGI.
L’ancien test de Turing a lui aussi fini par révéler ses failles — le simple fait de tromper un interrogateur humain moyen ne suffisait pas à prouver une intelligence réelle.
Si l’on pouvait vraiment définir l’intelligence (I), la généralité (G) suivrait naturellement.
En lisant l’article, ce qui m’a frappé, c’est l’absence totale de discussion sur la conscience (awareness).
La cognition exige fondamentalement une conscience, mais la conscience est difficile à décrire ou à mesurer avec le langage.
Le bouddhisme et la philosophie l’explorent depuis des millénaires, et pourtant elle reste impossible à définir.
Mon père est professeur de psychométrie, et il dit lui-même que les outils servant à mesurer l’intelligence humaine sont extrêmement imparfaits.
Le langage peut contenir le savoir humain, mais il ne peut pas saisir « l’étincelle de la conscience ».
Quand on médite, on constate qu’il est possible d’agir même lorsque les pensées disparaissent — ce type de processus non verbal ne peut pas être appris par un modèle.
À mes yeux, les LLM, de par leur structure prédictive fondée sur le langage, ne peuvent pas mettre en œuvre de tels processus de pensée non conscients.
Le cerveau humain comme les LLM réalisent tous deux une fusion de concepts de haut niveau et des combinaisons vectorielles en interne.
Le problème, c’est l’absence d’apprentissage continu, de mémoire à long terme et de traitement d’un contexte illimité.
Si ces trois points étaient résolus, je crois qu’on se rapprocherait d’un pas de l’AGI.
Comme on ne peut même pas prouver l’existence de la conscience, en faire un préalable n’est pas très productif.
Sans attendre l’issue de débats philosophiques, nous construisons déjà des machines qui pensent et raisonnent.
Pourtant, les discussions sur l’IA n’abordent presque toujours qu’une seule forme d’intelligence.
Les religions et la méditation insistent sur le fait que « la conscience existe dans le corps », alors que les débats sur l’AGI traitent souvent cette dimension transcendante comme un défaut.
Dès qu’elle apparaît, elle implique autonomie et droits.
L’industrie veut des « outils obéissants » sans responsabilité morale.
Je ne peux être certain que d’une seule chose : c’est que moi, je suis conscient.
C’est pourquoi la conscience n’est pas un indicateur utile de l’intelligence.
Je pense qu’il est erroné de concevoir l’intelligence humaine séparément de la biologie.
La pensée humaine est profondément enracinée dans les états biologiques et les cycles évolutifs.
On peut comparer le niveau aux échecs, mais les émotions et le raisonnement humains relèvent davantage de la biologie que de la logique.
Sans faim, sans mort, sans émotions, elle n’a aucune motivation interne à explorer ou à s’améliorer d’elle-même.
L’humain se développe de l’intérieur, tandis que l’IA est entraînée depuis l’extérieur.
C’est pourquoi je pense que les LLM auront du mal à atteindre une AGI au sens humain du terme.
Mais je reste sceptique face à cette hypothèse.
Au final, il est très probable que la définition même de l’« intelligence » soit redéfinie pour s’adapter aux résultats obtenus par l’IA.
C’est presque une question religieuse, que nous ne faisons que décrire en termes techniques.
Les LLM peuvent s’approcher de cette description sans pour autant constituer une véritable intelligence.
Je pense que l’intelligence n’est pas liée à la biologie humaine.
Cet article donne l’impression de mélanger un score au SAT avec une évaluation de capital-risque.
Définir l’AGI comme « une IA dotée de toutes les capacités cognitives humaines » est déjà ambigu.
L’article affirme proposer « une définition concrète de l’AGI », mais continue de s’appuyer sur le critère flou d’un « adulte bien éduqué ».
L’IA a déjà dépassé le niveau adulte dans de nombreux domaines.
Le profil cognitif « en dents de scie (jagged) » décrit dans l’article est en réalité une caractéristique de toute intelligence selon le contexte.
Ce n’est donc pas une définition de l’AGI, mais simplement un cadre pour mesurer les déséquilibres cognitifs de l’IA.
Ce qui est frappant, c’est que l’IA est bien plus irrégulière (jagged) que l’humain.
L’IA est certes intéressante sur le plan technique, mais les discussions sur « ce qu’est l’AGI » sont terriblement ennuyeuses.
C’est un peu comme si, à chaque discussion sur l’informatique quantique, il fallait recommencer par expliquer « qu’est-ce qu’un qubit ? ».
La technologie n’est pas une destination, mais un processus d’amélioration continue.
Toutes les technologies finissent par vieillir et ne survivre que sous forme de nostalgie.
L’IA continuera elle aussi à progresser, mais nous ne sommes peut-être que des grenouilles dans l’eau qui chauffe en train de nous habituer à la vitesse du changement.
Ce n’est peut-être pas une destination, mais cela mérite pleinement qu’on en parle.
La nature de la conscience et de la pensée fait l’objet de débats depuis des siècles.
Cela semble nouveau, mais ce n’est souvent qu’une reformulation d’anciennes idées philosophiques.
La faiblesse fondamentale de cet article est qu’il tente d’appliquer directement à des machines des outils de mesure de l’intelligence conçus pour les humains.
Par exemple, le « dual N-back test » sert à mesurer les variations de la mémoire de travail chez l’être humain, mais cela n’a aucun sens pour un modèle Transformer.
Les tests d’intelligence humaine sont conçus à partir de leur corrélation avec les performances dans le monde réel chez les humains.
Donc, ce n’est pas parce qu’une IA réussit bien un test de QI qu’elle peut, dans le monde réel, agir comme un humain très intelligent.
Nous avons déjà une SAGI (Stupid Artificial General Intelligence).
Elle est plus rapide ou meilleure que l’humain sur certains points, mais en même temps stupide sur d’autres.
C’est comme un avion : il ne vole pas comme un oiseau, mais il vole quand même.
Le sujet est abordé dans When Will AI Transform the Economy?.
Comme en mathématiques avec la « Naive Set Theory », c’est une notion simple mais pratique.
Ce qui est intéressant, c’est que sur HN, la plupart des gens considèrent encore l’IA actuelle comme du « faux » ou un « jouet », alors que les personnes les plus influentes au monde y investissent des milliers de milliards de dollars.
Je ne sais pas qui a raison, mais ce contraste extrême est fascinant.
On peut très bien réussir en produisant quelque chose sans valeur.
Le fait que GPT-5 ait obtenu un score de 58 % me semble beaucoup trop élevé.
En réalité, il n’est pas si proche de l’AGI.
Et puis, voir Gary Marcus et Yoshua Bengio sur le même article a quelque chose d’étrange.
Ces derniers temps, la liste des auteurs elle-même ressemble à une mise en scène.