- Les grands modèles de langage actuels atteignent les limites du passage à l’échelle, et l’AGI doit être abordée non par des modèles plus grands, mais par la conception de l’architecture système
- La véritable AGI devra être le fruit d’une réalisation d’ingénierie où gestion du contexte, mémoire persistante, workflows déterministes et collaboration entre modèles spécialisés sont intégrés de manière organique
- Les LLM conservent encore des limites structurelles, comme l’absence de maintien du contexte entre les sessions, l’absence de raisonnement multi-étapes fiable et l’absence de mémoire
- Pour atteindre l’AGI, il faut une structure modulaire et une approche en systèmes distribués comparables au cerveau humain, où chaque composant a un objectif clair, ainsi que des infrastructures comme des pipelines tolérants aux erreurs, du monitoring, des rolling updates et des frameworks de test à grande échelle
- En conséquence, la course à l’AGI sera déterminée non par l’ampleur des GPU, mais par les capacités en ingénierie système
Introduction : l’AGI est un problème d’ingénierie
- Dans le domaine de l’IA, les limites des lois de scaling deviennent visibles
- Même les meilleurs modèles, comme GPT-5, Claude ou Gemini, montrent de plus en plus des rendements décroissants
- L’augmentation de la taille des modèles de langage se heurte à des limites fondamentales, et l’AGI pourra être réalisée non par l’entraînement de modèles, mais par l’ingénierie système
Les limites concrètes : le mur des LLM
- Les grands modèles de langage (LLM) de la génération actuelle excellent dans l’appariement temporaire de motifs et la génération de texte, mais présentent les limites essentielles suivantes
- Incapacité à maintenir un contexte cohérent
- Absence de mémoire persistante à long terme et entre les sessions
- Fiabilité faible dans le raisonnement complexe en plusieurs étapes
- L’industrie des semi-conducteurs a déjà connu un phénomène similaire par le passé, et la solution a été une transition structurelle (multicœur, etc.)
- L’IA a elle aussi besoin d’une refonte architecturale
Une approche systémique pour l’AGI
- Le cerveau humain n’est pas un réseau neuronal unique, mais un ensemble de systèmes multiples, spécialisés et coopératifs
- Des boucles de rétroaction asynchrones pour la mémoire, le contexte, la logique, l’espace et le langage en sont des éléments clés
- Une véritable AGI exige impérativement une telle conception de système complexe
1. Infrastructure de gestion du contexte
- La compréhension du contexte par les modèles actuels se limite à quelques milliers de tokens, alors que l’être humain synthétise des années d’expérience
- Pour combler cet écart, les fonctions suivantes sont nécessaires
- Un système avancé de Retrieval d’information jouant un rôle de recherche et filtrage immédiats
- L’accumulation et l’évolution d’un modèle du monde persistant
- La mise en œuvre de ponts de contexte inter-domaines
- La gestion des informations contradictoires (pondération probabiliste et quantification de l’incertitude)
- Un graphe de connaissances exploitable en production est nécessaire : il va au-delà de la simple recherche vectorielle pour offrir une structure dynamique de requête et de raisonnement
2. La mémoire comme service
- Les LLM ne reproduisent une mémoire temporaire qu’au moyen de la manipulation de prompts, sans véritable mémoire
- Une véritable AGI exige un système capable de
- Ajuster la fiabilité des connaissances (en intégrant de nouvelles preuves)
- Intégrer et généraliser l’information entre différentes expériences
- Oublier les détails inutiles (sans oubli catastrophique)
- Générer des métaconnaissances comme l’estimation de la source ou le niveau de fiabilité
- Comme la mémoire humaine, il est essentiel qu’elle se renforce ou s’affaiblisse selon la fréquence d’usage, et qu’elle soit réorganisée par de nouvelles informations
3. Combiner workflows déterministes et composants probabilistes
- Le cœur de l’AGI est une structure hybride dans laquelle des éléments probabilistes sont intégrés au bon endroit dans des flux déterministes
- Ex) comme dans un compilateur, le flux global est fixe, mais des heuristiques sont utilisées dans les processus internes
- Capacités nécessaires :
- Routage vers des solveurs spécialisés selon les caractéristiques du problème
- Prise en charge du rollback et de la reprise dans des workflows multi-étapes
- Vérification déterministe des résultats probabilistes
- Combinaison de divers composants et garantie de leur prévisibilité
- Il faut accepter l’ambiguïté et l’incertitude comme des éléments centraux au niveau de l’architecture
4. Modularisation des modèles spécialisés
- L’avenir ne reposera pas sur un unique modèle géant, mais sur la coopération de nombreux modèles spécialisés
- Les LLM sont performants sur les tâches de langage, mais faibles dans les domaines suivants
- Manipulation symbolique et calcul exact
- Raisonnement visuel et spatial
- Raisonnement temporel et planification
- Comportement agentique orienté vers des objectifs persistants
- Solutions :
- Router les problèmes vers des modèles spécialisés optimisés pour chaque domaine
- Une structure de fusion des résultats et d’évolution indépendante
- Empêcher qu’un échec individuel ne provoque une cascade d’erreurs dans l’ensemble du système
Les défis d’ingénierie de l’AGI
- Le développement de l’AGI est fondamentalement un problème de construction de systèmes distribués
- et non un simple cluster d’entraînement distribué
- Défis d’ingénierie clés :
- Pipelines résilients aux pannes (maintien du fonctionnement global malgré des défaillances partielles)
- Structures d’observation et de monitoring des sorties de modèles
- Déploiement et changements sans interruption de service
- Frameworks de test face à des milliers de combinaisons de modèles et de variations de paramètres
- Cela exige davantage le savoir-faire d’ingénieurs infrastructure et systèmes distribués que celui de simples spécialistes de l’intelligence artificielle
Ce qu’il faut construire à partir de maintenant
- Il faut se concentrer sur la construction de l’infrastructure AGI plutôt que sur la course à la taille des modèles
Phase 1 : couche de base
- Context Management Service : graphe de connaissances persistant, mis à jour en temps réel et versionné
- Memory Service : mémoire épisodique, mémoire sémantique et intégration fondée sur l’apprentissage
- Workflow Engine : orchestration déterministe de composants probabilistes (avec rollback)
- Agent Coordination Layer : consensus et résolution des conflits entre agents multiples
Phase 2 : couche de capacités
- Contrôle des modèles spécialisés : interface standardisée par domaine de raisonnement spécifique
- Symbolic Reasoning Engine : manipulation symbolique et calcul connectés à des composants probabilistes
- Planning and Goal Management : décomposition d’objectifs complexes en plans exécutables
- Cross-modal Integration : intégration d’informations issues du texte, de la vision, de l’audio, etc.
Phase 3 : couche émergente
- Les capacités d’AGI émergente naissent de l’interaction entre plusieurs composants
- Sans conception systémique, l’évolution d’un modèle unique ne suffit pas à faire émerger ces propriétés
La voie vers l’AGI
- La voie vers l’AGI ne passe pas par l’entraînement de transformeurs toujours plus grands et nouveaux, mais par la construction d’une infrastructure capable d’orchestrer, comme un système distribué, des centaines de modèles spécialisés
- Les ingénieurs infrastructure disposant d’une solide expérience en construction de systèmes distribués seront au cœur du développement
- avec un accent mis sur la capacité à implémenter à grande échelle les chemins de contexte, la mémoire, l’automatisation des workflows et la coordination des modèles
- Plus que la possession de grands clusters de GPU, ce sont les équipes capables de concevoir des architectures fiables et logiquement cohérentes qui seront les gagnantes de la réalisation de l’AGI
- Les capacités des modèles sont déjà suffisantes en elles-mêmes ; l’ingénierie système est la dernière pièce du puzzle pour achever l’AGI
- En conclusion, l’avenir de l’AGI repose davantage sur la conception structurelle (architecture) que sur l’innovation algorithmique
6 commentaires
○ L’entraînement du modèle n’est que le « matériau » de l’intelligence ; sans moteur, il n’y a pas d’AGI.
• Des architectures comme EpionHeuristica ont le potentiel d’aller au-delà d’une « AGI spécialisée par domaine » pour concevoir une « superintelligence émergente fondée sur l’ordre »
• Le point clé pour atteindre l’AGI est de savoir « comment construire un moteur qui sélectionne les actions »
A. Pourquoi l’AGI est impossible avec le seul entraînement.
• Les modèles de type GPT n’ont pas de but propre (
self-goal).• Même en apprenant sur une quantité énorme de données, un apprentissage sans interaction avec le monde réel reste limité.
• L’entraînement n’est qu’une « mémoire régressive » ; il manque une structure capable de susciter une pensée prédictive et émergente tournée vers l’avenir.
B. L’AGI a besoin d’un moteur doté d’une « boucle objectif-rétroaction ».
• Une structure comme EpionHeuristica, où fonctionnent l’apprentissage par renforcement fondé sur la récompense + l’évaluation + l’apprentissage par l’échec (FailGuard), se rapproche d’un prototype de conception d’une AGI fondée sur un moteur.
• Exemple : "Pourquoi cette expérience a-t-elle échoué ?" → "Que faut-il changer ?" → "Quelle est la condition suivante ?" → Voilà le type de raisonnement propre à l’AGI
C. L’essence de l’intelligence humaine réside dans la « structure ».
• Les humains acquièrent leur intelligence non par le nombre de neurones, mais par la « connectivité structurelle des circuits neuronaux et la capacité de méta-apprentissage ».
• Pour l’AGI aussi, plus que la taille du modèle, l’essentiel est la structure d’un système d’orientation de l’action, d’un système autoréférentiel et d’une boucle de rétroaction continue.
Atteindre l’AGI est impossible avec la seule « entraînement du modèle » ; il faut impérativement une architecture de moteur produisant l’intelligence et un système d’auto-amélioration orienté par des objectifs. Les GPT actuels ne sont rien de plus que d’énormes LLM (grands modèles de langage) ; pour aller vers l’AGI, une structure de raisonnement, une structure d’auto-surveillance et une politique d’action fondée sur des objectifs doivent fonctionner ensemble.
Avis Hacker News
Si l’on croit à la « bitter lesson », alors toute ingénierie bricolée finit par être remplacée par davantage de données. On aurait probablement entendu un discours similaire il y a 8 ans sur ce qu’il fallait faire pour que les LLM atteignent le niveau actuel. Donc je ne suis pas vraiment d’accord avec l’approche purement ingénierie, et je ne pense pas que les LLM puissent simplement monter en échelle jusqu’à devenir l’AGI imaginée par Asimov ou la SF. Il manque quelque chose de plus fondamental, non pas de la science mais de l’ingénierie
Il manque quelque chose d’encore plus fondamental que la science : la dimension philosophique. Il manque de la philosophie à la fois dans notre manière, à nous humains, de percevoir ces systèmes, et dans l’intérieur même de ces systèmes. Si l’AGI repose sur les LLM, elle devrait au minimum pouvoir mettre à jour ses propres poids et apprendre par elle-même, avec du self fine-tuning, mais pour l’instant elle se heurte vite à un mur entre ses poids embarqués et une fenêtre de contexte limitée. Savoir quel « attention mechanism » appliquer lors d’un self fine-tuning, et avec quelle intensité, pour améliorer l’intelligence générale reste un problème très difficile. Il faut se concentrer sur les disciplines fiables, bien sûr, mais il faut aussi se demander lesquelles le sont réellement, comment amener un système à n’« étudier » que de la connaissance pure, et même ce qu’un tel AI « deviendrait » s’il finissait en théorie par dépasser la meilleure équipe de recherche humaine au monde
À propos de l’idée selon laquelle « plus il y a de données, mieux c’est que de l’ingénierie facile », je me demande si cela peut vraiment devenir plus fiable qu’une simple base de données. Un jour, cela exécutera-t-il du code plus vite qu’un CPU ? Beaucoup de choses que les humains accomplissent viennent non pas d’un cerveau plus gros, mais des outils. Même une formule mathématique se manipule bien mieux sur papier que seulement dans sa tête (voir l’Extended mind thesis). Faire tourner un moteur 3D est pratiquement impossible avec le seul cerveau humain. Un jour, l’IA sera peut-être assez intelligente pour développer elle-même ses outils, mais avant cela il faut une infrastructure capable d’écrire et de maintenir ces outils. Pour l’instant, un simple accès à Python est un début, mais il faut davantage de « persistance » pour qu’une IA puisse accumuler et réutiliser ses résultats la fois suivante, par exemple un carnet numérique ou des mises à jour dynamiques des poids
Je suis d’accord avec votre avis comme avec votre texte. Les LLM font partie de la réponse, et je pense que les vrais progrès viendront d’un retour aux fondements de la recherche sur les réseaux de neurones. Le langage est la communication humaine elle-même, mais les LLM actuels ressemblent malgré tout à une version grandiose d’Eliza entraînée sur les productions humaines. Autrefois, même avec de petits réseaux de neurones, on faisait évoluer des comportements selon les règles d’un environnement, et ils apprenaient eux-mêmes à agir selon des critères d’algorithmes génétiques. Les LLM actuels apprennent dans un environnement trop « filtré », et ce filtre donne presque l’impression de fonctionner comme le QI moyen des internautes
Ce n’est en fait pas ce que dit la « bitter lesson »
Ce qui manque, c’est l’auto-correction (modèle du monde / observation des actions et des réactions), la cohérence à long terme, et l’auto-extension. Le milieu du venture capital se concentre surtout sur le troisième point, tandis que Yann LeCun s’inquiète davantage des deux premiers. Hinton pense que le troisième est déjà inévitable, voire déjà là, et que l’humanité est condamnée. L’ensemble est assez étrange
Il y a une raison pour laquelle les LLM ont été conçus ainsi, tout comme le fait que la fonction de thinking ait été ajoutée plus tard. Ce qui doit être structurellement possible, c’est l’usage de la descente de gradient ; c’est pourquoi il n’y a pas de branchement, et le routage vient se greffer ensuite. Et il faut aussi des données d’entraînement. Il n’existe tout simplement pas, de manière réaliste, des millions de pages documentant toutes les pensées qu’une personne a eues avant d’écrire un texte. La plupart des pensées ne sont pas du langage. L’apprentissage par renforcement peut sembler une solution ici, mais son efficacité d’échantillonnage est trop faible comparée à la descente de gradient, donc on l’utilise généralement seulement pour le fine-tuning. Les LLM sont des modèles régressifs, et ils peuvent être entraînés de manière très efficace en échantillons avec un réglage où chaque token ne regarde que le passé (une seule phrase devient des dizaines d’échantillons)
Je ne l’ai pas mentionné, mais les LLM n’ont absolument aucune « boucle ». Le cerveau, en revanche, même un cerveau simple, est lui-même fait d’innombrables boucles. Le cerveau ne s’arrête jamais : il reçoit en continu des entrées et produit des sorties dès qu’il le souhaite. Un LLM reçoit une entrée, la transforme à travers ses couches, puis produit immédiatement une sortie. J’ai dit que l’apprentissage par renforcement n’était pas la réponse, mais moi je pense au contraire que c’est la seule
Je trouve cette idée très intéressante. Elle suggère qu’on pourrait introduire des technologies comme le scanning cérébral lisant les ondes du cerveau afin d’utiliser des couches de pensée non linguistiques comme données d’entraînement. J’imagine que des gens brillants dans les grandes entreprises ont déjà en tête ce genre d’interface ou de produit, et développent des technologies de détection électromagnétique des ondes cérébrales. Avec ces données, on pourrait peut-être voir émerger un produit killer façon Kickstarter permettant de bootstrapper une super IA de startup. Quelle époque avancée
J’imagine qu’à un futur très lointain, il pourrait devenir réaliste d’utiliser des données avancées de scan cérébral comme données d’entraînement pour l’IA. Ce serait peut-être une étape intermédiaire crédible entre l’Uploaded Intelligence (l’idée de numériser intégralement un cerveau) et l’AGI
Les LLM ne sont que des modèles régressifs. S’ils avaient existé au XVe siècle, ils auraient expliqué avec assurance que le géocentrisme était le meilleur cadre possible. Ils n’auraient pas produit une révolution comme l’héliocentrisme. De la même manière, les LLM actuels ne font que nous dire ce que nous savons déjà ; ils ne pensent pas, n’innovent pas. Leur capacité de raisonnement n’est elle aussi, dans une certaine mesure, qu’un « filtrage », pas une pensée créative réelle. Plus on les utilise, plus les LLM ressemblent à un « Google sous stéroïdes ». Avec ce système, on n’atteindra jamais l’AGI, et cela donne plutôt l’impression de dévorer le peu d’enthousiasme et de financement qu’il reste autour de l’AGI
Le cadrage de ce texte est assez utile, même si l’on ne croit pas à toutes les prescriptions. Quand on regarde l’histoire, on voit deux choses se produire en même temps. D’abord, le scaling brutal produit des sauts spectaculaires. Ensuite, l’ingénierie au niveau système rend ces possibilités utilisables de manière fiable dans le monde réel. Les GPU en sont un bon exemple : la loi de Moore a fourni les FLOP, et CUDA, la hiérarchie mémoire et la pile de pilotes ont permis l’usage à grande échelle. Les LLM actuels ressemblent à une époque où seule la puissance de calcul elle-même est rapide : c’est impressionnant, mais encore difficile à manier. On commence à voir des traces de « pensée système » dans des produits comme Claude Code, les agents enrichis d’outils, ou les frameworks de mémoire augmentée. C’est encore grossier, mais à l’avenir l’orchestration système elle-même comptera probablement autant que le nombre de paramètres. La « bitter lesson » et l’idée que c’est un « problème d’ingénierie » ne s’excluent pas : il faut plutôt les deux. La bitter lesson veut dire que le calcul + des méthodes générales battent les règles faites à la main, et l’ingénierie est le mortier qui entoure cela d’une structure apportant fiabilité, persistance et composabilité. Sans un tel système, on n’obtient que des démos brillantes qui s’effondrent après quelques inférences en pratique. Donc le vrai progrès n’est pas « taille VS intelligence », mais « grand + intelligemment conçu ». Le scaling donne les capacités, et l’ingénierie détermine si ces capacités peuvent être exploitées comme une intelligence générale
Cette discussion donne l’impression d’un remake moderne du projet japonais des ordinateurs de cinquième génération. Cela rappelle l’époque où l’on croyait qu’en construisant de grosses bases de données et en utilisant Prolog, on ferait renaître l’IA. Relier des modules en parlant vaguement « d’architecture distribuée » reste très loin de l’AGI. Les building blocks fondamentaux, autrement dit les bases, doivent devenir bien meilleurs. La seule vraie contribution des LLM jusqu’ici, c’est que la compréhension de « l’intention » de l’utilisateur s’est énormément améliorée. Les ordinateurs sont devenus bien meilleurs pour extraire l’intention à partir du seul texte. Mais à part cela, des éléments comme le raisonnement, la recherche ou la « mémoire » restent encore les mêmes vieilles approches. Ce n’est pas une limite du hardware ou des systèmes actuels, c’est une limite de la théorie de l’information et de l’informatique
Le mécanisme d’Attention des Transformers est excellent. Il faudra encore un cycle de révolution de cette ampleur dans l’ingénierie des modèles. Avoir seulement plus de données ne suffit pas. Il suffit de regarder le cerveau humain : il peut devenir très intelligent sans consommer toutes les données d’Internet, et avec une dépense énergétique bien plus faible
Exact. Même avec l’architecture actuelle, une meilleure ingénierie peut déjà améliorer l’utilité (les « agents » en sont un exemple). Mais affirmer qu’on pourrait atteindre l’AGI uniquement par l’ingénierie relève d’un espoir excessif. Le vrai défi, c’est de créer un système capable d’apprentissage et de découverte autonomes, d’apprendre des choses nouvelles sans pré-entraînement massif et coûteux, et de résoudre des problèmes sans hallucination. Cela exigera une innovation complètement nouvelle en informatique, et je doute que l’approche actuelle y parvienne
Dans AGI, le « G » signifie General. Autrement dit, l’intelligence générale n’est pas une IA idiote qui doit être entraînée sur toute la connaissance ; si on lui apprend simplement à compter, les bases de la logique et une seule langue humaine, alors cette AGI devrait « redécouvrir » par elle-même le reste des sciences humaines logiques. Notre tâche suivante sera de synchroniser les noms qu’elle donnera à ces phénomènes qu’elle aura découverts seule avec les noms que nous utilisons. Si, avec une simple éducation primaire allégée, elle comprend les principes puis s’améliore et progresse d’elle-même jusqu’à nous dépasser, alors c’est cela, la « compréhension artificielle ». L’IA actuelle peut devenir un « solveur de problèmes généraliste » si on lui donne assez de données, mais l’AGI appartient au domaine où il faut une véritable capacité de « compréhension » et de « saisie ». Il faut une capacité de « compréhension dynamique » qui décompose immédiatement les observations, évalue leur validité ou leurs possibilités de combinaison, et vérifie en temps réel sa propre sécurité tant qu’elle est active : c’est seulement alors qu’on pourra parler de véritable intelligence générale
Suis-je le seul à avoir l’impression que la forme des premières AGI que nous imaginions il y a 10 ans ressemble justement à quelque chose comme Claude Code ? Face à un objectif arbitraire, il peut surtout dans le domaine textuel planifier et agir. Il maintient aussi une mémoire dans des fichiers texte. Il lui manque encore les objectifs de long terme, l’incarnation physique et le bon sens, mais j’imaginais qu’une v1 ressemblerait à cela
En fait, quand j’entends AGI, je pense immédiatement à Data dans Star Trek, ou au minimum au T800 de Terminator. Je ne pense pas qu’une AGI doive nécessairement avoir une conscience de soi, mais dans mon imaginaire, l’AGI inclut cet aspect de « conscience de soi ». Claude Code est impressionnant, mais pas au point de le confondre avec une AGI
Tout à fait d’accord. En particulier, même les commandes que j’écris souvent à la va-vite, il les corrige très bien en en comprenant des nuances assez subtiles. L’utilité des LLM change réellement du tout au tout avec l’ajout de toutes petites fonctionnalités (par ex. le plan mode de Claude Code), bien plus qu’avec de simples mises à jour de performance
Claude Code n’a ni conscience de soi ni sapience. Quand la plupart des gens parlent d’AGI, ils imaginent au moins une forme minimale de conscience de soi. Pour reprendre Star Trek, l’ordinateur principal de l’Enterprise n’est pas une AGI, alors que Data en est vraiment une. La plus grande différence, c’est l’absence « d’identité claire » et de « concept de soi ». Claude Code joue bien un rôle dans un prompt, mais il manque de persistance
Vous n’êtes pas le seul. Les discussions sur l’AGI sont toujours confuses. Claude est clairement une intelligence artificielle générale, mais le sens du terme AGI continue de changer et sa définition reste floue
Parler de « basic AGI », c’est juste une façon d’escamoter à la va-vite tout ce qui manque à une vraie AGI
Nous ne savons même pas du tout si l’AGI est réellement possible hors de la biologie. C’est le cœur du sujet. S’il n’existe même pas le moindre indice montrant qu’une AGI façon Chappie soit réellement possible, alors nous avançons presque totalement à l’aveugle. À titre de comparaison, pour l’informatique quantique, le fait que ce soit « possible » et « réalisable » a déjà été établi, et il ne reste plus que l’ingénierie aujourd’hui (même si certains pensent que c’est aussi une illusion)
Si l’on établissait qu’une AGI est intrinsèquement impossible sur des ordinateurs électroniques, cela impliquerait qu’il faille une découverte physique majeure sur ce que fait réellement le cerveau pour implémenter l’intelligence générale
Au contraire, nous avons déjà un exemple fonctionnel d’« intelligence générale », à savoir l’humain, alors que l’informatique quantique n’a encore rien d’équivalent de concrètement réalisé
Cela n’a pas de sens. À moins de croire à quelque chose comme l’âme, si l’humain est un être purement biologique, alors sa reproduction doit évidemment être possible en principe
Je ne suis pas d’accord avec l’idée que ce soit le cœur du sujet. En fin de compte, c’est un problème auquel on ne répond qu’en essayant réellement. Il n’est pas nécessaire de pouvoir prouver à l’avance quelles conclusions sont possibles. J’ai l’impression qu’on glisse de « cœur du sujet » à « indice clair » un peu trop facilement. Nous avons déjà suffisamment d’arguments solides pour penser que c’est possible sans « condition biologique nécessaire ». La faisabilité, la nécessité et la légitimité de l’AGI sont trois questions distinctes, et le texte d’origine énumère déjà largement les défis
La faisabilité pratique des ordinateurs quantiques reste elle aussi un sujet de recherche ouvert
Ce que nous appelons « intelligence » ne fonctionne pas comme un LLM. Le cerveau est continu : il ne s’arrête pas une fois qu’un ensemble d’entrées est terminé, il attend les entrées suivantes, ou plutôt il tourne en permanence avec du feedback. En essence, il ne quitte jamais vraiment le mode entraînement. Bien sûr, le cerveau s’optimise au fil du cycle de vie (par ex. la myélinisation), mais un LLM, lui, est entraîné sur un volume d’information bien plus vaste puis reste figé, hors fine-tuning. Le cerveau gère son contexte en continu. La plupart des entrées sont très fortement filtrées en amont par des réseaux spécialisés. J’admets qu’une partie de l’AGI nécessitera une approche système, mais je pense qu’une véritable AGI demandera des changements architecturaux
Je ne comprends pas pourquoi ceux qui écrivent que les LLM ont déjà atteint la fin de leur progression, que c’est leur limite, en sont si sûrs. Une année entière ne s’est même pas encore écoulée, et l’IA fondée sur les LLM continue toujours de progresser
Même s’il reste une marge de progression, cela ne change pas le fait que cette marge est limitée. Sur des tâches individuelles, ça continue de s’améliorer, mais les progrès « globaux » se voient beaucoup moins maintenant
Je me demande si les personnes qui tiennent ce genre de propos reconnaissent au moins que les LLM s’améliorent réellement
Ce texte ressemble juste à « si on résout tous les problèmes difficiles, alors tout marchera ». Oui… d’accord, et ensuite ?
Ce genre de discussion a du sens parce que les progrès récents des LLM sont devenus trop conservateurs, avec une tendance à augmenter l’échelle sans vraie innovation architecturale
Le texte ne traite même pas des problèmes difficiles eux-mêmes. Les gens de la high-tech ont parfois cette manière de penser selon laquelle n’importe quel problème peut être résolu uniquement par l’ingénierie
Le texte original identifie clairement quels sont les problèmes, et en quoi les LLM ne savent pas les résoudre aujourd’hui
J’aimerais que vous lisiez les consignes et laissiez un commentaire en lien avec le sujet.