L’acte o1 de l’IA générative : l’ouverture de l’ère du raisonnement agentique

xguru · 2024-10-21T11:06:01+09:00

Alors que la révolution de l’IA générative entre dans sa deuxième année, la recherche évolue de la « pensée rapide » vers la « pensée lente » La « pensée rapide » désigne des réponses rapides issues du préentraînement, tandis que la « pensée lente » désigne le raisonnement au moment de l’inférence Cette évolution fait émerger un nouveau type d’applications agentiques À mesure que la couche de base du marché de l’IA générative se stabilise, un petit nombre de grands acteurs comme Microsoft/OpenAI, AWS/Anthropic, Meta et Google/DeepMind dominent le marché Seuls les grands acteurs disposant d’un moteur économique et d’un capital colossal restent en lice La structure même du marché se renforce, et la prédiction du next token deviendra bon marché et abondante Avec la stabilisation de la structure du marché des LLM, une nouvelle frontière émerge L’attention se porte sur le développement et l’extension d’une couche de raisonnement où la pensée de « système 2 » est prioritaire Inspirée par des modèles comme AlphaGo, cette couche vise à doter les systèmes d’IA de raisonnement réfléchi, de résolution de problèmes et de capacités cognitives, au-delà du simple pattern matching De nouvelles architectures cognitives et interfaces utilisateur façonnent la manière dont ces capacités de raisonnement sont transmises aux utilisateurs et avec lesquelles ils interagissent Strawberry Fields Forever La mise à jour de modèle la plus importante de 2024 est o1 d’OpenAI (auparavant connu sous le nom de Q* et également appelé Strawberry) Cela ne signifie pas seulement qu’OpenAI est remonté en tête des classements de qualité des modèles, mais aussi qu’il a apporté une amélioration significative à l’architecture du statu quo Plus précisément, c’est le premier modèle à disposer d’une véritable « capacité de raisonnement général » obtenue grâce au calcul au moment du raisonnement Modèles préentraînés vs calcul au moment du raisonnement Les modèles préentraînés effectuent de la prédiction du next token à partir d’énormes volumes de données La propriété émergente de l’échelle (emergent property) est un raisonnement de base, mais ce raisonnement reste très limité Le calcul au moment du raisonnement consiste à demander au modèle de s’arrêter et de réfléchir avant de fournir une réponse Cela nécessite davantage de calcul au moment de l’inférence La partie « s’arrêter et réfléchir » correspond précisément au raisonnement (reasoning) Comparaison entre AlphaGo et les LLM En mars 2016, à Séoul, AlphaGo affronte la légende du go Lee Sedol, créant l’un des moments les plus importants de l’histoire du deep learning AlphaGo a montré au monde une forme d’« IA qui pense », allant au-delà de la simple imitation de motifs Différences entre AlphaGo et les systèmes d’IA de jeu précédents Comme les LLM, AlphaGo a été préentraîné pour imiter des experts humains à partir d’une base de données d’environ 30 millions de coups issus de parties précédentes et grâce à l’autojeu Mais au lieu de fournir une réaction immédiate issue du modèle préentraîné, AlphaGo prend le temps de s’arrêter et de réfléchir Lors de l’inférence, AlphaGo exécute une recherche ou une simulation sur un vaste ensemble de scénarios futurs potentiels, évalue ces scénarios, puis répond avec le scénario (ou la réponse) à valeur attendue la plus élevée Plus AlphaGo dispose de temps, meilleures sont ses performances Sans aucun calcul au moment du raisonnement, AlphaGo ne peut pas battre les meilleurs joueurs humains Pourquoi il est difficile de reproduire AlphaGo dans les LLM Il est difficile de construire une fonction de valeur (value function) qui évalue les réponses Au go, on peut simuler la partie jusqu’au bout, vérifier qui gagne, puis calculer la valeur attendue du coup suivant En programmation, on peut tester le code et vérifier s’il fonctionne En revanche, il est difficile d’évaluer un brouillon d’essai, un itinéraire de voyage ou un résumé des termes clés d’un long document Cela explique pourquoi le raisonnement reste difficile avec les méthodes actuelles, et pourquoi Strawberry est relativement performant dans des domaines proches de la logique (comme le code, les mathématiques ou la science), mais pas dans des domaines ouverts et non structurés (comme l’écriture) Recherche pour améliorer les capacités de raisonnement du modèle Strawberry L’implémentation concrète de Strawberry est étroitement protégée, mais l’idée centrale est liée à l’apprentissage par renforcement sur les chaînes de pensée générées par le modèle L’audit des chaînes de pensée du modèle laisse penser qu’il se passe quelque chose de fondamental et d’intéressant, proche de la manière dont les humains pensent et raisonnent Par exemple, o1 montre une capacité à revenir en arrière lorsqu’il est bloqué, comme propriété émergente de la mise à l’échelle du temps de raisonnement Il montre aussi une capacité à réfléchir à des problèmes comme un humain (par exemple visualiser des points sur une sphère pour résoudre un problème de géométrie), ainsi qu’à y réfléchir de façon nouvelle (par exemple résoudre un problème de concours de programmation différemment des humains) L’équipe de recherche regorge d’idées pour faire progresser le calcul au moment du raisonnement, comme de nouvelles méthodes de calcul de la fonction de récompense ou de nouvelles manières de réduire l’écart generator/verifier afin d’améliorer les capacités de raisonnement des modèles Autrement dit, le deep reinforcement learning revient sur le devant de la scène, rendant possible une nouvelle couche de raisonnement dans son ensemble Du System 1 au System 2 Thinking Le passage des réponses instinctives préentraînées (« système 1 ») à un raisonnement plus profond et délibéré (« système 2 ») constitue la prochaine frontière de l’IA Il ne suffit pas qu’un modèle sache simplement quelque chose Le modèle doit être capable de faire une pause, d’évaluer et de raisonner pour prendre des décisions en temps réel Le préentraînement correspond à la couche du système 1 Qu’il s’agisse d’apprendre des millions de coups de go dans AlphaGo ou des pétaoctets de texte à l’échelle d’Internet dans un LLM, l’objectif du préentraînement est d’imiter des motifs comme le jeu humain ou le langage Mais l’imitation, aussi puissante soit-elle, n’est pas un véritable raisonnement En particulier, elle ne permet pas de bien penser dans des situations complexes et nouvelles, en dehors du jeu de données d’entraînement La pensée de système 2 est au cœur de la recherche actuelle en IA Quand un modèle « s’arrête et réfléchit », il ne se contente pas de générer des motifs appris ni de recracher des prédictions basées sur des données passées Il génère un éventail de possibilités, considère les résultats potentiels et prend des décisions fondées sur le raisonnement Utiliser à bon escient la pensée de système 1 et la pensée de système 2 Pour de nombreuses tâches, la pensée de système 1 suffit (par exemple, réfléchir plus longtemps n’aide pas à savoir quelle est la capitale du Bhoutan) Mais pour des problèmes plus complexes, comme des percées en mathématiques ou en biologie, une réponse rapide et instinctive ne suffit pas Ces avancées exigent une réflexion approfondie, une résolution créative des problèmes et, surtout, du temps Il en va de même pour l’IA. Pour résoudre les problèmes les plus difficiles et les plus significatifs, elle doit dépasser les réponses rapides issues du jeu de données d’apprentissage et prendre le temps de produire le raisonnement réfléchi qui définit le progrès humain Une nouvelle loi d’échelle : le début de la course au raisonnement L’idée la plus importante de l’article sur o1 d’OpenAI est qu’une nouvelle loi d’échelle est apparue Les lois d’échelle du préentraînement des LLM Le préentraînement des LLM suit des lois d’échelle bien comprises Plus on consacre de calcul et de données au préentraînement d’un modèle, plus ses performances s’améliorent La nouvelle loi d’échelle du calcul au moment du raisonnement L’article sur o1 a ouvert une nouvelle dimension pour l’extension du calcul Plus on fournit au modèle de calcul au moment du raisonnement (ou de calcul en « test-time »), plus ses capacités de raisonnement s’améliorent Que se passerait-il si les modèles pouvaient réfléchir pendant des heures, des jours, voire des décennies ? Pourraient-ils résoudre l’hypothèse de Riemann ? Pourraient-ils répondre à La Dernière Question d’Asimov ? Passage des grands clusters de préentraînement vers un cloud de raisonnement Ce changement nous fera passer du monde des grands clusters de préentraînement à celui du cloud de raisonnement Le cloud de raisonnement est un environnement capable d’ajuster dynamiquement le calcul en fonction de la complexité de la tâche Un seul modèle finira-t-il par tout dominer ? Que va-t-il se passer à mesure qu’OpenAI, Anthropic, Google, Meta et d’autres étendent la couche de raisonnement et développent des machines de raisonnement plus puissantes ? Un seul modèle finira-t-il par tout dominer ? Une hypothèse était qu’une entreprise de modèle unique deviendrait si puissante qu’elle absorberait toutes les autres applications Jusqu’à présent, cette prédiction s’est révélée fausse sur deux points Premièrement, la couche des modèles compte de nombreux concurrents qui se disputent en permanence les capacités SOTA Il est possible que quelqu’un parvienne à une auto-amélioration continue via un auto-apprentissage à large spectre sur de multiples domaines et réussisse son décollage, mais rien ne l’indique pour l’instant Au contraire, la couche des modèles est le théâtre d’une concurrence féroce, et le prix par token de GPT-4 a chuté de 98 % depuis le dernier Developer Day Deuxièmement, les modèles ont du mal à s’imposer dans la couche applicative À l’exception de ChatGPT, les modèles ont globalement échoué à devenir des produits révolutionnaires dans la couche applicative Parce que le monde réel est complexe Les grands chercheurs n’ont pas envie de comprendre dans le détail les workflows end-to-end de toutes les fonctionnalités possibles sur tous les marchés verticaux imaginables Il est attrayant et économiquement rationnel pour les chercheurs de s’arrêter à l’API et de laisser à l’écosystème développeur la complexité du monde réel C’est une bonne nouvelle pour la couche applicative La complexité du monde réel : la nécessité d’architectures cognitives sur mesure La manière dont vous planifiez et exécutez des actions pour atteindre un objectif en tant que scientifique est très différente de votre manière de travailler en tant qu’ingénieur logiciel Et même la manière de travailler en tant qu’ingénieur logiciel varie d’une entreprise à l’autre Les laboratoires continuent de repousser les limites du raisonnement horizontal généraliste, mais il faut encore un raisonnement applicatif ou spécialisé par domaine pour fournir des agents IA réellement utiles Le monde réel complexe exige une quantité importante de raisonnement spécifique au domaine et à l’application qui ne peut pas être efficacement encodée dans un modèle généraliste L’émergence des architectures cognitives Une architecture cognitive désigne la manière de penser du système, c’est-à-dire le flux de code et d’interactions avec les modèles qui prend une entrée utilisateur pour exécuter une action ou générer une réponse Par exemple, chez Factory, chacun des produits « droid » dispose d’une architecture cognitive sur mesure qui imite la manière de raisonner humaine afin de résoudre une tâche précise, comme la revue de pull request ou la rédaction puis l’exécution d’un plan de migration pour une mise à jour de services backend à backend Les droids de Factory analysent toutes les dépendances, proposent des modifications de code pertinentes, ajoutent des tests unitaires et impliquent une personne pour la revue Ensuite, après approbation, ils appliquent les changements à tous les fichiers de l’environnement de développement et, si tous les tests passent, fusionnent le code Cela ressemble à la manière de penser humaine, faite d’une série de tâches distinctes plutôt que d’une réponse unique, généralisée et opaque Que se passe-t-il au niveau des apps ? Quelle couche faut-il cibler pour lancer un business dans l’IA ? Pour rivaliser dans la couche infrastructure, il faut battre NVIDIA et les hyperscalers Pour rivaliser dans la couche modèles, il faut battre OpenAI et Mark Zuckerberg Pour rivaliser dans la couche applicative, il faut battre l’IT des entreprises et les intégrateurs systèmes mondiaux La concurrence dans la couche applicative semble la plus réaliste L’opportunité dans la couche applicative Les modèles de base ont quelque chose de magique, mais ils sont aussi complexes Les grandes entreprises ne peuvent pas gérer des boîtes noires, des hallucinations et des workflows maladroits Les consommateurs voient un prompt vide et ne savent pas quoi demander C’est l’opportunité de la couche applicative Il y a deux ans, beaucoup d’entreprises de la couche applicative étaient accusées de « n’être que des wrappers au-dessus de GPT-3 » Aujourd’hui, ces wrappers se révèlent être l’un des rares moyens sains de construire une valeur durable Ce qui a commencé comme un « wrapper » a évolué en « architecture cognitive » Caractéristiques des entreprises IA de la couche applicative Il ne s’agit pas simplement de poser une UI au-dessus d’un modèle de base Elles disposent généralement d’architectures cognitives sophistiquées comprenant notamment : plusieurs modèles de base avec une forme de mécanisme de routage au-dessus des bases de données vectorielles et/ou graphe pour le RAG des garde-fous pour garantir la conformité une logique applicative qui imite une manière de raisonner à travers des workflows Service-as-a-Software La transition vers le cloud, c’était le « Software-as-a-Service ». Les éditeurs de logiciels sont devenus des fournisseurs de services cloud, et cela représentait une opportunité de 350 milliards de dollars Grâce au raisonnement agentique, la transition de l’IA devient le « Service-as-a-Software ». Les entreprises logicielles transforment désormais du travail humain en logiciel Cela signifie que le marché cible n’est pas le marché du logiciel, mais le marché des services, qui pèse plusieurs milliers de milliards de dollars Ce que signifie vendre du travail L’entreprise Sierra en est un bon exemple Des entreprises B2C déploient Sierra sur leur site web pour dialoguer avec leurs clients Le job-to-be-done consiste à résoudre les problèmes des clients Sierra facture par problème résolu Il n’y a pas de « seat ». Vous avez un travail à accomplir, Sierra le prend en charge et facture en conséquence C’est la véritable étoile polaire de nombreuses entreprises IA Les avantages de Sierra et les défis des autres entreprises Sierra bénéficie d’un mode d’échec élégant : l’escalade vers un agent humain Toutes les entreprises n’ont pas cette chance Le nouveau modèle consiste à déployer d’abord avec un pilote humain dans la boucle, puis à exploiter cette expérience pour obtenir des opportunités de déploiement en pilote automatique sans humain dans la boucle GitHub Copilot en est un bon exemple Un nouveau type d’applications agentiques commence à émerger Les nouvelles capacités de raisonnement de l’IA générative font émerger un nouveau type d’applications agentiques Fait intéressant, ces entreprises de la couche applicative ne ressemblent pas aux anciennes entreprises du cloud : Les entreprises du cloud visaient des revenus logiciels, tandis que les entreprises IA visent des revenus de services Les entreprises du cloud vendaient du logiciel ($/seat), tandis que les entreprises IA vendent du travail ($/résultat) Les entreprises du cloud privilégiaient une approche bottom-up portée par une distribution sans friction, tandis que les entreprises IA adoptent de plus en plus une approche top-down avec un modèle de livraison high-touch, high-trust Exemples d’applications agentiques qui émergent dans tous les secteurs de l’économie de la connaissance Harvey: avocat IA Glean: assistant de travail IA Factory: ingénieur logiciel IA Abridge: secrétaire médical IA XBOW: pentester IA Sierra: agent IA de support client En abaissant le coût marginal de fourniture de ces services jusqu’au niveau de l’effondrement des coûts de raisonnement, les applications agentiques étendent et créent de nouveaux marchés XBOW est un bon exemple : XBOW développe un « pentester » IA Un « pentest », ou test d’intrusion, est une cyberattaque simulée contre un système informatique, menée par une entreprise pour évaluer ses propres systèmes de sécurité Avant l’IA générative, le pentesting humain étant coûteux (travail manuel réalisé par des professionnels qualifiés), les entreprises ne recrutaient des pentesters que dans des situations limitées, par exemple lorsqu’un impératif de conformité l’exigeait Mais XBOW démontre désormais un pentest automatisé fondé sur les derniers LLM de raisonnement, avec des performances comparables à celles des meilleurs pentesters humains Cela élargit le marché du pentesting et ouvre la voie à un pentesting continu pour des entreprises de toutes tailles et de tous profils Quel impact sur le secteur du SaaS ? Au début de l’année, lorsque nous avons rencontré des LP, la question qui revenait le plus souvent était : « La transition vers l’IA va-t-elle détruire les entreprises cloud existantes ? » Nous sommes partis d’une hypothèse de base forte : « non ». Le combat classique entre startups et entreprises établies ressemble à une course où les startups construisent la distribution tandis que les entreprises établies construisent le produit. Les jeunes entreprises dotées d’un excellent produit peuvent-elles atteindre les clients avant que les acteurs établis, qui possèdent déjà ces clients, ne sortent eux-mêmes un excellent produit ? Étant donné que la majeure partie de la magie de l’IA vient des modèles de base, notre hypothèse de départ était « non ». Les entreprises établies ont accès aux modèles de base tout autant que les startups, et comme elles disposent déjà d’avantages en matière de données et de distribution, elles devraient bien s’en sortir. La principale opportunité pour les startups n’est pas de remplacer les éditeurs de logiciels existants, mais de s’attaquer au réservoir de tâches pouvant être automatisées. Mais nous n’en sommes plus aussi sûrs. Voir ce qui a été mentionné plus haut à propos des architectures cognitives. Transformer les capacités brutes d’un modèle en solution métier end-to-end convaincante et fiable exige une quantité énorme d’ingénierie. N’avons-nous pas dramatiquement sous-estimé ce que signifie être « AI native » ? Il y a 20 ans, les éditeurs de logiciels on-premise se moquaient de l’idée du SaaS. « Ce n’est pas grand-chose. Nous pouvons nous aussi faire tourner nos propres serveurs et fournir cela sur Internet ! » C’était simple en théorie, mais cela a ensuite entraîné une réinvention complète de l’entreprise : Les EPD sont passés du modèle en cascade et des PRD au développement agile et à l’A/B testing. Les GTM sont passés des ventes enterprise top-down et des dîners steak au PLG bottom-up et à l’analytics produit. Le modèle économique est passé d’un ASP élevé et de revenus de maintenance à un NDR élevé et à une tarification à l’usage. Très peu d’entreprises on-premise ont réussi cette transition. L’IA pourrait-elle constituer un point d’inflexion comparable à celui du SaaS ? L’opportunité de l’IA pourrait-elle consister à vendre du travail tout en remplaçant le logiciel ? Avec Day.ai, nous avons pu entrevoir l’avenir. Day est un CRM AI native. Les intégrateurs systèmes gagnent des milliards de dollars en configurant Salesforce selon les besoins de leurs clients. Day génère automatiquement un CRM parfaitement adapté à l’activité du client à partir d’un simple accès aux e-mails et au calendrier, ainsi que des réponses à un questionnaire d’une page. Il ne dispose pas encore de toutes les fonctionnalités, mais la magie d’un CRM généré automatiquement, toujours à jour sans intervention humaine, pousse déjà les gens à franchir le pas. Secteur de l’investissement Où les investisseurs consacrent-ils leur temps et injectent-ils leur capital ? Infrastructure C’est le terrain des hyperscalers. Le secteur est davantage guidé par des comportements de théorie des jeux que par une analyse économique. Ce n’est pas un domaine adapté aux investisseurs venture. Modèles C’est un domaine où interviennent les hyperscalers et les investisseurs financiers (FI). Les hyperscalers investissent en mobilisant leur bilan pour générer des rendements, qui reviennent ensuite sous forme de coûts de calcul dans leur activité cloud. Les investisseurs financiers sont influencés par un biais consistant à « admirer la science ». Ces modèles sont extrêmement intéressants et les équipes excellentes, mais la logique économique est ignorée. Outils développeur et logiciels d’infrastructure Moins intéressants pour les investisseurs stratégiques, mais plus attractifs pour les investisseurs venture. Lors de la transition vers le cloud, environ 15 entreprises de cette couche ont généré plus d’un milliard de dollars de revenus. Un phénomène similaire est attendu avec la transition vers l’IA. Applications C’est la couche la plus intéressante pour les investisseurs venture. Pendant la transition cloud, environ 20 entreprises de la couche applicative ont généré plus d’un milliard de dollars de revenus. Un nombre comparable d’entreprises est apparu lors de la transition mobile, et une tendance similaire est attendue pour cette transition vers l’IA. Réflexions de conclusion Dans la prochaine étape de l’IA générative, l’impact de la R&D sur le raisonnement devrait se diffuser rapidement et profondément à la couche applicative. Les architectures cognitives existantes reposaient surtout sur des techniques de « de-hobbling » (levée de contraintes), mais comme ces capacités sont désormais intégrées au modèle lui-même, les applications agentiques devraient devenir plus sophistiquées et plus robustes. Dans les labs, le Reasoning et le calcul à l’inference-time resteront des sujets majeurs, et maintenant qu’une nouvelle loi de scaling est apparue, la prochaine compétition commence. Cependant, dans certains domaines, il reste difficile de collecter des données du monde réel et d’encoder des architectures cognitives spécialisées pour un domaine et une application. Pour résoudre ces problèmes, les fournisseurs d’applications du last mile pourraient être avantagés. À l’avenir, des systèmes multi-agents comme Droid de Factory pourraient émerger et se diffuser comme une manière de modéliser les processus de raisonnement et d’apprentissage social. Les systèmes multi-agents devraient pouvoir accomplir davantage de travail en formant des équipes capables de traiter plusieurs tâches simultanément. Le moment que beaucoup attendent est le « Move 37 » de l’IA générative, c’est-à-dire l’instant où un système d’IA général montrera un comportement surhumain inattendu, comme AlphaGo l’a fait lors de son match contre Lee Sedol. Même si ce moment arrive, cela ne voudra pas dire que l’IA « devient consciente », mais cela pourrait signifier qu’elle acquiert la capacité de simuler les processus de perception, de raisonnement et d’action afin d’explorer de manière originale et utile. Il pourrait s’agir de l’AGI (autonomie complète de l’intelligence artificielle), non pas comme un événement unique, mais comme l’étape suivante de cette technologie.

(sequoiacap.com)

30 points par xguru 2024-10-21 | 4 commentaires | Partager sur WhatsApp

Alors que la révolution de l’IA générative entre dans sa deuxième année, la recherche évolue de la « pensée rapide » vers la « pensée lente »
- La « pensée rapide » désigne des réponses rapides issues du préentraînement, tandis que la « pensée lente » désigne le raisonnement au moment de l’inférence
- Cette évolution fait émerger un nouveau type d’applications agentiques
À mesure que la couche de base du marché de l’IA générative se stabilise, un petit nombre de grands acteurs comme Microsoft/OpenAI, AWS/Anthropic, Meta et Google/DeepMind dominent le marché
- Seuls les grands acteurs disposant d’un moteur économique et d’un capital colossal restent en lice
- La structure même du marché se renforce, et la prédiction du next token deviendra bon marché et abondante
Avec la stabilisation de la structure du marché des LLM, une nouvelle frontière émerge
- L’attention se porte sur le développement et l’extension d’une couche de raisonnement où la pensée de « système 2 » est prioritaire
- Inspirée par des modèles comme AlphaGo, cette couche vise à doter les systèmes d’IA de raisonnement réfléchi, de résolution de problèmes et de capacités cognitives, au-delà du simple pattern matching
- De nouvelles architectures cognitives et interfaces utilisateur façonnent la manière dont ces capacités de raisonnement sont transmises aux utilisateurs et avec lesquelles ils interagissent

Strawberry Fields Forever

La mise à jour de modèle la plus importante de 2024 est o1 d’OpenAI (auparavant connu sous le nom de Q* et également appelé Strawberry)
- Cela ne signifie pas seulement qu’OpenAI est remonté en tête des classements de qualité des modèles, mais aussi qu’il a apporté une amélioration significative à l’architecture du statu quo
- Plus précisément, c’est le premier modèle à disposer d’une véritable « capacité de raisonnement général » obtenue grâce au calcul au moment du raisonnement
Modèles préentraînés vs calcul au moment du raisonnement
- Les modèles préentraînés effectuent de la prédiction du next token à partir d’énormes volumes de données
- La propriété émergente de l’échelle (emergent property) est un raisonnement de base, mais ce raisonnement reste très limité
- Le calcul au moment du raisonnement consiste à demander au modèle de s’arrêter et de réfléchir avant de fournir une réponse
- Cela nécessite davantage de calcul au moment de l’inférence
- La partie « s’arrêter et réfléchir » correspond précisément au raisonnement (reasoning)

Comparaison entre AlphaGo et les LLM

En mars 2016, à Séoul, AlphaGo affronte la légende du go Lee Sedol, créant l’un des moments les plus importants de l’histoire du deep learning
- AlphaGo a montré au monde une forme d’« IA qui pense », allant au-delà de la simple imitation de motifs
Différences entre AlphaGo et les systèmes d’IA de jeu précédents
- Comme les LLM, AlphaGo a été préentraîné pour imiter des experts humains à partir d’une base de données d’environ 30 millions de coups issus de parties précédentes et grâce à l’autojeu
- Mais au lieu de fournir une réaction immédiate issue du modèle préentraîné, AlphaGo prend le temps de s’arrêter et de réfléchir
- Lors de l’inférence, AlphaGo exécute une recherche ou une simulation sur un vaste ensemble de scénarios futurs potentiels, évalue ces scénarios, puis répond avec le scénario (ou la réponse) à valeur attendue la plus élevée
- Plus AlphaGo dispose de temps, meilleures sont ses performances
- Sans aucun calcul au moment du raisonnement, AlphaGo ne peut pas battre les meilleurs joueurs humains
Pourquoi il est difficile de reproduire AlphaGo dans les LLM
- Il est difficile de construire une fonction de valeur (value function) qui évalue les réponses
- Au go, on peut simuler la partie jusqu’au bout, vérifier qui gagne, puis calculer la valeur attendue du coup suivant
- En programmation, on peut tester le code et vérifier s’il fonctionne
- En revanche, il est difficile d’évaluer un brouillon d’essai, un itinéraire de voyage ou un résumé des termes clés d’un long document
- Cela explique pourquoi le raisonnement reste difficile avec les méthodes actuelles, et pourquoi Strawberry est relativement performant dans des domaines proches de la logique (comme le code, les mathématiques ou la science), mais pas dans des domaines ouverts et non structurés (comme l’écriture)
Recherche pour améliorer les capacités de raisonnement du modèle Strawberry
- L’implémentation concrète de Strawberry est étroitement protégée, mais l’idée centrale est liée à l’apprentissage par renforcement sur les chaînes de pensée générées par le modèle
- L’audit des chaînes de pensée du modèle laisse penser qu’il se passe quelque chose de fondamental et d’intéressant, proche de la manière dont les humains pensent et raisonnent
- Par exemple, o1 montre une capacité à revenir en arrière lorsqu’il est bloqué, comme propriété émergente de la mise à l’échelle du temps de raisonnement
- Il montre aussi une capacité à réfléchir à des problèmes comme un humain (par exemple visualiser des points sur une sphère pour résoudre un problème de géométrie), ainsi qu’à y réfléchir de façon nouvelle (par exemple résoudre un problème de concours de programmation différemment des humains)
- L’équipe de recherche regorge d’idées pour faire progresser le calcul au moment du raisonnement, comme de nouvelles méthodes de calcul de la fonction de récompense ou de nouvelles manières de réduire l’écart generator/verifier afin d’améliorer les capacités de raisonnement des modèles
- Autrement dit, le deep reinforcement learning revient sur le devant de la scène, rendant possible une nouvelle couche de raisonnement dans son ensemble

Du System 1 au System 2 Thinking

Le passage des réponses instinctives préentraînées (« système 1 ») à un raisonnement plus profond et délibéré (« système 2 ») constitue la prochaine frontière de l’IA
Il ne suffit pas qu’un modèle sache simplement quelque chose
Le modèle doit être capable de faire une pause, d’évaluer et de raisonner pour prendre des décisions en temps réel
Le préentraînement correspond à la couche du système 1
- Qu’il s’agisse d’apprendre des millions de coups de go dans AlphaGo ou des pétaoctets de texte à l’échelle d’Internet dans un LLM, l’objectif du préentraînement est d’imiter des motifs comme le jeu humain ou le langage
- Mais l’imitation, aussi puissante soit-elle, n’est pas un véritable raisonnement
- En particulier, elle ne permet pas de bien penser dans des situations complexes et nouvelles, en dehors du jeu de données d’entraînement
La pensée de système 2 est au cœur de la recherche actuelle en IA
- Quand un modèle « s’arrête et réfléchit », il ne se contente pas de générer des motifs appris ni de recracher des prédictions basées sur des données passées
- Il génère un éventail de possibilités, considère les résultats potentiels et prend des décisions fondées sur le raisonnement
Utiliser à bon escient la pensée de système 1 et la pensée de système 2
- Pour de nombreuses tâches, la pensée de système 1 suffit (par exemple, réfléchir plus longtemps n’aide pas à savoir quelle est la capitale du Bhoutan)
- Mais pour des problèmes plus complexes, comme des percées en mathématiques ou en biologie, une réponse rapide et instinctive ne suffit pas
- Ces avancées exigent une réflexion approfondie, une résolution créative des problèmes et, surtout, du temps
- Il en va de même pour l’IA. Pour résoudre les problèmes les plus difficiles et les plus significatifs, elle doit dépasser les réponses rapides issues du jeu de données d’apprentissage et prendre le temps de produire le raisonnement réfléchi qui définit le progrès humain

Une nouvelle loi d’échelle : le début de la course au raisonnement

L’idée la plus importante de l’article sur o1 d’OpenAI est qu’une nouvelle loi d’échelle est apparue
Les lois d’échelle du préentraînement des LLM
- Le préentraînement des LLM suit des lois d’échelle bien comprises
- Plus on consacre de calcul et de données au préentraînement d’un modèle, plus ses performances s’améliorent
La nouvelle loi d’échelle du calcul au moment du raisonnement
- L’article sur o1 a ouvert une nouvelle dimension pour l’extension du calcul
- Plus on fournit au modèle de calcul au moment du raisonnement (ou de calcul en « test-time »), plus ses capacités de raisonnement s’améliorent
Que se passerait-il si les modèles pouvaient réfléchir pendant des heures, des jours, voire des décennies ?
- Pourraient-ils résoudre l’hypothèse de Riemann ?
- Pourraient-ils répondre à La Dernière Question d’Asimov ?
Passage des grands clusters de préentraînement vers un cloud de raisonnement
- Ce changement nous fera passer du monde des grands clusters de préentraînement à celui du cloud de raisonnement
- Le cloud de raisonnement est un environnement capable d’ajuster dynamiquement le calcul en fonction de la complexité de la tâche

Un seul modèle finira-t-il par tout dominer ?

Que va-t-il se passer à mesure qu’OpenAI, Anthropic, Google, Meta et d’autres étendent la couche de raisonnement et développent des machines de raisonnement plus puissantes ?
Un seul modèle finira-t-il par tout dominer ?
Une hypothèse était qu’une entreprise de modèle unique deviendrait si puissante qu’elle absorberait toutes les autres applications
- Jusqu’à présent, cette prédiction s’est révélée fausse sur deux points
- Premièrement, la couche des modèles compte de nombreux concurrents qui se disputent en permanence les capacités SOTA
  - Il est possible que quelqu’un parvienne à une auto-amélioration continue via un auto-apprentissage à large spectre sur de multiples domaines et réussisse son décollage, mais rien ne l’indique pour l’instant
  - Au contraire, la couche des modèles est le théâtre d’une concurrence féroce, et le prix par token de GPT-4 a chuté de 98 % depuis le dernier Developer Day
- Deuxièmement, les modèles ont du mal à s’imposer dans la couche applicative
  - À l’exception de ChatGPT, les modèles ont globalement échoué à devenir des produits révolutionnaires dans la couche applicative
  - Parce que le monde réel est complexe
  - Les grands chercheurs n’ont pas envie de comprendre dans le détail les workflows end-to-end de toutes les fonctionnalités possibles sur tous les marchés verticaux imaginables
  - Il est attrayant et économiquement rationnel pour les chercheurs de s’arrêter à l’API et de laisser à l’écosystème développeur la complexité du monde réel
  - C’est une bonne nouvelle pour la couche applicative

La complexité du monde réel : la nécessité d’architectures cognitives sur mesure

La manière dont vous planifiez et exécutez des actions pour atteindre un objectif en tant que scientifique est très différente de votre manière de travailler en tant qu’ingénieur logiciel
Et même la manière de travailler en tant qu’ingénieur logiciel varie d’une entreprise à l’autre
Les laboratoires continuent de repousser les limites du raisonnement horizontal généraliste, mais il faut encore un raisonnement applicatif ou spécialisé par domaine pour fournir des agents IA réellement utiles
Le monde réel complexe exige une quantité importante de raisonnement spécifique au domaine et à l’application qui ne peut pas être efficacement encodée dans un modèle généraliste
L’émergence des architectures cognitives
- Une architecture cognitive désigne la manière de penser du système, c’est-à-dire le flux de code et d’interactions avec les modèles qui prend une entrée utilisateur pour exécuter une action ou générer une réponse
- Par exemple, chez Factory, chacun des produits « droid » dispose d’une architecture cognitive sur mesure qui imite la manière de raisonner humaine afin de résoudre une tâche précise, comme la revue de pull request ou la rédaction puis l’exécution d’un plan de migration pour une mise à jour de services backend à backend
- Les droids de Factory analysent toutes les dépendances, proposent des modifications de code pertinentes, ajoutent des tests unitaires et impliquent une personne pour la revue
- Ensuite, après approbation, ils appliquent les changements à tous les fichiers de l’environnement de développement et, si tous les tests passent, fusionnent le code
- Cela ressemble à la manière de penser humaine, faite d’une série de tâches distinctes plutôt que d’une réponse unique, généralisée et opaque

Que se passe-t-il au niveau des apps ?

Quelle couche faut-il cibler pour lancer un business dans l’IA ?
- Pour rivaliser dans la couche infrastructure, il faut battre NVIDIA et les hyperscalers
- Pour rivaliser dans la couche modèles, il faut battre OpenAI et Mark Zuckerberg
- Pour rivaliser dans la couche applicative, il faut battre l’IT des entreprises et les intégrateurs systèmes mondiaux
- La concurrence dans la couche applicative semble la plus réaliste
L’opportunité dans la couche applicative
- Les modèles de base ont quelque chose de magique, mais ils sont aussi complexes
- Les grandes entreprises ne peuvent pas gérer des boîtes noires, des hallucinations et des workflows maladroits
- Les consommateurs voient un prompt vide et ne savent pas quoi demander
- C’est l’opportunité de la couche applicative
Il y a deux ans, beaucoup d’entreprises de la couche applicative étaient accusées de « n’être que des wrappers au-dessus de GPT-3 »
- Aujourd’hui, ces wrappers se révèlent être l’un des rares moyens sains de construire une valeur durable
- Ce qui a commencé comme un « wrapper » a évolué en « architecture cognitive »
Caractéristiques des entreprises IA de la couche applicative
- Il ne s’agit pas simplement de poser une UI au-dessus d’un modèle de base
- Elles disposent généralement d’architectures cognitives sophistiquées comprenant notamment :
  - plusieurs modèles de base avec une forme de mécanisme de routage au-dessus
  - des bases de données vectorielles et/ou graphe pour le RAG
  - des garde-fous pour garantir la conformité
  - une logique applicative qui imite une manière de raisonner à travers des workflows

Service-as-a-Software

La transition vers le cloud, c’était le « Software-as-a-Service ». Les éditeurs de logiciels sont devenus des fournisseurs de services cloud, et cela représentait une opportunité de 350 milliards de dollars
Grâce au raisonnement agentique, la transition de l’IA devient le « Service-as-a-Software ». Les entreprises logicielles transforment désormais du travail humain en logiciel
Cela signifie que le marché cible n’est pas le marché du logiciel, mais le marché des services, qui pèse plusieurs milliers de milliards de dollars
Ce que signifie vendre du travail
- L’entreprise Sierra en est un bon exemple
- Des entreprises B2C déploient Sierra sur leur site web pour dialoguer avec leurs clients
- Le job-to-be-done consiste à résoudre les problèmes des clients
- Sierra facture par problème résolu
- Il n’y a pas de « seat ». Vous avez un travail à accomplir, Sierra le prend en charge et facture en conséquence
- C’est la véritable étoile polaire de nombreuses entreprises IA
Les avantages de Sierra et les défis des autres entreprises
- Sierra bénéficie d’un mode d’échec élégant : l’escalade vers un agent humain
- Toutes les entreprises n’ont pas cette chance
- Le nouveau modèle consiste à déployer d’abord avec un pilote humain dans la boucle, puis à exploiter cette expérience pour obtenir des opportunités de déploiement en pilote automatique sans humain dans la boucle
- GitHub Copilot en est un bon exemple

Un nouveau type d’applications agentiques commence à émerger

Les nouvelles capacités de raisonnement de l’IA générative font émerger un nouveau type d’applications agentiques
Fait intéressant, ces entreprises de la couche applicative ne ressemblent pas aux anciennes entreprises du cloud :
- Les entreprises du cloud visaient des revenus logiciels, tandis que les entreprises IA visent des revenus de services
- Les entreprises du cloud vendaient du logiciel ($/seat), tandis que les entreprises IA vendent du travail ($/résultat)
- Les entreprises du cloud privilégiaient une approche bottom-up portée par une distribution sans friction, tandis que les entreprises IA adoptent de plus en plus une approche top-down avec un modèle de livraison high-touch, high-trust
Exemples d’applications agentiques qui émergent dans tous les secteurs de l’économie de la connaissance
- Harvey: avocat IA
- Glean: assistant de travail IA
- Factory: ingénieur logiciel IA
- Abridge: secrétaire médical IA
- XBOW: pentester IA
- Sierra: agent IA de support client
En abaissant le coût marginal de fourniture de ces services jusqu’au niveau de l’effondrement des coûts de raisonnement, les applications agentiques étendent et créent de nouveaux marchés
XBOW est un bon exemple :
- XBOW développe un « pentester » IA
- Un « pentest », ou test d’intrusion, est une cyberattaque simulée contre un système informatique, menée par une entreprise pour évaluer ses propres systèmes de sécurité
- Avant l’IA générative, le pentesting humain étant coûteux (travail manuel réalisé par des professionnels qualifiés), les entreprises ne recrutaient des pentesters que dans des situations limitées, par exemple lorsqu’un impératif de conformité l’exigeait
- Mais XBOW démontre désormais un pentest automatisé fondé sur les derniers LLM de raisonnement, avec des performances comparables à celles des meilleurs pentesters humains
- Cela élargit le marché du pentesting et ouvre la voie à un pentesting continu pour des entreprises de toutes tailles et de tous profils

Quel impact sur le secteur du SaaS ?

Au début de l’année, lorsque nous avons rencontré des LP, la question qui revenait le plus souvent était : « La transition vers l’IA va-t-elle détruire les entreprises cloud existantes ? »
Nous sommes partis d’une hypothèse de base forte : « non ».
- Le combat classique entre startups et entreprises établies ressemble à une course où les startups construisent la distribution tandis que les entreprises établies construisent le produit.
- Les jeunes entreprises dotées d’un excellent produit peuvent-elles atteindre les clients avant que les acteurs établis, qui possèdent déjà ces clients, ne sortent eux-mêmes un excellent produit ?
- Étant donné que la majeure partie de la magie de l’IA vient des modèles de base, notre hypothèse de départ était « non ».
- Les entreprises établies ont accès aux modèles de base tout autant que les startups, et comme elles disposent déjà d’avantages en matière de données et de distribution, elles devraient bien s’en sortir.
- La principale opportunité pour les startups n’est pas de remplacer les éditeurs de logiciels existants, mais de s’attaquer au réservoir de tâches pouvant être automatisées.
Mais nous n’en sommes plus aussi sûrs.
- Voir ce qui a été mentionné plus haut à propos des architectures cognitives.
- Transformer les capacités brutes d’un modèle en solution métier end-to-end convaincante et fiable exige une quantité énorme d’ingénierie.
- N’avons-nous pas dramatiquement sous-estimé ce que signifie être « AI native » ?
Il y a 20 ans, les éditeurs de logiciels on-premise se moquaient de l’idée du SaaS.
- « Ce n’est pas grand-chose. Nous pouvons nous aussi faire tourner nos propres serveurs et fournir cela sur Internet ! »
- C’était simple en théorie, mais cela a ensuite entraîné une réinvention complète de l’entreprise :
  - Les EPD sont passés du modèle en cascade et des PRD au développement agile et à l’A/B testing.
  - Les GTM sont passés des ventes enterprise top-down et des dîners steak au PLG bottom-up et à l’analytics produit.
  - Le modèle économique est passé d’un ASP élevé et de revenus de maintenance à un NDR élevé et à une tarification à l’usage.
- Très peu d’entreprises on-premise ont réussi cette transition.
L’IA pourrait-elle constituer un point d’inflexion comparable à celui du SaaS ? L’opportunité de l’IA pourrait-elle consister à vendre du travail tout en remplaçant le logiciel ?
Avec Day.ai, nous avons pu entrevoir l’avenir.
- Day est un CRM AI native.
- Les intégrateurs systèmes gagnent des milliards de dollars en configurant Salesforce selon les besoins de leurs clients.
- Day génère automatiquement un CRM parfaitement adapté à l’activité du client à partir d’un simple accès aux e-mails et au calendrier, ainsi que des réponses à un questionnaire d’une page.
- Il ne dispose pas encore de toutes les fonctionnalités, mais la magie d’un CRM généré automatiquement, toujours à jour sans intervention humaine, pousse déjà les gens à franchir le pas.

Secteur de l’investissement

Où les investisseurs consacrent-ils leur temps et injectent-ils leur capital ?
Infrastructure
- C’est le terrain des hyperscalers.
- Le secteur est davantage guidé par des comportements de théorie des jeux que par une analyse économique.
- Ce n’est pas un domaine adapté aux investisseurs venture.
Modèles
- C’est un domaine où interviennent les hyperscalers et les investisseurs financiers (FI).
- Les hyperscalers investissent en mobilisant leur bilan pour générer des rendements, qui reviennent ensuite sous forme de coûts de calcul dans leur activité cloud.
- Les investisseurs financiers sont influencés par un biais consistant à « admirer la science ».
- Ces modèles sont extrêmement intéressants et les équipes excellentes, mais la logique économique est ignorée.
Outils développeur et logiciels d’infrastructure
- Moins intéressants pour les investisseurs stratégiques, mais plus attractifs pour les investisseurs venture.
- Lors de la transition vers le cloud, environ 15 entreprises de cette couche ont généré plus d’un milliard de dollars de revenus.
- Un phénomène similaire est attendu avec la transition vers l’IA.
Applications
- C’est la couche la plus intéressante pour les investisseurs venture.
- Pendant la transition cloud, environ 20 entreprises de la couche applicative ont généré plus d’un milliard de dollars de revenus.
- Un nombre comparable d’entreprises est apparu lors de la transition mobile, et une tendance similaire est attendue pour cette transition vers l’IA.

Réflexions de conclusion

Dans la prochaine étape de l’IA générative, l’impact de la R&D sur le raisonnement devrait se diffuser rapidement et profondément à la couche applicative.
Les architectures cognitives existantes reposaient surtout sur des techniques de « de-hobbling » (levée de contraintes), mais comme ces capacités sont désormais intégrées au modèle lui-même, les applications agentiques devraient devenir plus sophistiquées et plus robustes.
Dans les labs, le Reasoning et le calcul à l’inference-time resteront des sujets majeurs, et maintenant qu’une nouvelle loi de scaling est apparue, la prochaine compétition commence.
Cependant, dans certains domaines, il reste difficile de collecter des données du monde réel et d’encoder des architectures cognitives spécialisées pour un domaine et une application.
Pour résoudre ces problèmes, les fournisseurs d’applications du last mile pourraient être avantagés.
À l’avenir, des systèmes multi-agents comme Droid de Factory pourraient émerger et se diffuser comme une manière de modéliser les processus de raisonnement et d’apprentissage social.
Les systèmes multi-agents devraient pouvoir accomplir davantage de travail en formant des équipes capables de traiter plusieurs tâches simultanément.
Le moment que beaucoup attendent est le « Move 37 » de l’IA générative, c’est-à-dire l’instant où un système d’IA général montrera un comportement surhumain inattendu, comme AlphaGo l’a fait lors de son match contre Lee Sedol.
Même si ce moment arrive, cela ne voudra pas dire que l’IA « devient consciente », mais cela pourrait signifier qu’elle acquiert la capacité de simuler les processus de perception, de raisonnement et d’action afin d’explorer de manière originale et utile.
Il pourrait s’agir de l’AGI (autonomie complète de l’intelligence artificielle), non pas comme un événement unique, mais comme l’étape suivante de cette technologie.

4 commentaires

lsw4uto 2024-11-11

On peut s’attendre à voir quels problèmes une intelligence artificielle de plus en plus intelligente permettra de résoudre.

aer0700 2024-10-27

Si un modèle pouvait réfléchir longtemps et résoudre l’hypothèse de Riemann, les répercussions seraient énormes.

pmc7777 2024-10-21

Pour rivaliser au niveau de la couche modèle, il faut battre OpenAI et Mark Zuckerberg.

Le fait qu’ils mentionnent Zuckerberg plutôt que Meta me fait un peu rire lol

kotzen 2024-10-21

Comme ce n’est pas indiqué explicitement dans le texte de synthèse, je le précise au cas où : le système 1 et le système 2 sont des concepts issus du livre Thinking, Fast and Slow.
Système 1 : une pensée rapide qui conduit à agir sans réflexion approfondie, de manière inconsciente ou intuitive, ex. : conduire, marcher
Système 2 : une pensée lente qui exige de réfléchir de façon logique et approfondie, ex. : calcul mental