Technologies d’intelligence artificielle probabiliste

(arxiv.org)

1 points par GN⁺ 2025-03-12 | 1 commentaires | Partager sur WhatsApp

L’IA probabiliste va au-delà des IA qui ne produisent que des prédictions : elle traite de l’inférence de l’incertitude et de son intégration dans la prise de décision
La première partie du document se concentre sur le machine learning probabiliste et distingue l’incertitude épistémique, liée au manque de données, de l’incertitude aléatoire, difficile à réduire, comme le bruit d’observation
Il aborde la modélisation probabiliste à travers la Bayesian linear regression, les Gaussian process models et les Bayesian neural networks, et recourt à l’inférence approximative pour l’inférence et la prédiction difficiles à calculer
La seconde partie explique comment, dans la prise de décision séquentielle, l’incertitude guide la collecte de données et l’exploration, avec des approches comme l’active learning, la Bayesian optimization et le reinforcement learning
Conçu comme support pour un cours d’introduction de master sur un semestre, le document est plus facile à suivre avec des bases en probabilités, calcul différentiel et intégral, algèbre linéaire et machine learning de base

Les problèmes clés traités par l’IA probabiliste

L’intelligence artificielle désigne la science et l’ingénierie des systèmes artificiels capables d’effectuer des tâches considérées comme nécessitant certains aspects de l’intelligence humaine, comme jouer à des jeux, traduire des langues ou conduire une voiture
Les progrès récents de l’IA sont liés aux approches fondées sur l’apprentissage et les données ; le machine learning et le deep learning élargissent la manière dont les systèmes informatiques perçoivent le monde
Le reinforcement learning a obtenu des résultats dans des jeux complexes comme le Go et dans des tâches de robotique comme la marche quadrupède
Les systèmes intelligents ont besoin non seulement de prédictions, mais aussi de la capacité à inférer l’incertitude de ces prédictions et à l’intégrer dans le choix des actions

Machine learning probabiliste

La première partie est structurée autour des approches de machine learning probabiliste
L’incertitude se divise en deux types
- Incertitude épistémique (epistemic uncertainty) : incertitude due au manque de données, qui peut être réduite avec davantage d’informations
- Incertitude aléatoire (aleatoric uncertainty) : incertitude intrinsèquement difficile à réduire, comme les observations bruitées et les résultats aléatoires
Les principaux modèles d’inférence probabiliste sont les suivants
- Bayesian linear regression
- Gaussian process models
- Bayesian neural networks
Dans ces modèles, l’inférence et la prédiction deviennent souvent difficiles sur le plan computationnel ; le document traite donc aussi des méthodes modernes d’inférence approximative

Exploiter l’incertitude dans la prise de décision séquentielle

La seconde partie se concentre sur les tâches de décision séquentielle, où il faut collecter des données et choisir des actions au fil du temps
L’active learning et la Bayesian optimization sont des approches de collecte de données qui proposent des expériences utiles pour réduire l’incertitude épistémique
Le reinforcement learning est un cadre pour modéliser des agents qui apprennent à agir dans des environnements incertains
Après la formulation de base des Markov Decision Processes, le document mène aux approches modernes de deep RL utilisant l’approximation de fonctions par réseaux de neurones
Enfin, il traite des approches de model-based RL qui exploitent l’incertitude épistémique et l’incertitude aléatoire pour guider l’exploration tout en prenant en compte la sécurité

Public visé et prérequis

Le document peut servir de support à un cours d’introduction de master sur un semestre consacré au machine learning probabiliste et à la prise de décision séquentielle
Il s’adresse à des lecteurs aux profils variés, mais suppose les connaissances de base suivantes
- notions fondamentales de probabilités
- calcul différentiel et intégral
- algèbre linéaire
- machine learning de base, y compris les réseaux de neurones
Le chapitre 1 introduit en douceur l’inférence probabiliste nécessaire pour la suite et révise aussi les concepts clés des probabilités
La fin du manuscrit comprend un chapitre révisant les concepts essentiels de mathématiques supplémentaires

Organisation de l’apprentissage

L’accent est mis sur les concepts et idées clés plutôt que sur le déroulé historique
L’approfondissement et le contexte historique sont renvoyés aux références bibliographiques
Chaque chapitre se termine par des exercices
Les éléments mis en évidence dans le texte avec un point d’interrogation renvoient aux exercices
Les solutions de tous les exercices se trouvent à la fin du manuscrit

1 commentaires

GN⁺ 2025-03-12

Avis sur Hacker News

L’article comporte d’excellents schémas explicatifs et ressemble à une synthèse de grande qualité qui parcourt bien, mathématiquement, le machine learning du point de vue probabiliste.
Récemment, le manuel gratuit et les cours YouTube de Zhao, Mathematical Foundation of Reinforcement Learning, m’ont aussi impressionné : https://github.com/MathFoundationRL/Book-Mathematical-Founda...
Si vous n’avez pas beaucoup de temps, il vaut au moins la peine de regarder le schéma de synthèse de la table des matières de Zhao, une bonne carte conceptuelle de tout le domaine : https://github.com/MathFoundationRL/Book-Mathematical-Founda...
Si possible, je recommande aussi la vidéo d’introduction.
- Le premier cours est vraiment excellent. Pas seulement pour le contenu, mais aussi pour la manière dont Zhao explique, en tant qu’étudiant, comment envisager l’apprentissage.
J’ai vu cette ressource il y a quelques jours, et la raison de la lire sérieusement est qu’Andreas Krause a mené des recherches profondes et intéressantes sur les processus gaussiens et les bandits.
[1] https://scholar.google.com/scholar?start=10&q=andreas+krause...
- Krause est l’un des grands chercheurs de ce domaine. À en juger par d’autres travaux de lui que j’ai lus, il écrit aussi plutôt bien, donc ça semble valoir la lecture.
Question peut-être idiote : un LLM peut-il indiquer la probabilité de la réponse qu’il vient de produire ? Autrement dit, peut-il évoluer vers quelque chose comme la logique floue ?
Plus encore, peut-il dire à quel point il se fait confiance ? La probabilité que la probabilité ci-dessus soit correcte, c’est-à-dire une mesure de confiance, ou quelque chose comme la logique floue intuitionniste.
Il y a longtemps, à l’université, j’avais brièvement étudié ce genre de choses, et j’avais même écrit un interpréteur Prolog où chaque terme avait F+IF, c’est-à-dire une probabilité et un coefficient de confiance.
- Dans son état de base, je pense que c’est difficile. Je ne ferais pas confiance à une telle autoévaluation.
  Avec suffisamment de ressources de calcul, on pourrait faire une recherche en faisceau, puis utiliser un LLM pour évaluer combien des réponses obtenues sont substantiellement identiques, afin de créer un indicateur substitut de « confiance ».
- D’après ce que je comprends, une réponse de LLM est une chaîne de tokens ayant la plus forte probabilité à chaque position. Il peut exister des méthodes de génération et de sélection de candidats plus complexes, mais on peut la voir simplement comme le choix de la valeur maximale.
  Pour simplifier, si l’on assimile les tokens à des mots, on peut voir la probabilité de chaque mot dans l’ordre de la phrase. En revanche, je ne sais pas très bien comment évaluer cela comme probabilité de la phrase entière, ou comme probabilité de vérité.
- Si on lui demande « quel pourcentage de probabilité attribues-tu à cet événement, et pourquoi ? », il fournit pas mal de contexte et de raisonnement.
  Je ne suis pas mathématicien, et je sais que le mot « probabilité » a des significations mathématiques plus complexes, mais du point de vue de « pourquoi y crois-tu aussi fortement ? », j’ai trouvé qu’il donnait des explications assez bonnes avec lesquelles on peut être d’accord ou que l’on peut contester.
  Si j’ajoute du contexte supplémentaire que je connais, il affine aussi son estimation. Donc ces temps-ci, je traite les LLM comme des systèmes de mise en relation de contexte, et je les utilise pour vérifier si des points ont au départ une possibilité d’être reliés avant de les relier moi-même.
- Je ne suis pas sûr à 100 % de ce que vous voulez dire exactement, mais certains fournisseurs donnent accès aux probabilités des tokens : https://cookbook.openai.com/examples/using_logprobs
- Avec des modifications appropriées, c’est possible. Les réseaux de neurones bayésiens fournissent une quantification de l’incertitude.
  La difficulté est de calibrer les prédictions, et de décider s’il vaut mieux consacrer de la capacité du modèle à la quantification de l’incertitude plutôt que de construire un modèle incertain plus grand.
  https://en.wikipedia.org/wiki/Calibration_(statistics)
  Exemple : Efficient and Effective Uncertainty Quantification for LLMs (https://openreview.net/forum?id=QKRLH57ATT)
Pour démocratiser l’interprétabilité et permettre même aux gamers d’explorer les modèles, il semble qu’il faudrait une GUI pour les modèles. En gros, on entraînerait un autre modèle pour transformer un LLM en forme 3D et le placer dans un monde 3D compréhensible par les humains.
Exemple plus simple : on peut imaginer un espace où le LLM est représenté par un champ vert et des objets, et où seul l’humain est acteur.
Vous êtes près d’un singe ; vous voyez une bouche qui mâche à proximité et, si vous allez dans cette direction, le prompt courant devient « monkey chews ». Tout près se trouve une flèche pointant vers une banane ; plus loin, une pomme ; et très loin à l’horizon, une flèche pointant vers un pneu. Parce qu’il est rare qu’un singe mâche un pneu.
Ce qui est proche correspond à des tokens plus probables, ce qui est éloigné à des tokens moins probables, et on peut tout voir d’un coup, comme depuis le sommet d’une colline. Je pense qu’on pourrait ainsi créer une IA statique, sous forme de lieu, où seul l’humain est acteur.
- Une expérience hallucinatoire à la Salvia que j’ai eue à 18 ans ressemblait à peu près à ça.
  Mon esprit s’était transformé en un centre commercial infiniment grand ; chaque allée était une branche de pensée se déroulant simultanément, et la liste d’ingrédients commune au-dessus de chaque allée était remplie de mots, d’émotions et de concepts liés à cette branche.
  Le système d’annonces publiques avait remplacé mon monologue intérieur ; je n’avais plus de monologue intérieur, mais j’entendais mes pensées de l’extérieur, comme la voix de quelqu’un d’autre.
  En parcourant ces allées, je pouvais contempler avec émerveillement l’immense réseau fractal, interdépendant et simultané de pensées que mon cerveau produisait en temps réel.
- Il semble que personne n’ait encore trouvé de bonne manière de mapper un espace de grande dimension vers une visualisation en 4D.
  C’est peut-être pour cela que les tokens et le langage sont si utiles aux humains. C’est peut-être l’analogue le plus proche dont nous disposons.
Parmi les ressources similaires, ou du moins partiellement recoupées, cela fait penser à Introduction to Statistical Learning de Gareth James et al., qui peut être considéré comme la référence majeure sur ce sujet
Cette ressource est peut-être un peu plus accessible, mais cette dernière a tout de même l’avantage de proposer des exemples en R/Python
[1] https://www.statlearning.com/
- Pas vraiment à ce point. ISLR est un livre assez élémentaire, tandis que cette ressource traite de techniques plus avancées comme la propagation d’estimations probabilistes, plutôt que de simples estimations ponctuelles
  Honnêtement, aujourd’hui, je ne recommande plus vraiment ISLR. Je le trouve trop daté
Kevin Murphy risque d’accourir pour renommer sa série Probabilistic Machine Learning
La manière de distinguer les entrées bruitées, les traitements bruités et les chaînes bruitées est intéressante
La réalité ontologique n’est pas un tableau d’états, mais une distribution de potentialités
Les potentialités existent, et les probabilités en sont la description mathématique. Toute propriété est une dimension, autrement dit un vecteur. Un état n’est qu’une mesure temporaire d’une résolution
Les potentialités interagissent par interférence constructive et destructive, lesquelles se résolvent en états dans la mesure instantanée qu’est le « maintenant ». C’est une proposition où la nécessité s’effondre
La réalité ontologique n’est pas un tableau d’états, mais un processus de distribution des potentialités
Gemini 2.0 Experimental 02-05 voit ce document comme faisant « seulement » 107K tokens
C’est utile si l’on veut de l’aide pour en découper et comprendre le contenu
https://aistudio.google.com
L’« approximation de Laplace » est une méthode rapide et grossière qui transforme une distribution de probabilité complexe en une gaussienne simple, c’est-à-dire une courbe en cloche
Elle fonctionne en trouvant le point le plus élevé, le mode, puis en ajustant la courbure à cet endroit
C’est rapide et simple, mais si la distribution réelle n’a pas une forme de cloche, cela peut être très imprécis et conduire à un excès de confiance
- On peut aussi voir cela comme le fait de ne garder que les deux premiers termes d’une approximation par série de Taylor dans l’espace logarithmique, et de jeter le reste
J’ai suivi ce cours à l’ETH Zurich, et c’était l’un de mes cours préférés. J’ai particulièrement apprécié la façon de quantifier l’incertitude et de construire les premiers blocs de l’apprentissage par renforcement
Je pense que c’est une excellente lecture pour les data scientists et les ingénieurs en machine learning. Ce document correspond aux notes de ce cours

Technologies d’intelligence artificielle probabiliste

Les problèmes clés traités par l’IA probabiliste

Machine learning probabiliste

Exploiter l’incertitude dans la prise de décision séquentielle

Public visé et prérequis

Organisation de l’apprentissage

À lire aussi

1 commentaires

Avis sur Hacker News