Descente de gradient naturel thermodynamique

(arxiv.org)

1 points par GN⁺ 2024-05-26 | 1 commentaires | Partager sur WhatsApp

Le TNGD est une méthode d’entraînement des réseaux neuronaux qui exécute la descente de gradient naturel (NGD) dans une boucle hybride entre un ordinateur thermodynamique analogique et un GPU, afin de réduire la charge de calcul de l’optimisation du second ordre
Les méthodes d’apprentissage du second ordre exploitent les informations de courbure du paysage de perte, ce qui leur donne de bonnes propriétés de convergence, mais sur du matériel numérique elles sont difficiles à utiliser à grande échelle en raison du coût du calcul de la matrice d’information de Fisher et de la résolution de systèmes linéaires
La règle de mise à jour des paramètres du NGD est implémentée à l’aide des propriétés thermodynamiques d’un système analogique à l’équilibre et du processus physique d’Ornstein–Uhlenbeck
L’utilisateur conserve l’architecture du modèle et l’ordinateur analogique n’accélère que l’apprentissage, ce qui le distingue de certaines approches d’accélération analogique de l’inférence où le modèle est figé dans le matériel
Dans les expériences numériques, la méthode a montré de meilleurs résultats que les méthodes numériques modernes d’apprentissage du premier et du second ordre pour la classification et le fine-tuning de modèles de langage, et avec une parallélisation suffisante le temps d’exécution par itération peut approcher celui d’Adam et de SGD

Le problème de coût d’entraînement visé par le TNGD

À mesure que le coût d’entraînement des modèles d’IA avancés augmente, les modèles les plus en pointe dans le monde atteignent un coût d’entraînement de plusieurs centaines de millions de dollars
Sur le matériel numérique, la fin de Moore’s Law et de Dennard’s Law affecte le temps d’exécution et l’efficacité énergétique
Ces contraintes renforcent la nécessité d’un matériel non conventionnel à usage spécifique pour améliorer l’efficacité de l’entraînement des modèles d’IA
Le matériel numérique réduit aussi l’éventail des algorithmes d’apprentissage que l’utilisateur peut choisir
- SGD, Adam et leurs variantes sont largement utilisés pour entraîner les DNN et les grands modèles d’IA
- Des optimiseurs plus sophistiqués sont rarement utilisés sur le matériel numérique à cause d’un surcoût de calcul important

Avantages et goulots d’étranglement de l’optimisation du second ordre

Les méthodes du second ordre capturent les informations de courbure du paysage de perte, et ont donc en théorie de meilleures propriétés de convergence
La descente de gradient naturel (NGD) doit estimer des quantités du second ordre comme la matrice d’information de Fisher, puis résoudre à chaque époque un système linéaire coûteux
Des méthodes d’approximation du NGD comme K-FAC ont montré leur potentiel, et parfois de meilleures performances qu’Adam, mais leur application à des architectures de réseaux neuronaux arbitraires reste difficile

Boucle d’apprentissage hybride numérique-analogique

Le TNGD fonctionne dans une boucle hybride numérique-analogique où le GPU communique avec un ordinateur thermodynamique analogique
À intervalles réguliers pendant l’entraînement, le gradient et la matrice d’information de Fisher, ou une autre matrice de courbure semi-définie positive, sont calculés, tandis qu’entre-temps la dynamique analogique se poursuit
Les propriétés thermodynamiques observées à l’état d’équilibre du système analogique sont utilisées comme ressource de calcul
L’utilisateur fournit l’architecture du modèle, et l’ordinateur analogique n’accélère que le processus d’apprentissage
- Cela contraste avec certaines propositions d’accélération analogique de l’inférence en IA, où le modèle est figé dans le matériel et où l’utilisateur peut difficilement modifier librement l’architecture

Complexité de calcul et résultats expérimentaux

Le TNGD est équivalent au NGD dans certaines plages de paramètres, mais évite la résolution de systèmes linéaires dont le coût serait autrement prohibitif
La règle de mise à jour des paramètres du NGD est implémentée en exploitant le processus physique d’Ornstein–Uhlenbeck
Le temps d’exécution par itération évolue linéairement avec le nombre de paramètres
Avec une parallélisation adaptée, il est possible d’obtenir un temps d’exécution proche de celui des optimiseurs du premier ordre comme Adam et SGD
Dans les expériences numériques, sur des tâches de classification et de fine-tuning de modèles de langage incluant de la question-réponse extractive, le TNGD a obtenu de meilleurs résultats que les méthodes numériques modernes d’apprentissage du premier et du second ordre

1 commentaires

GN⁺ 2024-05-26

Commentaires sur Hacker News

Le point clé, c’est que la descente de gradient naturel est une méthode du second ordre. La mise à jour principale est ∇̃L(θ) = F⁻¹∇L(θ), ce qui implique de résoudre un système linéaire
Pour cela, on peut utiliser la méthode de l’article précédent des auteurs, Thermodynamic Linear Algebra. Comme il est difficile d’implémenter un réseau de neurones complet sur un ordinateur thermodynamique, l’article propose de l’exécuter en parallèle d’un GPU classique. Le GPU calcule F et ∇L(θ), puis le système linéaire est confié à un ordinateur thermodynamique fonctionnant en parallèle du système numérique (figure 1). Il est toutefois important de noter que le graphique « Runtime vs Accuracy » de la figure 3 s’appuie sur un modèle temporel de l’algorithme TNGD, puisque l’ordinateur nécessaire n’existe pas encore
C’est impressionnant et intéressant. Les auteurs proposent une boucle d’apprentissage hybride numérique-analogique qui prend en compte la courbure du paysage de perte, c’est-à-dire les dérivées du second ordre, et montrent par simulation numérique que, si cette approche était implémentée sur un système physique, le coût de calcul de chaque itération de la boucle d’apprentissage augmenterait linéairement avec le nombre de paramètres
Si les lois de la thermodynamique peuvent prendre en charge une partie du travail d’entraînement des modèles d’IA et permettre de dépasser les limites de passage à l’échelle et les difficultés du matériel numérique et des méthodes d’apprentissage actuelles, alors je suis favorable à l’exploration de cette voie
L’article traite surtout de l’entraînement de deep learning/réseaux de neurones et des résultats d’optimisation, mais je me demande dans quelle mesure le même cadre d’optimisation pourrait être appliqué facilement à d’autres types de problèmes d’optimisation difficiles ou massifs. J’ai eu la même réaction la première fois que j’ai vu un article sur Extropic(https://www.extropic.ai/)
J’ai cherché sur leur site des informations publiques sur une API ou une software stack pour voir s’il était possible de modéliser des problèmes d’optimisation autres que les réseaux de neurones, mais rien ne semble encore avoir été publié. Il reste pourtant de nombreux problèmes d’optimisation combinatoire NP-difficiles ou de grands problèmes d’optimisation analytique qui vaudraient la peine d’être résolus, et personnellement je m’intéresse aux problèmes d’EDA et de conception de semi-conducteurs. Le calcul quantique adiabatique promettait lui aussi de résoudre des problèmes d’optimisation, et le calcul quantique reste encore centré sur des solutions de petite taille. J’espère que ces nouvelles startups de « calcul thermodynamique » fourniront des technologies intéressantes pour explorer ce type de problèmes
Utiliser la thermodynamique pour calculer plus efficacement des mises à jour du second ordre est clairement intéressant et mérite d’être exploré, mais je reste sceptique sur l’utilité réelle en contexte deep learning
Il existe déjà des méthodes du second ordre[1] très efficaces sur du matériel classique, mais elles sont presque jamais utilisées en pratique et sont supplantées par des méthodes du premier ordre comme ADAM. En effet, pour optimiser des fonctions de perte très non linéaires comme celles des modèles de deep learning, il faut de toute façon des taux d’apprentissage très faibles, qu’on utilise des méthodes du premier ou du second ordre. Ainsi, les méthodes du second ordre peuvent produire une mise à jour des paramètres légèrement meilleure à chaque étape, mais leur coût augmente souvent encore davantage, ce qui les rend généralement peu intéressantes
[1] https://andrew.gibiansky.com/blog/machine-learning/hessian-f...
- Je suis d’accord sur le fait que c’est intéressant, et aussi sur le fait qu’il est difficile de rendre les méthodes du second ordre réellement utiles. Il arrive que les jeux de données soient si grands qu’il est déjà difficile d’estimer de façon raisonnable le gradient d’un mini-batch
  Estimer de manière utile l’information du second ordre sur l’ensemble du jeu de données est encore plus difficile, surtout si l’on se rappelle que la raison d’utiliser des mini-batchs est d’abord la faisabilité du calcul
Je n’ai pas lu l’article en détail, mais quelqu’un pourrait-il m’expliquer ce qui le rend attrayant ? Le tableau 1 donne l’impression que cela a une complexité asymptotique comparable à celle de SGD en fonction de la taille de l’échantillon
Étant donné que les grands modèles surparamétrés d’aujourd’hui ont beaucoup d’extrema qui se ressemblent, je ne suis même pas sûr que ce soit vraiment nécessaire. Si ce n’est ni quasi linéaire ni sous-linéaire, je ne vois pas bien pourquoi on devrait s’y intéresser
Cela me rappelle le recuit simulé que j’avais étudié dans un cours d’IA il y a une dizaine d’années
https://en.wikipedia.org/wiki/Simulated_annealing
Quelle est aujourd’hui la meilleure hypothèse sur la façon dont les neurones animaux apprennent ?
- http://www.scholarpedia.org/article/Spike-timing_dependent_p...
Geoffrey Hinton n’avait-il pas parlé de quelque chose comme ça il y a environ un an ?
Je ne comprends pas. Les calculs de descente de gradient se produisent très fréquemment et l’état/l’entrée change en permanence, donc il faudrait réinitialiser très souvent le paysage thermique ; quel serait alors l’intérêt ? Je ne vois pas comment un gain de vitesse serait possible ici
À la rigueur, on pourrait peut-être faire quelque chose avec des champs électromagnétiques ou leurs interférences, voire avec une structure 3D
Jusqu’à « il faut un ordinateur thermodynamique analogique », ça semblait tenir la route, puis là, une seconde, quoi ? J’aimerais qu’une personne ayant vraiment étudié la physique puisse m’expliquer
- L’annexe C de l’article l’explique plutôt bien. Ils construisent une matrice d’intégrateurs avec plusieurs amplificateurs opérationnels, des constantes de temps RC (probablement avec des potentiomètres numériques) et une interface ADC/DAC multicanal reliée à un PC. C’est essentiellement un dispositif dédié à la résolution d’équations différentielles
  C’est donc une combinaison d’ancien calcul analogique et de code moderne piloté par GPU. En pratique, cela prend plus de temps à cause du surcoût de l’interface matérielle et du temps d’attente nécessaire pour que les intégrateurs se stabilisent, mais j’en comprends que l’argument est qu’une implémentation optimisée pourrait accélérer la convergence et faire mieux qu’une solution purement numérique. L’idée centrale est que la descente de gradient classique est fondamentalement une opération linéaire, alors que le gradient réellement suivi est une surface courbe, et qu’en restant uniquement dans le domaine numérique on doit l’approximer via de nombreuses étapes inutiles. Le problème, c’est que, comme beaucoup l’ont appris à leurs dépens depuis Seymour Cray, le CMOS finit toujours par gagner. Parce que toute la puissance financière d’une industrie entière est investie dans l’optimisation du CMOS
- D’après ce que j’ai compris, https://extropic.ai fait exactement cela, et https://normalcomputing.ai/, la société des auteurs de l’article, semble très probablement faire la même chose
- L’idée clé est d’exploiter les lois de la nature pour entraîner des modèles d’IA et dépasser les limites et problèmes de passage à l’échelle du matériel numérique et des méthodes d’apprentissage existantes
- Un exemple pourrait être un recuiteur quantique. Ici, « programmer » revient davantage à définir des conditions initiales appropriées puis à laisser la relaxation thermodynamique conduire au point optimal
- Si l’on peut réellement fabriquer de tels produits, cela pourrait être très attractif. À l’échelle mondiale, des dizaines de milliards de dollars, voire plus, sont dépensés chaque année en optimisation numérique, et si l’on pouvait accélérer cela de manière significative, ce serait potentiellement très rentable

Descente de gradient naturel thermodynamique

Le problème de coût d’entraînement visé par le TNGD

Avantages et goulots d’étranglement de l’optimisation du second ordre

Boucle d’apprentissage hybride numérique-analogique

Complexité de calcul et résultats expérimentaux

À lire aussi

1 commentaires

Commentaires sur Hacker News