- Un article sur l’importance historique du papier de Yann LeCun et al. publié en 1989, "Backpropagation Applied to Handwritten Zip Code Recognition", considéré comme l’une des premières applications concrètes où un réseau neuronal a été entraîné de bout en bout à l’aide de la rétropropagation.
- L’auteur a tenté de reproduire le travail du papier avec des outils modernes comme PyTorch, en notant que le réseau d’origine avait été implémenté en Lisp avec le simulateur de rétropropagation SN de Bottou et LeCun (1988), plus tard renommé Lush.
- Le réseau d’origine a été entraîné pendant 3 jours sur une station de travail SUN-4/260, mais la reproduction de l’auteur à l’aide du CPU d’un MacBook Air (M1) n’a pris qu’environ 90 secondes.
- L’auteur a également expérimenté des techniques modernes de deep learning, comme l’utilisation de l’optimiseur Adam, l’introduction de l’augmentation de données et du dropout, ainsi que le remplacement de la fonction d’activation
tanh par ReLU, ce qui a réduit le taux d’erreur d’environ 60 %.
- L’auteur suggère qu’il serait possible d’obtenir des améliorations supplémentaires en augmentant la taille du réseau ou du jeu de données, mais que cela accroîtrait aussi le coût de calcul et pourrait provoquer de la latence à l’inférence.
- En revenant sur les progrès du deep learning au cours des 33 dernières années, l’auteur souligne que les principes fondamentaux sont restés les mêmes, mais que l’échelle des jeux de données et des modèles a fortement augmenté, tandis que le temps nécessaire pour entraîner les modèles a considérablement diminué.
- L’auteur suppose que d’ici 2055, les réseaux neuronaux deviendront encore plus grands, et que la plupart des applications seront réalisées en affinant légèrement une partie du réseau, via le prompt engineering, ou en distillant les données ou le modèle vers des réseaux d’inférence plus petits et spécialisés.
1 commentaires
Avis Hacker News