2 points par GN⁺ 2023-08-27 | 1 commentaires | Partager sur WhatsApp
  • Un article sur l’importance historique du papier de Yann LeCun et al. publié en 1989, "Backpropagation Applied to Handwritten Zip Code Recognition", considéré comme l’une des premières applications concrètes où un réseau neuronal a été entraîné de bout en bout à l’aide de la rétropropagation.
  • L’auteur a tenté de reproduire le travail du papier avec des outils modernes comme PyTorch, en notant que le réseau d’origine avait été implémenté en Lisp avec le simulateur de rétropropagation SN de Bottou et LeCun (1988), plus tard renommé Lush.
  • Le réseau d’origine a été entraîné pendant 3 jours sur une station de travail SUN-4/260, mais la reproduction de l’auteur à l’aide du CPU d’un MacBook Air (M1) n’a pris qu’environ 90 secondes.
  • L’auteur a également expérimenté des techniques modernes de deep learning, comme l’utilisation de l’optimiseur Adam, l’introduction de l’augmentation de données et du dropout, ainsi que le remplacement de la fonction d’activation tanh par ReLU, ce qui a réduit le taux d’erreur d’environ 60 %.
  • L’auteur suggère qu’il serait possible d’obtenir des améliorations supplémentaires en augmentant la taille du réseau ou du jeu de données, mais que cela accroîtrait aussi le coût de calcul et pourrait provoquer de la latence à l’inférence.
  • En revenant sur les progrès du deep learning au cours des 33 dernières années, l’auteur souligne que les principes fondamentaux sont restés les mêmes, mais que l’échelle des jeux de données et des modèles a fortement augmenté, tandis que le temps nécessaire pour entraîner les modèles a considérablement diminué.
  • L’auteur suppose que d’ici 2055, les réseaux neuronaux deviendront encore plus grands, et que la plupart des applications seront réalisées en affinant légèrement une partie du réseau, via le prompt engineering, ou en distillant les données ou le modèle vers des réseaux d’inférence plus petits et spécialisés.

1 commentaires

 
GN⁺ 2023-08-27
Avis Hacker News
  • Cet article examine l’évolution des réseaux neuronaux profonds au cours des 33 dernières années et propose des prédictions pour les 33 prochaines.
  • L’entraînement initial de ce réseau a été effectué sur une station de travail Sun 4/260 pendant 3 jours, consommant environ 14 400 watt-heures d’énergie. Aujourd’hui, le même entraînement peut être réalisé sur un MacBook en 90 secondes seulement, en n’utilisant que 0,5 watt-heure, soit une amélioration de l’efficacité énergétique de près de 30 000 fois.
  • Certains lecteurs critiquent les prévisions de l’article pour 2055 comme étant « méta-linéaires », affirmant qu’elles reflètent encore une « symétrie de ligne d’univers » qui prend la date actuelle comme origine. Ils estiment que l’horizon temporel est suffisamment long pour laisser place à de nombreuses percées et à de nombreux obstacles imprévus.
  • Un débat existe sur le fait de savoir s’il est judicieux de continuer à faire la même chose avec davantage de données et plus de puissance de calcul au cours des 33 prochaines années, ou s’il faut explorer de nouvelles approches.
  • Certains lecteurs mettent en doute l’évolutivité de l’informatique au cours des 33 prochaines années, tandis que d’autres soutiennent qu’elle n’a pas besoin d’évoluer comme par le passé.
  • L’article est salué pour sa manière directe et simple d’explorer les fondements du machine learning, par contraste avec de nombreux articles qui remplissent leurs pages de résultats difficiles à reproduire à partir de nouvelles architectures complexes.
  • Les lecteurs soulignent que le changement le plus fondamental réside dans la nature des modèles entraînés, avec un passage des petites images vers la communication linguistique et visuelle de l’espèce humaine.
  • Cet article suscite de la nostalgie chez certains lecteurs qui ont vu l’intérêt pour les réseaux neuronaux monter, retomber, puis renaître.
  • Certains lecteurs expriment leur enthousiasme pour l’avenir de la technologie, tandis que d’autres s’inquiètent de la possibilité que les humains deviennent insignifiants dans un monde dominé par l’IA.
  • L’article montre que les progrès matériels jouent un rôle important dans l’évolution de l’IA, même si certains lecteurs estiment que les avancées futures ne seront peut-être pas aussi spectaculaires.