Un utilisateur a estimé que la présentation n’apportait rien de nouveau ni d’utile. Il a jugé son contenu religieux et creux
Il a apprécié qu’Ilya commence sa présentation par une photo de Quoc Le. Quoc Le est l’auteur principal d’un article de 2012 sur le passage à l’échelle des réseaux neuronaux, qui a été pour cet utilisateur le déclencheur de son intérêt pour le deep learning
Il estime que les propos d’Ilya sont humbles et s’appuient sur des recherches publiques antérieures, tout en montrant qu’il mène actuellement un grand projet et fait preuve d’une grande imagination
Il considère comme importante la déclaration d’Ilya selon laquelle « le raisonnement est plus imprévisible ». Il soutient qu’un raisonnement utile est par essence imprévisible
Il pose la question de savoir pourquoi le parallélisme de pipeline était une mauvaise idée
Il a eu l’impression que la présentation était largement remplie de contenu superflu. Elle évoquait un résumé des dix dernières années, les limites des lois de scaling, les agents, les données synthétiques et les améliorations du calcul
Il souligne que Sutskever a dit que « le préentraînement prendra fin ». Il prévoit que la manière d’entraîner les modèles changera en raison des limites des données
Il propose, à la place des données d’Internet, des jeux de données synthétiques curés comme données alternatives pour l’entraînement. Il explique que l’usage de grands jeux de données propriétaires est limité par les questions de droit d’auteur, mais que le problème juridique pourrait être résolu si les propriétaires les utilisent directement
Il estime qu’un podcast de DeepMind abordait des thèmes similaires à cette présentation, mais de façon plus intéressante
Il a apprécié la comparaison des données d’Internet à une ressource finie. Il soutient qu’il faut reconnaître les limites de cette ressource et y faire face
Il mentionne qu’il est surprenant de comparer les « neurones » des transformeurs à de véritables neurones biologiques. Les vrais neurones impliquent des processus biochimiques complexes, tandis que les transformeurs utilisent de simples couches linéaires et des non-linéarités
Il mentionne qu’un LLM a utilisé Gemini Flash 8B pour corriger la transcription originale YouTube
1 commentaires
Avis Hacker News
Un utilisateur a estimé que la présentation n’apportait rien de nouveau ni d’utile. Il a jugé son contenu religieux et creux
Il a apprécié qu’Ilya commence sa présentation par une photo de Quoc Le. Quoc Le est l’auteur principal d’un article de 2012 sur le passage à l’échelle des réseaux neuronaux, qui a été pour cet utilisateur le déclencheur de son intérêt pour le deep learning
Il estime que les propos d’Ilya sont humbles et s’appuient sur des recherches publiques antérieures, tout en montrant qu’il mène actuellement un grand projet et fait preuve d’une grande imagination
Il considère comme importante la déclaration d’Ilya selon laquelle « le raisonnement est plus imprévisible ». Il soutient qu’un raisonnement utile est par essence imprévisible
Il pose la question de savoir pourquoi le parallélisme de pipeline était une mauvaise idée
Il a eu l’impression que la présentation était largement remplie de contenu superflu. Elle évoquait un résumé des dix dernières années, les limites des lois de scaling, les agents, les données synthétiques et les améliorations du calcul
Il souligne que Sutskever a dit que « le préentraînement prendra fin ». Il prévoit que la manière d’entraîner les modèles changera en raison des limites des données
Il propose, à la place des données d’Internet, des jeux de données synthétiques curés comme données alternatives pour l’entraînement. Il explique que l’usage de grands jeux de données propriétaires est limité par les questions de droit d’auteur, mais que le problème juridique pourrait être résolu si les propriétaires les utilisent directement
Il estime qu’un podcast de DeepMind abordait des thèmes similaires à cette présentation, mais de façon plus intéressante
Il a apprécié la comparaison des données d’Internet à une ressource finie. Il soutient qu’il faut reconnaître les limites de cette ressource et y faire face
Il mentionne qu’il est surprenant de comparer les « neurones » des transformeurs à de véritables neurones biologiques. Les vrais neurones impliquent des processus biochimiques complexes, tandis que les transformeurs utilisent de simples couches linéaires et des non-linéarités
Il mentionne qu’un LLM a utilisé Gemini Flash 8B pour corriger la transcription originale YouTube