- De nombreuses anciennes pages web disparaissent chaque année, et c’est une part de l’histoire perdue à jamais
- Internet Archive est l’un des actifs les plus précieux de l’histoire moderne
- Pourtant, plusieurs entreprises et institutions rendent plus difficile la survie et la préservation des archives
- Le fait que le siège d’Internet Archive se trouve dans un ancien bâtiment religieux est symbolique, et ce lieu devrait être considéré comme sacré
- Le temps où les anciens programmeurs travaillaient en assembleur Z80, les débats de la première génération d’Internet et les sous-cultures formées dans les années 90 disparaissent peu à peu
- Disparition des blogs personnels → les traces de la vie et de la conscience des individus s’effacent
- Les articles scientifiques, l’art numérique, les jeux vidéo, les données climatiques et les premières sources d’actualité disparaissent eux aussi progressivement
- Quand un éditeur ou un site web disparaît, ces informations sont souvent perdues pour toujours
- Toute tentative de tout préserver a, en pratique, de fortes chances d’échouer
- Parce qu’elle implique des coûts énormes sans bénéfice économique
- Le monde actuel peine à investir des ressources dans ce qui ne rapporte pas d’argent
- La capacité de compression de l’information des LLM (grands modèles de langage) n’est pas parfaite, mais elle peut au moins jouer un rôle minimal de préservation
- DeepSeek V3 est déjà publié et utilisé comme une version compressée avec perte d’Internet
- Même si toutes les pertes ne peuvent pas être réparées, il faut soutenir des institutions comme Internet Archive
- En parallèle, une tâche essentielle est de préserver les poids des LLM ouverts pour qu’ils ne disparaissent pas
- Il faut garantir que les contenus d’Internet Archive soient inclus dans les jeux de préentraînement des LLM
2 commentaires
Commentaires sur Hacker News
J’aime bien le titre « Big LLMs ». On distingue désormais les grands LLM, les petits LLM, et probablement aussi les LLM intermédiaires. J’aimerais proposer de les appeler « Tall LLMs », « Grande LLMs » et « Venti LLMs »
L’Internet Archive devrait être considéré comme l’une des composantes les plus précieuses de l’histoire moderne. Pourtant, de nombreuses entreprises et organisations rendent sa survie et son enrichissement de plus en plus difficiles. Je comprends que son siège se trouve dans une ancienne église. C’est sans doute la meilleure façon de le voir comme un lieu sacré. Il existe un effort actif pour créer une Internet Archive basée en Europe
Le projet llamafile de Mozilla est conçu pour permettre la préservation des LLM à des fins historiques. Il fournit les poids ainsi que tout le logiciel nécessaire dans un unique exécutable déterministe sans dépendances. Si l’on conserve des llamafiles, on pourra obtenir exactement le même résultat qu’aujourd’hui dans 50 ans. J’espère que vous soutiendrez Mozilla afin que ce moment particulier soit archivé pour les générations futures
Tout comme la carte n’est pas le territoire, un résumé n’est ni le contenu ni le livre réel dans une bibliothèque. Si je veux lire un billet, un livre ou un forum, je veux lire exactement cela. Pas une imitation fabriquée par un mystérieux algorithme mathématique
L’époque bénie où je construisais des tableaux de films avec liens vers des affiches de films en utilisant text-davinci me manque. En général, il générait des URL d’images de buckets s3. Les liens fonctionnaient toujours
Je pense que ce n’est pas grave si tout sur Internet n’est pas archivé pour toujours. Autrefois, les gens écrivaient sur papier et la plupart de ces écrits n’étaient pas archivés. À un moment donné, ils disparaissaient simplement. J’ai hérité de mes grands-parents de nombreuses boîtes de notes, livres et documents. La plupart n’avaient pas de sens pour moi. J’ai dû en jeter beaucoup et n’ai gardé que quelques milliers de pages de documents divers. Le reste a disparu pour toujours. Et c’est probablement très bien ainsi. Les archives sont extrêmement importantes, mais aujourd’hui la partie la plus difficile consiste à choisir ce qu’il faut archiver. Il y a tellement de contenu ajouté à Internet chaque seconde qu’on ne peut en archiver qu’une partie
Je me demande s’il serait possible d’utiliser plusieurs LLM différents pour reconstruire une version approximative du sous-ensemble commun populaire des données d’entraînement d’Internet. Je me demande si quelqu’un connaît des références vers des articles mathématiques sur ce genre de sujet
Cela n’a pas beaucoup de sens pour moi. Des rumeurs sans sources ont une valeur historique limitée, et la plupart des modèles du web dont les poids sont disponibles semblent être basés sur Common Crawl, qui reste accessible pour la préservation
J’aime l’idée selon laquelle les LLM préservent le savoir humain. Personnellement, j’aimerais que tout le savoir et toute l’information soient facilement accessibles et disponibles. Je suis sûr que la plupart des gens partagent ce sentiment, malgré les décisions commerciales constantes des ayants droit qui veulent tout monétiser ou tout cacher derrière un paiement ou une inscription. Beaucoup n’aiment pas le fait que Google organise l’information du monde et prospère grâce à la publicité, mais à long terme l’information est organisée et préservée sous divers formats de données sur Internet. Après tout, c’est Google qui a conçu à l’origine le Transformer ayant rendu possibles les poids des LLM, et cela fait désormais partie de l’histoire
Des articles scientifiques et leurs processus disparaissent à jamais quand des éditeurs font faillite et que des sites web ferment. Je ne pense pas que les grands éditeurs scientifiques fassent faillite (actuellement, à notre époque). Ils sont riches
« Un résumé n’est pas le contenu ni le véritable livre d’une bibliothèque. Si je veux lire un billet, un livre ou un forum, je veux lire exactement cela, pas une imitation fabriquée par un mystérieux algorithme mathématique. »
Je suis d’accord avec ça.