πFS - le système de fichiers qui stocke les données dans π au lieu d’un disque dur
(github.com/philipl)- πfs est un système de fichiers qui met en œuvre l’idée de stocker les données dans π au lieu de les enregistrer sur un disque dur, sans utiliser d’espace, avec pour principe central que π contient tous les fichiers possibles
- Cela repose sur l’explication selon laquelle, si la conjecture que π est normal est vraie, alors tout fichier fini existe dans sa représentation hexadécimale
- Si l’on connaît l’indice du fichier dans π et sa longueur, il est possible d’extraire le fichier avec la formule de Bailey–Borwein–Plouffe ; cette implémentation interroge individuellement chaque octet dans π pour des raisons de performances
- À l’exécution, on utilise le format
πfs -o mdd=<metadata directory> <mountpoint>; le metadata directory stocke des métadonnées comme le nom de fichier et sa position dans π - La compilation nécessite les paquets
autoconf,automake,libfuse, et suit le flux./autogen.sh,./configure,make,make install - L’implémentation actuelle est un prototype initial ; un exemple indique qu’il a fallu 5 minutes pour stocker un fichier texte de 400 lignes
- Parmi les possibilités futures figurent la recherche et l’accès à longueur d’exécution variable, l’Arithmetic Coding, l’accès parallèle, l’accès à π via le cloud, et πfs pour Hadoop
1 commentaires
Réactions sur Hacker News
Cela me rappelle l’époque où j’avais essayé d’utiliser la Bibliothèque de Babel comme outil de compression de données
Ça m’avait entraîné dans un rabbit hole passionnant, et c’est comme ça que j’ai découvert la théorie de l’information pour la première fois
La conclusion, c’est qu’il faut presque autant d’information pour exprimer l’adresse de l’emplacement des données que pour les données elles-mêmes, donc ce n’est pas très efficace pour la compression, et c’est plutôt une expérience de pensée amusante
Ce qui est intéressant aujourd’hui, c’est que les LLM constituent en quelque sorte une forme de compression avec perte qui réalise effectivement l’essentiel de l’objectif que ce genre d’outils n’a pas réussi à atteindre. Bien sûr, il y a de la perte, et il faut une base énorme
https://youtu.be/l6DKRf-fAAM?is=ne73FCJ7ErXhzZ-v
https://youtu.be/l6DKRf-fAAM
Une estimation grossière pour stocker des 4-grammes valides, c’est-à-dire des séquences de quatre mots, donne environ 10 milliards × 14 bits par mot = environ 17 Go pour l’ensemble des 10 milliards. Pourtant, des LLM 100 fois plus petits peuvent déjà écrire une prose cohérente
Ça me fait penser à nsafs, pour National Security Agency Filesystem. L’idée, c’est que c’est « gratuit » puisque c’est le gouvernement qui paie : https://github.com/freedomtools/nsafs
https://en.wikipedia.org/wiki/Write-only_memory_(joke)
L’idée était de choisir un index arbitraire et d’en partager la clé privée avec l’autre partie, puis d’utiliser ensuite le texte comme un one-time pad. Le raisonnement était que, pour le déchiffrer, la NSA devrait mettre en tampon et stocker l’intégralité du flux généré à des Go/s, mais ça ne m’avait pas semblé très pratique
Il vaut la peine de souligner que plus la longueur des données augmente, plus la probabilité que l’index et la longueur de cette séquence dans π soient plus petits que les données d’origine devient extrêmement faible
Je n’avais pas les ressources de calcul pour trouver un numéro à 10 chiffres avec l’indicatif régional
<nombre de 20 To>Voici des billets liés. Il y en a d’autres ?
πfs – A data-free filesystem - https://news.ycombinator.com/item?id=36357466 - juin 2023, 107 commentaires
πfs – A data-free filesystem - https://news.ycombinator.com/item?id=28699499 - septembre 2021, 30 commentaires
PiFS – The Data-Free Filesystem - https://news.ycombinator.com/item?id=26208704 - février 2021, 1 commentaire
Πfs: Never worry about data again - https://news.ycombinator.com/item?id=21359338 - octobre 2019, 1 commentaire
The π Filesystem for FUSE: Store Your Data in π - https://news.ycombinator.com/item?id=19223032 - février 2019, 1 commentaire
pifs - Avoid disk space usage by saving your files in the digits of Pi - https://news.ycombinator.com/item?id=18687275 - décembre 2018, 1 commentaire
πfs – A data-free filesystem - https://news.ycombinator.com/item?id=13869691 - mars 2017, 105 commentaires
Πfs: Stores your data in π - https://news.ycombinator.com/item?id=10856108 - janvier 2016, 1 commentaire
Πfs: Never worry about data again - https://news.ycombinator.com/item?id=10847693 - janvier 2016, 1 commentaire
File system that stores location of file in Pi - https://news.ycombinator.com/item?id=8018818 - juillet 2014, 98 commentaires
100% Compression Using Pi - https://news.ycombinator.com/item?id=6698852 - novembre 2013, 32 commentaires
Les reposts sont acceptables après environ un an, et les liens vers les anciens fils servent aux lecteurs qui veulent creuser davantage
Ça m’y fait aussi penser : https://www.spronck.net/sloot.html
Lecture complémentaire : https://en.wikipedia.org/wiki/Sloot_Digital_Coding_System
La méthode d’encodage réelle consistait à stocker chaque ligne de la vidéo dans une base de données, puis à encoder chaque frame comme une séquence de consultations de lignes, avant de stocker à son tour cette frame encodée dans une autre base de données. Chaque vidéo devenait alors une séquence de consultations de frames
C’est pour cela qu’il pouvait faire une démo avec 16 vidéos lues simultanément de façon fluide sur du matériel de la fin des années 90. Comme chaque frame était une séquence de consultations de lignes, diviser l’écran en 16 bandes verticales pour lire 16 vidéos en parallèle n’était pas plus coûteux que d’afficher une seule vidéo en plein écran
De même, comme chaque frame était décodée individuellement, l’avance rapide et le retour arrière restaient fluides. Contrairement à la compression vidéo traditionnelle, il n’était pas nécessaire de calculer les différences à partir de keyframes, donc la lecture en 2x n’était pas plus difficile que la lecture en 1x
Bien sûr, il n’aurait pas pu stocker des fichiers vidéo dans seulement 8 KB, mais si, par exemple, toute une saison d’une série TV se trouvait dans la base de données, il suffisait de stocker le générique de début et de fin une seule fois
Il est dérangeant de réaliser que π contient toute la connaissance du passé et du futur, y compris la date de ma mort
On ne peut d’ailleurs pas vraiment dire qu’elle contient toute la connaissance du passé et du futur. Elle contient aussi tous les mensonges possibles sur le passé et le futur, d’une manière impossible à distinguer de la vérité
Encoder de l’information comme un décalage dans une séquence pseudo-aléatoire est moins efficace en stockage que stocker directement l’information
Anecdote amusante : « Chrispratt » signifie en ancien californien « Joel McHale ne voulait pas du rôle »
https://dn760100.eu.archive.org/0/items/TheLibraryOfBabel/ba...
Je me souviens vaguement qu’une participation à un benchmark de compression avait jadis contourné le test en traitant le nom du fichier comme une partie de l’entrée de l’algorithme de décompression
Comme le benchmark ne mesurait que la taille du fichier, cela permettait de battre cette métrique
Est-ce que cela ne repose pas sur des propriétés de π qui n’ont pas encore été démontrées ? Il faudrait la présence de toutes les chaînes finies ou la normalité, et aucune des deux n’a été prouvée