- Les auteurs appliquent kNN à des documents compressés en utilisant une fonction de distance appelée « distance de compression normalisée » (NCD).
- Cette méthode surpasse BERT sur des tâches de classification zero-shot.
- Gzip est puissant lorsque de nombreux mots se chevauchent, mais les DNN sont meilleurs pour la similarité sémantique.
- Les résultats sont intéressants, mais pas autant qu’ils peuvent en avoir l’air.
- Sur des données hors distribution, BERT reste plus performant.
- Les algorithmes de compression et les modèles de ML sont tous deux des formes de compression, et il pourrait exister une propriété fondamentale expliquant les performances du langage humain et des données.
- Le lien devrait pointer vers l’article à l’URL donnée.
- Relier des fragments de texte similaires se compresse mieux que d’autres fragments.
- Gzip peut être plus adapté à la compression car il représente les entrées d’une manière qui permet de les reconnaître et de les étiqueter.
- Gzip peut avoir du mal avec des mots comme « not » qui inversent le sens d’une phrase.```
1 commentaires
Commentaire Hacker News