1 points par GN⁺ 2023-09-21 | 1 commentaires | Partager sur WhatsApp
  • Article sur l’obtention de 78 % de précision sur le jeu de données MNIST en moins de 10 lignes de code à l’aide de GZIP
  • L’auteur souligne que la nouveauté de ce billet n’est pas d’atteindre un résultat de pointe, mais de montrer le potentiel de la compression comme outil de classification original et sans modèle
  • Le code fourni utilise GZIP et la NCD (Normalized Compression Distance) comme mesure de similarité, et k-NN (k-Nearest Neighbors) pour la classification
  • GZIP est utilisé comme outil pour mesurer la complexité ou le contenu informationnel de points de données individuels, tandis que la NCD fournit une mesure normalisée du degré de similarité entre deux points de données
  • L’algorithme calcule la NCD avec tous les échantillons d’entraînement, les trie, puis sélectionne les k plus petites distances. Parmi ces k=5 plus proches voisins, la classe majoritaire est prédite comme étiquette de l’échantillon de test
  • L’auteur reconnaît que cette approche est coûteuse en calcul et qu’une partie seulement des images de test a été utilisée pour mesurer la précision
  • L’auteur fournit également une version moins obscure de l’algorithme pour une meilleure compréhension
  • L’auteur mentionne une approche similaire adoptée par Andreas Kirsch en 2019, qui avait atteint environ 35 % de précision
  • L’auteur en est venu à utiliser la compression comme mécanisme de classification d’images après avoir lu un billet sur la génération de texte à partir de la compression de données, puis un article sur la classification de texte sans paramètres
  • L’auteur avait déjà travaillé sur la compression d’images pour la vision par ordinateur en edge, et souhaitait appliquer cette technique au jeu de données MNIST

1 commentaires

 
GN⁺ 2023-09-21
Discussion Hacker News
  • Un article sur l’obtention de 78 % de précision sur le dataset MNIST avec moins de 10 lignes de code en utilisant GZIP
  • Des commentateurs ont essayé de remplacer la fonction de distance dans le code par des mesures plus simples, ce qui a amélioré la précision tout en réduisant les besoins de calcul
    • La distance euclidienne atteint environ 93 % de précision en environ 0,5 seconde après binarisation des images
    • La distance de Jaccard atteint environ 94 % de précision en environ 0,7 seconde après binarisation des images
    • La dissimilarité de Dice atteint environ 94 % de précision en environ 0,8 seconde après binarisation des images
  • Parmi les autres techniques comparées, Linear SVC atteint 92 % de précision, SVC rbf 96,4 %, SVC poly 94,5 %, la régression logistique 89 %, et le naïve Bayes 81 %
  • Des commentateurs estiment que, même si le code est élégant et concis, 78 % de précision sur MNIST reste faible, et suggèrent qu’un modèle basique écrit avec Tensorflow atteint facilement 90 %
  • Les meilleurs modèles sur MNIST sont classés à 99,87 % de précision
  • Certains commentateurs suggèrent que remplacer la distance de compression normalisée (NCD) par la distance euclidienne augmente la précision de test de 15 % tout en économisant beaucoup de calcul
  • Certains commentateurs estiment que le dataset MNIST devrait être mis à la retraite, car il est devenu relativement facile d’y obtenir une haute précision
  • Discussion sur le potentiel de trouver des motifs dans des données fortement compressées afin d’améliorer encore la compression
  • Certains commentateurs s’intéressent aux mesures de distance informationnelle pour les compresseurs généralistes et les modèles de langage alternatifs
  • Un commentateur évoque l’utilisation d’un mécanisme d’attention combinant la distance de compression normalisée (gzip) avec une convolution discrète entre séquences candidates