1 points par GN⁺ 2023-07-18 | 1 commentaires | Partager sur WhatsApp
  • Article récent remarqué sur Twitter : « Classification de texte "sans auteur" : une méthode de classification sans paramètres utilisant des compresseurs »
  • L’auteur a vérifié le code source pour reproduire les résultats de l’article et a découvert des bugs ou des choix inattendus dans le code kNN.
  • À cause de bugs dans le code, les chiffres de précision de cette méthode apparaissent plus élevés que prévu.
  • Dans le tableau 5 de l’article, la méthode gzip affiche de meilleures performances que d’autres méthodes fondées sur des réseaux de neurones.
  • L’auteur a recalculé les chiffres et a constaté que les résultats corrigés modifiaient fortement les conclusions de l’expérience.
  • L’article utilisait un classificateur kNN avec k=2, un choix inhabituel pour une classification kNN.
  • Le code source contient une stratégie inattendue de départage des égalités qui influence la précision rapportée.
  • L’auteur fournit sa propre implémentation afin de comparer les résultats avec d’autres stratégies de départage.
  • Les résultats recalculés montrent que le code d’origine et l’implémentation de l’auteur donnent des résultats similaires.
  • Des questions subsistent toutefois sur la forte précision du jeu de données philippin et sur le léger écart entre les résultats « table5 » et « code ».

1 commentaires

 
GN⁺ 2023-07-18
Avis sur Hacker News
  • L’erreur de l’article « gzip beats BERT » relève d’une faute méthodologique minutieuse en ML.
  • Appliquer un algorithme de compression au ML n’est pas un « repas gratuit » et ne produira peut-être aucune magie particulière.
  • L’auteur du billet de blog a soumis une issue GitHub concernant l’article.
  • Une bonne science exige un bon génie logiciel, et les erreurs dans les expériences sont courantes.
  • Le billet de blog sur ce problème est accueilli avec reconnaissance pour avoir mis ce problème en lumière.
  • Le choix de kNN comme classifieur dans l’article soulève des questions et suggère des algorithmes alternatifs.
  • Les résultats de l’article ont soulevé des questions sur la manière dont un algorithme de compression pourrait battre les LLM.
  • Les personnes qui ont formulé de grandes affirmations à propos de l’article devraient peut-être reconsidérer leurs propos.
  • Le billet de blog a suscité des discussions et des analyses supplémentaires sur Twitter.
  • La possibilité de matchs nuls survenant aléatoirement dans les résultats de l’article a été soulevée.