- Article récent remarqué sur Twitter : « Classification de texte "sans auteur" : une méthode de classification sans paramètres utilisant des compresseurs »
- L’auteur a vérifié le code source pour reproduire les résultats de l’article et a découvert des bugs ou des choix inattendus dans le code kNN.
- À cause de bugs dans le code, les chiffres de précision de cette méthode apparaissent plus élevés que prévu.
- Dans le tableau 5 de l’article, la méthode gzip affiche de meilleures performances que d’autres méthodes fondées sur des réseaux de neurones.
- L’auteur a recalculé les chiffres et a constaté que les résultats corrigés modifiaient fortement les conclusions de l’expérience.
- L’article utilisait un classificateur kNN avec k=2, un choix inhabituel pour une classification kNN.
- Le code source contient une stratégie inattendue de départage des égalités qui influence la précision rapportée.
- L’auteur fournit sa propre implémentation afin de comparer les résultats avec d’autres stratégies de départage.
- Les résultats recalculés montrent que le code d’origine et l’implémentation de l’auteur donnent des résultats similaires.
- Des questions subsistent toutefois sur la forte précision du jeu de données philippin et sur le léger écart entre les résultats « table5 » et « code ».
1 commentaires
Avis sur Hacker News