1 points par GN⁺ 2023-09-27 | 1 commentaires | Partager sur WhatsApp
  • Un article sur l’imprécision des n-grams de Google Ngram Viewer
  • L’auteur souligne que la fréquence des mots anglais courants affichée par Ngram ne reflète pas fidèlement leur usage réel au XXe siècle
  • L’auteur et Talia Felix ont utilisé Google Books pour leurs recherches, mais ont découvert qu’il s’agissait d’une base de données mal assemblée, truffée de nombreuses erreurs cachées
  • Explication de l’une des erreurs héritées de Google Books dans la formule de Ngram, qui donne l’impression que de nombreux mots anglais ont vu leur usage diminuer au cours du XXe siècle avant de renaître dans les années 1980
  • Cette erreur provient du fait que le corpus de Google Books est majoritairement académique, et que les revues scientifiques et universitaires modernes ont tendance à répéter un ensemble limité de mots
  • Dans l’écriture universitaire, la surutilisation de certains mots fait artificiellement baisser la fréquence apparente d’autres mots, créant une « baisse » au milieu du XXe siècle dans le Ngram de presque tous les mots
  • Autre erreur : Google Books ne reconnaît pas l’équivalence entre variantes orthographiques et formes plurielles
  • L’auteur indique que de nombreux fichiers de Google Books sont mal datés, ce qui nuit encore davantage à la fiabilité des données
  • Malgré ces imprécisions, les Ngrams continuent d’être utilisés en ligne, car les images l’emportent sur les mots
  • L’auteur recommande aux lecteurs de considérer les Ngrams comme quelque chose de décoratif et d’astucieux, non comme une représentation exacte de l’usage des mots
  • Il conclut que même si le monde préfère la réalité des Ngrams, les lecteurs peuvent se montrer plus avisés que cela.

1 commentaires

 
GN⁺ 2023-09-27
Avis Hacker News
  • Le titre de l’article, « Celui qui désire la certitude désire le mensonge », a déclenché une discussion sur le désir de certitude autour des calendriers de projet.
  • L’article critique l’usage des n-grammes dans les algorithmes modernes, affirmant qu’ils sont le produit de technologies peu fiables et ignorantes.
  • Cette critique des n-grammes est perçue comme un avertissement à une époque de plus en plus dominée par l’IA générative, qui est essentiellement un prédicteur de n-grammes.
  • Certains commentaires mettent en doute la validité des affirmations des auteurs sur les statistiques des n-grammes, en pointant le manque de preuves et une interprétation trompeuse des graphiques.
  • Un problème fondamental de l’analyse de données est souligné : une analyse ne vaut que par ses données, et il est difficile d’évaluer la qualité de ces données.
  • Certains commentaires critiquent le titre de l’article ainsi que la tendance au clickbait dans les publications scientifiques.
  • L’usage de Google Ngram est discuté ; certains estiment que l’outil n’est pas en cause, mais que ses statistiques sont sorties de leur contexte.
  • L’article est critiqué parce que l’axe vertical du graphique n’inclut pas 0, ce qui peut faire paraître de faibles variations beaucoup plus importantes.
  • Il est également avancé qu’il est impossible de reconstruire une image représentative du passé en raison de la perte de données inhérente.