- Un article sur l’imprécision des n-grams de Google Ngram Viewer
- L’auteur souligne que la fréquence des mots anglais courants affichée par Ngram ne reflète pas fidèlement leur usage réel au XXe siècle
- L’auteur et Talia Felix ont utilisé Google Books pour leurs recherches, mais ont découvert qu’il s’agissait d’une base de données mal assemblée, truffée de nombreuses erreurs cachées
- Explication de l’une des erreurs héritées de Google Books dans la formule de Ngram, qui donne l’impression que de nombreux mots anglais ont vu leur usage diminuer au cours du XXe siècle avant de renaître dans les années 1980
- Cette erreur provient du fait que le corpus de Google Books est majoritairement académique, et que les revues scientifiques et universitaires modernes ont tendance à répéter un ensemble limité de mots
- Dans l’écriture universitaire, la surutilisation de certains mots fait artificiellement baisser la fréquence apparente d’autres mots, créant une « baisse » au milieu du XXe siècle dans le Ngram de presque tous les mots
- Autre erreur : Google Books ne reconnaît pas l’équivalence entre variantes orthographiques et formes plurielles
- L’auteur indique que de nombreux fichiers de Google Books sont mal datés, ce qui nuit encore davantage à la fiabilité des données
- Malgré ces imprécisions, les Ngrams continuent d’être utilisés en ligne, car les images l’emportent sur les mots
- L’auteur recommande aux lecteurs de considérer les Ngrams comme quelque chose de décoratif et d’astucieux, non comme une représentation exacte de l’usage des mots
- Il conclut que même si le monde préfère la réalité des Ngrams, les lecteurs peuvent se montrer plus avisés que cela.
1 commentaires
Avis Hacker News