Pourquoi wordfreq n’est plus mis à jour
L’IA générative contamine les données
- Depuis 2021, il n’existe plus d’informations fiables sur l’usage humain de la langue
- L’une des sources de données de wordfreq, le web ouvert (OSCAR), est désormais rempli de textes absurdes générés par de grands modèles de langage
- Inclure ces textes dans les données fausse la fréquence des mots
- Par exemple, ChatGPT est obsédé par le mot "delve", ce qui en augmente anormalement la fréquence
Des informations autrefois gratuites sont devenues coûteuses
- wordfreq collectait des données sur l’usage conversationnel de la langue sur Twitter et Reddit
- Les données de Twitter ont toujours été instables, et Twitter a désormais disparu au profit de X
- Reddit a lui aussi cessé de fournir des archives de données publiques et vend maintenant ses données à un prix que seule OpenAI peut payer
Je ne veux plus participer à ce domaine
- wordfreq a été utile à la linguistique de corpus et aux outils de traitement automatique du langage naturel
- Mais aujourd’hui, le domaine du traitement automatique du langage naturel est accaparé par l’IA générative
- Il est difficile de trouver des recherches en NLP qui ne dépendent pas de données fermées contrôlées par OpenAI et Google
- Les outils de collecte de texte sont désormais principalement utilisés pour l’entraînement de l’IA générative, ce qui pose des problèmes de violation du droit d’auteur
- Je ne veux pas participer à des travaux qui pourraient être confondus avec l’IA générative
Résumé de GN⁺
- wordfreq était un projet fondé sur des données linguistiques allant jusqu’en 2021
- Avec l’essor de l’IA générative, la fiabilité des données a baissé, et les principales sources comme Twitter et Reddit sont devenues payantes, ce qui a entraîné l’arrêt des mises à jour
- Alors que le domaine du traitement automatique du langage naturel est accaparé par l’IA générative, l’auteur explique qu’il ne souhaite plus y participer
- Parmi les projets aux fonctionnalités similaires, il recommande des outils alternatifs comme Google Ngram Viewer
1 commentaires
Commentaires sur Hacker News