1 points par GN⁺ 2024-09-19 | 1 commentaires | Partager sur WhatsApp

Pourquoi wordfreq n’est plus mis à jour

L’IA générative contamine les données

  • Depuis 2021, il n’existe plus d’informations fiables sur l’usage humain de la langue
  • L’une des sources de données de wordfreq, le web ouvert (OSCAR), est désormais rempli de textes absurdes générés par de grands modèles de langage
  • Inclure ces textes dans les données fausse la fréquence des mots
  • Par exemple, ChatGPT est obsédé par le mot "delve", ce qui en augmente anormalement la fréquence

Des informations autrefois gratuites sont devenues coûteuses

  • wordfreq collectait des données sur l’usage conversationnel de la langue sur Twitter et Reddit
  • Les données de Twitter ont toujours été instables, et Twitter a désormais disparu au profit de X
  • Reddit a lui aussi cessé de fournir des archives de données publiques et vend maintenant ses données à un prix que seule OpenAI peut payer

Je ne veux plus participer à ce domaine

  • wordfreq a été utile à la linguistique de corpus et aux outils de traitement automatique du langage naturel
  • Mais aujourd’hui, le domaine du traitement automatique du langage naturel est accaparé par l’IA générative
  • Il est difficile de trouver des recherches en NLP qui ne dépendent pas de données fermées contrôlées par OpenAI et Google
  • Les outils de collecte de texte sont désormais principalement utilisés pour l’entraînement de l’IA générative, ce qui pose des problèmes de violation du droit d’auteur
  • Je ne veux pas participer à des travaux qui pourraient être confondus avec l’IA générative

Résumé de GN⁺

  • wordfreq était un projet fondé sur des données linguistiques allant jusqu’en 2021
  • Avec l’essor de l’IA générative, la fiabilité des données a baissé, et les principales sources comme Twitter et Reddit sont devenues payantes, ce qui a entraîné l’arrêt des mises à jour
  • Alors que le domaine du traitement automatique du langage naturel est accaparé par l’IA générative, l’auteur explique qu’il ne souhaite plus y participer
  • Parmi les projets aux fonctionnalités similaires, il recommande des outils alternatifs comme Google Ngram Viewer

1 commentaires

 
GN⁺ 2024-09-19
Commentaires sur Hacker News
  • Le Web a été pollué par les règles SEO de Google. Les paragraphes courts, la répétition de mots-clés et une écriture axée sur l’indexabilité plutôt que sur la lisibilité posent problème
    • Le ML/LLM est la deuxième source de pollution. La première était l’écriture destinée aux bots d’entreprise
  • En 2023, création de LowBackgroundSteel.ai pour en faire un lieu de collecte de jeux de données non pollués
    • Wordfreq devrait y être ajouté. Appel à soumettre des ressources sur Tumblr
  • Il est possible de comprendre la déception envers la communauté NLP, mais tout le monde n’est pas comme ça
    • Le problème de la pollution du Web n’est pas nouveau. Il y a déjà eu des fermes de spam cherchant à manipuler le PageRank
    • Chaque génération du Web a besoin de technologies capables de surmonter les problèmes de son époque
    • La consommation de contenus générés automatiquement, anticipée par George Orwell dans 1984, est devenue réalité. Mais cette technologie peut aussi être utilisée de manière positive
  • Le Web est considéré comme mort. À cause de l’IA, il faut plus de temps pour trouver des informations utiles
    • Il a fallu plus de 10 minutes pour trouver certains écouteurs sans fil. Les sites sont remplis de déchets
    • Avec un vieil ordinateur portable, il est difficile de naviguer sur les sites modernes très chargés en graphismes
    • Tout est détesté : le Web, les navigateurs, le design web, le SEO, la recherche, la publicité, etc. Recherche de moyens d’acheter sans utiliser le Web
  • Partage d’un lien Google Trends en mentionnant ce fait amusant : les résultats de recherche pour "delve" n’ont pas augmenté
  • Depuis 2021, il n’y aurait plus d’informations fiables sur l’usage humain de la langue
    • Le texte a déjà franchi un point critique, mais pour la vidéo, c’est maintenant le moment décisif
    • Les jeunes enfants, en particulier, ont du mal à distinguer le vrai du faux. La technologie existe déjà, mais la plupart des contenus vidéo ne sont pas encore touchés
  • Accord avec l’idée que le Web est rempli de déchets générés par les LLM
    • Dans bien des cas, du contenu sans valeur est produit pour le SEO
  • Si l’AGI devient bon marché et accessible, la plupart des tâches seront effectuées par l’IA
    • La révolution de l’IA devrait commencer dans les domaines les plus proches des racines de l’IA
  • Les livres papier d’avant 2020 pourraient devenir des actifs précieux
    • Internet sera rempli de déchets et même les livres papier modernes deviendront suspects
    • Des humains seront présentés comme auteurs de livres écrits par l’IA
  • Les auteurs ayant perdu leur emploi à cause de l’IA devraient être embauchés par les hyperscalers de l’IA
    • À condition que leurs œuvres ne contiennent aucune phrase générée par l’IA