Word2Vec a reçu quatre verdicts de « rejet ferme » à l’ICLR 2013

(openreview.net)

1 points par GN⁺ 2023-12-19 | 1 commentaires | Partager sur WhatsApp

Estimation efficace de représentations vectorielles de mots

Les chercheurs proposent deux nouvelles architectures de modèles pour calculer des représentations vectorielles continues de mots à partir de très grands jeux de données.
La qualité de ces représentations est mesurée sur des tâches de similarité entre mots et comparée à divers types de techniques basées sur des réseaux de neurones qui obtenaient auparavant les meilleures performances.
L’équipe de recherche observe une nette amélioration de la précision pour un coût de calcul bien plus faible. Autrement dit, il est possible de dériver en moins d’une journée, sur un seul CPU, des vecteurs 300 dimensions de haute qualité pour un vocabulaire d’un million de mots à partir d’un jeu de données de 1,6 milliard de mots.
Ils montrent également que ces vecteurs atteignent l’état de l’art sur des jeux de test destinés à mesurer différents types de similarité entre mots.
Ils prévoient de rendre ce jeu de test public pour qu’il puisse être utilisé par la communauté de recherche.

Avis

Les reviewers ont souligné le manque de motivation claire expliquant en quoi le modèle proposé diffère des modèles existants et pourquoi il leur est supérieur.
La description du modèle est minimale, ce qui rend difficile de déterminer en quoi il se distingue des travaux antérieurs.
Les reviewers insistent sur le fait que l’article inclut des comparaisons incohérentes entre des modèles entraînés sur différents jeux de données et avec des dimensions différentes, alors que cela est nécessaire pour rendre les affirmations de l’article convaincantes.

L’avis de GN⁺

Cette recherche propose une nouvelle technique pour estimer efficacement des vecteurs de mots, ce qui constitue une avancée importante dans le domaine du traitement automatique du langage naturel.
Le modèle proposé peut être entraîné bien plus rapidement que les modèles de réseaux de neurones complexes existants, ce qui peut être utile pour les recherches traitant de grands volumes de données linguistiques.
L’article présente une nouvelle méthode d’évaluation de la qualité des vecteurs de mots, qui pourrait s’imposer comme standard pour mesurer la similarité entre mots dans les recherches futures.

1 commentaires

GN⁺ 2023-12-19

Avis sur Hacker News

Un récent post Facebook de Tomas Mikolov (l’auteur de word2vec) donne plus de détails : https://www.facebook.com/share/p/kXYaYaRvRCr5K2Ze
Le point à la fois intéressant et amer, c’est que même les experts se trompent. Il y aurait eu des réactions allant de celle, façon Geoff Hinton, sur les analogies entre mots — « je le savais aussi, mais j’ai oublié de le présenter » — jusqu’à des gens qui, sans lire l’article ni essayer par eux-mêmes, affirmaient que « c’est une bidouille complète, ça ne peut pas marcher ». Il est aussi mentionné qu’Ian Goodfellow se serait énervé sur Twitter.
- Tomas dit que l’idée d’encodeur-décodeur (seq-to-seq) lui est venue, et qu’après son départ chez Facebook, Ilya et Quoc l’ont reprise
  Mais Quoc dit que ce n’est pas vrai : https://twitter.com/quocleix/status/1736523075943125029
  Du côté de Quoc, le souvenir est que Tomas n’a pas proposé l’idée ; au contraire, quand ils ont partagé l’idée de traduction de bout en bout, il était très sceptique, et ils ont travaillé à la faire fonctionner malgré ce scepticisme. Plutôt que quelqu’un mente, il semble qu’un des deux se souvienne mal, mais ça laisse tout de même un arrière-goût désagréable.
- Pour être juste, je me souviens aussi que l’article et les technologies autour étaient assez médiocres à l’époque. Les implémentations largement utilisées ne se comportaient pas vraiment comme ce qui était décrit dans l’article, et la technique n’était pas très bonne au-delà de la comparaison au niveau des mots
  Donner des poids tf-idf à certains mots aidait un peu, mais un ensemble de mots pondérés par tf-idf était tout aussi performant. Utiliser une similarité cosinus sur la somme de plusieurs vecteurs de mots paraît aujourd’hui vraiment idiot.
- J’ai demandé dans un autre fil de quelle manière Goodfellow se serait énervé, et je n’ai trouvé que ceci : https://twitter.com/goodfellow_ian/status/113352818965167718...
  Si c’est bien ça, honnêtement, cela donne l’impression que Mikolov est assez instable.
- Franchement, ce texte contient tellement de piques envers plusieurs personnes qu’il ressemble à une diatribe. Il aurait pu être écrit avec beaucoup plus de tenue
  Cela dit, il est crédible que la plupart des chercheurs, étant humains, soient fortement influencés par l’ego et l’argent plutôt que de placer le progrès du savoir partagé au-dessus de tout. tousse OpenAI tousse
- Ce texte aurait sans doute été plus à sa place sur Twitter que sur le Facebook « oublié ». Les personnes et organisations mentionnées ou sous-entendues auraient alors eu l’occasion de le voir et de partager leur point de vue
  Sinon, ça ressemble juste à un billet de plainte.
Je trouve que les reviewers ont plutôt bien fait leur travail. Les critiques sont aussi assez raisonnables. Le processus de revue devrait porter non pas sur l’influence future potentielle d’un article, mais sur la qualité de l’article
Tous les articles influents ne sont pas nécessairement de bons articles.
- D’accord. L’article le plus influent que j’aie écrit a lui aussi reçu un rejet ferme lors de sa première soumission, et avec le recul je pense que c’était justifié
  La motivation était insuffisante, la contribution n’était pas clairement présentée, et l’explication était très confuse. Le cœur de l’idée a à peine changé, mais l’article finalement publié était bien meilleur, précisément parce que la première revue avait été rude. La revue elle-même n’était pas spécialement perspicace — c’était plutôt du niveau « c’est confus, on ne sait pas ce que vous faites ni pourquoi » —, mais parfois ce regard extérieur est vraiment nécessaire
  Moi aussi, il m’est arrivé de reviewer et de rejeter des articles où l’on voyait le germe d’une excellente idée, mais où l’article écrit lui-même n’était pas bon. C’est toujours un plaisir de voir ces travaux publiés plus tard sous une forme bien améliorée.
- Je suis d’accord pour dire que les articles sont effectivement souvent évalués ainsi, mais je suis fortement en désaccord avec l’idée que ce soit ainsi que cela devrait fonctionner. C’est comme chercher ses clés sous le lampadaire plutôt que là où on les a perdues
  Il faudrait se demander non pas « cet article coche-t-il les cases ? », mais « cet article fait-il avancer le domaine et mérite-t-il donc davantage de visibilité ? ». Le fait que le premier critère ne mène pas mieux au second est un échec du système
  C’est comparable à une philosophie de recrutement qui sélectionne les candidats à la coupe de cheveux soignée et au jargon convenu, tout en passant à côté de ceux qui ont un impact réel sur les revenus
  Un « bon » article très rigoureux mais qui ne débouche sur rien est-il vraiment un bon article ? Si l’on considère le progrès scientifique comme des dés où les articles rigoureux ont une forte probabilité de réussite et les articles moins rigoureux une faible probabilité, alors il suffit de rechercher uniquement les articles rigoureux. On en conclut alors que word2vec, peu rigoureux, n’a fait avancer les choses que par « un énorme coup de chance » et qu’il n’avait pas besoin de recevoir une bonne évaluation
  Mais word2vec était aussi très innovant, et cela aurait dû être un point positif dans la revue. Je pense même qu’il est difficile pour un article innovant d’être très rigoureux, car la définition de la rigueur dans ce domaine n’est pas encore stabilisée. Aux frontières extrêmes, j’aurais envie de soutenir qu’il existe une corrélation négative entre rigueur et innovation.
- « L’essai en huit parties était autrefois nécessaire aux candidats des examens impériaux pour montrer les qualités requises pour occuper une fonction officielle… Sur le plan de la structure et du style, l’essai en huit parties était restrictif et rigide. Il existait de nombreuses règles concernant le nombre de phrases, le nombre de mots, la forme et la structure, et même les techniques de rimes. »
  https://en.wikipedia.org/wiki/Eight-legged_essay#Viewpoints
- Dans ce cas, je ne comprends pas pourquoi on consacre autant d’attention et d’efforts au système d’évaluation par les pairs
  Si l’on demandait aux financeurs de la recherche, ils préféreraient probablement investir dans des idées influentes plutôt que dans la production d’articles « de haute qualité » mais sans impact.
- C’est la bonne interprétation. Certains voudront présenter ça comme « les reviewers sont stupides », mais ce n’est pas le cas.
Avec le recul, le commentaire du reviewer f5bf est intéressant. Il disait qu’il serait utile d’expliquer comment ces modèles traitent la similarité sémantique non transitive, comme dans « river », « bank » et « bailout », et que des gens comme Tversky avaient critiqué les modèles d’espace sémantique en disant qu’ils ne modélisaient pas correctement ce type de similarité.
Ce qui frappe dans les modèles récents (GPT, modèles de diffusion d’images, etc.), c’est leur capacité à jouer avec les mots lorsqu’il existe une ambiguïté de sens. Cela semblait autrefois être une capacité très humaine, mais elle semble désormais faire partie de la boîte à outils des modèles génératifs. J’imagine que la plupart utilisent quelque chose de similaire à word2vec pour obtenir des vecteurs d’embedding à partir du prompt.
Je ne sais pas si l’ambiguïté de word2vec contribue à cette capacité de jeu de mots, mais cela illustre bien une situation de type fonctionnalité contre bug : cette ambiguïté est une fonctionnalité pour des objectifs créatifs, mais devient un bug si l’on veut modéliser l’espace sémantique comme un espace vectoriel strict.
J’interprète les embeddings de mots/prompts des modèles actuels comme étant tellement grands qu’ils sont surchargés de dimensions redondantes et ne satisfont probablement aucun formalisme mathématique qui ressemblerait à un espace vectoriel fonctionnant proprement.
- La différence clé est sans doute ce qu’on pourrait appeler embeddings hors contexte contre embeddings contextuels. Une approche de type word2vec doit, par construction, attribuer exactement le même vecteur à « bank » dans toutes les phrases.
  Mais les modèles ultérieurs, par exemple la famille des Transformers, BERT, GPT, etc., attribuent un vecteur complètement différent selon le contexte des mots qui entourent ce « bank ».
- Même de petits modèles (par exemple avec une dimension cachée de 32) devraient pouvoir gérer l’ambiguïté des tokens s’ils disposent de l’attention. Il y a beaucoup plus d’information dans le contexte que dans le token lui-même.
On dirait que les premières versions de l’article ont été rejetées, puis qu’il y a eu des mises à jour et des explications ajoutées à partir des reviews. Au final, cela a été utile et ressemble à la manière dont le processus de review devrait fonctionner.
Étant donné en particulier que cet article était un travail majeur, il était raisonnable de demander davantage d’efforts pour expliquer pourquoi cela fonctionne, plutôt que de s’appuyer seulement sur de bons résultats de benchmark.
Avec le recul, les reviewers anonymes qui paraissaient intelligents doivent sembler assez idiots.
L’évaluation par les pairs fonctionne mal pour les idées nouvelles. Personne n’a le temps ni la disponibilité mentale de passer des heures et des heures à essayer de comprendre quelque chose de nouveau.
- Il vaut la peine de noter que la majeure partie de la meilleure science est apparue avant que l’évaluation par les pairs ne devienne dominante.
  J’avais lu un article à ce sujet, difficile à retrouver aujourd’hui, qui retraçait grosso modo l’histoire du système actuel d’évaluation par les pairs. Le peer review tel que nous le connaissons aujourd’hui est surtout apparu dans les années 1970, en réponse à plusieurs crises de financement du monde académique. L’idée était que c’était une stratégie pour rendre la recherche plus fiable en apparence.
  La critique la plus dévastatrice du peer review est évidemment qu’il a totalement échoué à empêcher la crise de la reproductibilité, et qu’il l’a peut-être même aidée. Le monde académique est un système dont l’une des principales motivations est d’obtenir des financements grâce à une image de fiabilité ; en principe, c’est une recette pour une fraude généralisée.
- J’ai terminé un doctorat en IA l’an dernier, et je peux dire qu’il existe réellement des reviewers qui passent des heures à faire correctement une review. Il est vrai qu’aujourd’hui on a plus de chances de tomber sur des reviewers paresseux, et qu’on peut ne pas avoir de chance, mais cela ne semble pas être le cas pour cet article.
  Par exemple, la review f5bf résumait CBOW et skip-gram, et soulignait que la description du modèle était extrêmement minimale, ce qui rendait difficile de juger à quel point il différait des modèles existants. Elle suggérait d’ajouter une représentation graphique ou davantage de détails mathématiques, et estimait que c’était tout à fait possible avec presque une page restante, d’autant que beaucoup d’espace était consacré à une équation assez superflue sur le nombre de paramètres.
  Ces reviews ont conduit à des modifications substantielles de l’article, même si elles n’ont apparemment pas été suffisantes : https://openreview.net/forum?id=idpCdOWtqXd60&noteId=C8Vn84f...
  C’étaient des reviews de plutôt bonne qualité, et personnellement je pense que l’article a bénéficié de ce processus de review.
- J’ai été très déçu par les tracks de conférences en machine learning au cours de l’année écoulée. Il y a trop d’articles et trop peu de reviewers, ce qui entraîne une proportion anormalement élevée de doctorants parmi les reviewers.
  J’ai reçu des reviews vraiment absurdes, avec des travers contraires à l’esprit scientifique. Par exemple, un reviewer insistait pratiquement sur le fait qu’un article ne méritait pas d’être publié s’il ne proposait pas une nouvelle idée d’architecture et des résultats state of the art. Comme s’il était absolument interdit de mieux comprendre et de simplifier des outils déjà existants.
- Ce n’était pas du tout la conclusion que j’en ai tirée. Le processus de review a amélioré l’article et l’a rendu plus rigoureux. Je ne vois pas en quoi c’est une mauvaise chose.
  Bien sûr, il arrive aussi que les reviewers se concentrent sur d’autres points que « est-ce que cela va révolutionner A, B, C ».
- Le problème ici n’était pas que les reviewers n’arrivaient pas à gérer une idée nouvelle. Ils connaissaient très bien les embeddings de mots et la manière dont ils étaient générés.
  word2vec n’introduisait pas énormément de concepts nouveaux ; ce qui le distinguait, c’est qu’il était simple, rapide et de bonne qualité. Le logiciel et les vecteurs pré-entraînés étaient plus faciles d’accès et d’utilisation que les approches existantes.
Il y a bien quatre « strong reject », mais ils semblent tous avoir été écrits par le même reviewer, au même moment et avec le même contenu. N’est-ce pas simplement un seul rejet ?
Et je me demande aussi pourquoi seul le score de ce reviewer est visible.
Je me demande combien de personnes, parmi celles qui s’expriment ici avec beaucoup d’assurance sur la valeur ou l’inutilité du peer review, ont réellement participé au processus à la fois comme auteurs et comme reviewers. Et encore plus combien ont déjà joué le rôle d’éditeur, qui doit intégrer et synthétiser plusieurs reviews en une recommandation unique.
Il existe de nombreux espaces pour partager des recherches ou des idées sans peer review formel, arXiv/bioRxiv en étant des exemples emblématiques. Si l’on rejette le peer review lui-même, les alternatives semblent largement disponibles.
- C’est Internet, donc sur n’importe quel sujet, une bonne partie des certitudes les plus fortes vient de personnes qui ont très peu d’expérience ou de compétence dans le domaine.
  Comme c’est HN, c’est probablement un peu mieux que la moyenne, mais en même temps cela sera aussi biaisé vers des gens en train de procrastiner. Il suffit d’en tenir compte.
Quand j’étais étudiant, j’avais créé pour un cours un petit système qui corrigeait du texte à partir de quelques heuristiques.
Le professeur de ce cours m’a proposé de soumettre, pendant l’été, un article à une conférence locale pour expliquer le système et les résultats. Je l’ai rédigé avec son aide, mais il a été rejeté d’emblée pour des raisons du type la grammaire est mauvaise. La conférence se tenait au Brésil, mais l’article devait être en anglais. J’étais étudiant et je pensais que mon anglais était vraiment mauvais.
Le professeur m’a dit d’envoyer un e-mail au relecteur pour obtenir des retours, puis de corriger et de soumettre à nouveau. J’ai donc demandé précisément quels paragraphes prêtaient à confusion, et il m’a envoyé des fragments de phrases manifestement incorrects. Sauf qu’il s’agissait des phrases avant correction dans des exemples montrant l’avant/après de mon système.
J’ai essayé d’expliquer que c’étaient les passages censés contenir des fautes de grammaire, mais la réponse a été : « corrigez vos erreurs d’anglais et soumettez à nouveau ». Après deux ou trois autres tentatives, j’ai fini par abandonner.
- Cela rappelle les anecdotes vécues par Feynman au Brésil. En particulier, on peut chercher « I was invited to give a talk at the Brazilian Academy of Sciences », mais si vous ne l’avez pas lu, l’ensemble vaut la peine.
  https://southerncrossreview.org/81/feynman-brazil.html
- C’est exactement le genre de chose qui fait lever les yeux au ciel. Cela dit, si vous voulez quand même publier, vous pouvez le mettre sur arXiv et demander à l’intelligence collective de HN de vous recommander un lieu de soumission approprié.
  Si vous n’avez pas accès à arXiv, il suffit de trouver un garant : <https://info.arxiv.org/help/endorsement.html>. Envoyez un e-mail bref et poli, en privilégiant la concision plutôt que les formules de politesse. Quelque chose comme : « En yyyy, j’ai écrit à l’université un article sur la correction grammaticale automatique, et il a été rejeté par Venue à cause des erreurs de grammaire dans les figures. Je souhaite toujours le publier. Pourriez-vous parrainer mon compte arXiv ? Et pourriez-vous aussi me recommander un lieu de soumission approprié ? » suffit. Pour la demande de parrainage, suivez les instructions du site d’arXiv.
- J’ai été relecteur et il m’est arrivé d’écrire des avis similaires.
  Un article est un exercice de transmission d’information au lecteur. Si l’écriture rend cette information très difficile à comprendre pour le lecteur, alors, quelle que soit la qualité des idées sous-jacentes, l’article n’a guère d’utilité et n’est pas adapté à une publication.
  Le rôle d’un relecteur n’est pas de réécrire l’article pour le rendre compréhensible. Il n’en a pas le temps, et ce n’est pas son travail.
  Écrire n’est pas facile, et rédiger des articles techniques est une compétence vraiment difficile à acquérir. Mais c’est nécessaire pour que la recherche soit utile.
  Pour être franc, on dirait que le professeur qui a proposé d’essayer d’écrire l’article n’a pas correctement joué son rôle, et vous a fait perdre du temps. Si ce travail méritait d’être publié, il aurait dû consacrer du temps à le mettre sous une forme publiable ; sinon, il n’aurait pas dû le proposer au départ.
J’ai signalé le titre, car il prête à confusion. Les quatre strong reject venaient d’un seul auteur.
Ils ont été listés quatre fois pour une raison inconnue, mais c’est probablement une bizarrerie d’OpenReview. L’état réel affiché par la page est : 2 unknown avec un long texte, 1 weak reject, 1 strong reject.
Le fil de reviews ressemble à un fil Show HN qui a mal tourné, si on commence en bas et qu’on remonte.
Lorsque l’article a d’abord reçu des questions et des retours négatifs, les auteurs ont répondu par des mises à jour qui titillaient légèrement les relecteurs. Ils ont répondu : « nous accueillons volontiers la discussion… une contribution majeure qui semble avoir été manquée dans certaines reviews est qu’il est possible de calculer de bonnes représentations vectorielles de mots avec des modèles très peu profonds ».
La réponse à cette mise à jour a été : « Les modifications et la réfutation ne répondent pas aux problèmes soulevés par les relecteurs. Dans sa forme actuelle, je pense que l’article ne devrait pas être accepté. Évaluation de la qualité : Strong reject. Niveau de confiance : le relecteur a des connaissances sur le sujet. »

Word2Vec a reçu quatre verdicts de « rejet ferme » à l’ICLR 2013

Estimation efficace de représentations vectorielles de mots

Avis

L’avis de GN⁺

À lire aussi

1 commentaires

Avis sur Hacker News