- Le langage quotidien réellement utilisé n’est pas régulier et reste désordonné
- Les linguistes pensaient qu’il fallait une sorte de « colle » appelée « grammaire » pour contenir ce caractère arbitraire
- Mais les grands modèles de langage d’IA manient la langue à partir d’énormes volumes de données linguistiques et, de façon surprenante, y parviennent en grande partie sans l’aide de la grammaire
- Le choix des mots dans les phrases qu’ils produisent peut parfois sembler étrange ou dénué de sens, mais elles sont le plus souvent grammaticalement correctes
- Pour ce qui est de prédire le mot suivant, ces modèles d’IA et le cerveau humain fonctionnent de manière similaire
- On pourrait penser que c’est parce que GPT-3 a été entraîné sur l’équivalent de 20 000 années d’expérience linguistique humaine, mais
des recherches montrent qu’un GPT-2 entraîné sur environ 100 millions de mots est lui aussi capable de se comporter d’une manière proche de celle du cerveau humain pour anticiper le mot suivant
(100 millions de mots correspondent à peu près au volume entendu par un enfant moyen pendant 10 ans)
- Cela montre qu’une simple exposition suffit pour apprendre suffisamment bien une langue afin de produire des phrases grammaticalement correctes, et que l’apprentissage peut suivre un mode proche du traitement effectué par le cerveau humain
- Pendant des années, de nombreux linguistes ont cru que l’apprentissage du langage était impossible sans un modèle grammatical intégré
- Mais les nouveaux modèles d’IA montrent que ce n’est pas le cas. Ils démontrent que la capacité à produire un langage grammatical peut s’apprendre par l’expérience linguistique
- Autrement dit, dans l’apprentissage du langage chez les enfants, l’expérience linguistique est plus importante que la grammaire
8 commentaires
Ce n’est pas parce qu’AlphaGo joue bien au go qu’il n’y a pas de règles au go.
C’est vrai, la façon la plus fiable d’apprendre une langue, c’est d’accumuler beaucoup d’expérience. Mais, comme le montre l’IA, le postulat de base, c’est une « quantité énorme d’expérience ». Pour l’intelligence artificielle, cela représente pas moins de 10 ans d’exposition. L’être humain n’a sans doute pas besoin d’aller jusque-là, mais quand on est étranger au pays, il est difficile de se créer une telle expérience de la langue. C’est vrai aussi que, pour apprendre l’anglais de la manière la plus rapide, la plus précise et la plus efficace, il suffit de partir étudier à l’étranger pendant quelques années. Mais la plupart des gens n’ont pas cette possibilité, pour des raisons économiques ou autres ; il y a bien plus de familles où ce n’est tout simplement pas faisable. C’est pour cela qu’on apprend la grammaire. Cela dit, dans l’éducation coréenne, la grammaire est trop mise en avant, et au lieu d’être utilisée comme un outil au service de l’apprentissage de la langue, elle est étudiée pour résoudre des questions de grammaire aux contrôles scolaires. C’est peut-être un point qu’il faudrait corriger.
Je pense au contraire que la stratégie de simple exposition est une méthode inefficace qui exige l’équivalent de dix ans d’exposition.
| Le fait qu’on puisse apprendre une langue suffisamment bien, simplement par l’exposition, au point de produire des phrases grammaticalement assez bonnes
c’est exactement ce que j’ai ressenti en voyant les résultats de GPT.
C’est intéressant ! J’ai l’impression que, dans ce contexte, on peut aussi appliquer de manière similaire les connaissances d’autres domaines, y compris les langues. En revanche, il est regrettable que, comme tout le monde le sait, l’éducation dans notre pays repose encore principalement sur la mémorisation uniforme de connaissances standardisées. Du point de vue du système, il est difficile et coûteux de proposer à chacun une expérience adaptée, mais j’espère qu’en voyant les résultats de l’IA née de l’imitation des cellules cérébrales, nous pourrons envisager une meilleure direction.
Par-dessus tout, je trouve tellement triste pour les enfants qui apprennent dans la morosité à cause des adultes 😢 Alors que l’essence même de l’apprentissage devrait être le plaisir !
En fait, je me posais déjà la question quand je recevais des cours d’anglais étant enfant. Est-ce que, quand nous avons appris le coréen, nous avons commencé par la grammaire ?
Même aujourd’hui, quand on regarde le contenu grammatical enseigné aux étrangers qui apprennent le coréen, c’est difficile et ça sonne peu naturel. Et pourtant, ils parlent très bien coréen.
Intéressant. L’ère de Chomsky serait-elle en train de toucher à sa fin ?
À mon avis, c’est plutôt l’ère de Chomsky qui arrive. Pour Chomsky, la grammaire ne s’apprend pas : elle est au contraire innée, ou plus précisément produite par une capacité innée. Et l’IA actuelle, du point de vue de Chomsky, relève d’un apprentissage luxueux que seul un ordinateur peut se permettre. Chomsky souligne qu’un nourrisson n’apprend pas une langue en assimilant des centaines de milliers de mots. Sa théorie vise justement à expliquer la capacité des nourrissons à acquérir le langage avec seulement 1 à 2 ans d’expérience linguistique, très limitée par rapport au machine learning ; tandis que le machine learning actuel fait apprendre la langue à partir de dix années de données, en partant de l’idée que, puisqu’un ordinateur n’est pas un être humain, il n’a pas besoin d’apprendre le langage comme un nourrisson.