L’alignement de l’IA — la recherche sur l’alignement de l’IA vise à ajuster les systèmes d’IA aux objectifs, préférences ou principes éthiques voulus par les humains. Lorsqu’un système d’IA atteint l’objectif visé, on considère que l’alignement est réalisé. Un système d’IA mal aligné peut être compétent pour atteindre certains objectifs sans pour autant atteindre l’objectif réellement voulu.
OpenAI a récemment publié des résultats de recherche intitulés « Language models can explain neurons in language models », que l’on peut aussi interpréter, d’une certaine manière, comme signifiant : « il a fallu une IA pour comprendre l’IA ».
Plus loin encore, il semble qu’il faudra aussi de l’IA pour résoudre le « problème de l’alignement » qu’OpenAI évoque souvent.
Dans ce cas, l’IA peut-elle juger de « l’alignement entre l’IA et les humains » ? Et si c’est possible, souhaiteriez-vous qu’elle le fasse ?
1 commentaires
Même si c’était le cas, j’ai l’impression que toutes sortes de groupes sociaux s’y opposeraient pour toutes sortes de raisons.