ChatGPT est un JPEG flou du Web

xguru · 2023-02-14T13:46:32+09:00

Un texte écrit par Ted Chiang, considéré comme l’un des meilleurs auteurs de science-fiction actuels L’idée est que ChatGPT stocke l’information en la compressant, ce qui revient à regarder un JPEG flou plutôt que l’original En 2013, on a découvert qu’un photocopieur Xerox modifiait certains chiffres en d’autres lors de la copie de plans Le problème venait du processus de numérisation pour la copie : avec la compression avec perte JBIG2, la machine ne stockait qu’un seul exemplaire de chiffres semblables avant de le réutiliser Il n’est pas évident que ce cas soit directement comparable à ChatGPT d’OpenAI, mais un scénario similaire peut se produire lorsqu’on stocke les informations du Web Imaginons que l’on perde l’accès à Internet On voudrait créer une copie en compressant tous les textes du Web Mais comme on ne disposerait que de 1 % de l’espace nécessaire au stockage, il faudrait compresser et donc utiliser un algorithme avec perte On pourrait alors tout rechercher, mais le texte serait tellement compressé qu’il serait impossible de retrouver des citations exactes Il faut voir ChatGPT comme un JPEG flou de l’ensemble des textes présents sur le Web Comme un JPEG, il conserve une grande partie de l’information du Web, mais pas la séquence de bits parfaitement identique Tout ce que l’on obtient n’est qu’une approximation Mais cette approximation est généralement acceptée parce qu’elle se présente sous la forme du texte grammaticalement excellent produit par ChatGPT Cette compression avec perte n’est pas, à elle seule, une manière de comprendre les capacités de ChatGPT Mais c’est aussi une manière de comprendre les « hallucinations » de ChatGPT et ses réponses absurdes sur la vérité Ces hallucinations sont suffisamment plausibles, comme les chiffres erronés générés par le photocopieur Xerox, au point qu’il faut les comparer à l’original pour les identifier comme fausses Les grands modèles de langage identifient les régularités statistiques du texte Une expression comme « l’offre est faible » apparaît à proximité d’une phrase comme « les prix augmentent » Un chatbot qui a souvent observé cette relation répondra par une hausse des prix lorsqu’on l’interrogera sur les effets d’une pénurie d’offre Peut-on vraiment dire qu’un LLM (grand modèle de langage) comprend la théorie économique simplement parce qu’il a accumulé d’innombrables corrélations entre termes économiques ? Les modèles comme ChatGPT n’effectuent pas de compression sans perte. Ils ne reconstruisent donc pas exactement le texte d’origine GPT-3 obtient presque toujours la bonne réponse pour l’addition ou la soustraction de nombres à 2 chiffres, mais si les nombres ont 5 chiffres, sa précision se dégrade fortement et tombe à 10 % C’est parce qu’il n’existe pas beaucoup de pages Web contenant du texte comme « 245 + 821 » Même en agrégeant une quantité immense d’informations, il n’a pas su en déduire les « principes de l’arithmétique » Imaginez ce que serait ChatGPT s’il utilisait un algorithme sans perte Il répondrait alors aux questions en citant directement des passages des pages Web pertinentes On penserait probablement que le logiciel n’est qu’une légère amélioration par rapport aux moteurs de recherche existants, et on serait moins impressionné Le fait que ChatGPT reformule les contenus du Web au lieu de les citer mot pour mot donne l’impression qu’il exprime ses idées avec ses propres mots, comme un élève qui ne récite pas simplement ce qu’il a lu Cela crée l’illusion que ChatGPT comprend les documents De nombreux usages ont été proposés pour les LLM, et les considérer comme des JPEG flous permet d’évaluer ce qui est adapté ou non Les grands modèles de langage peuvent-ils remplacer la recherche existante ? Pour avoir confiance dans les LLM, il faudrait savoir qu’ils n’ont pas absorbé de propagande ni de théories du complot (autrement dit, qu’ils n’ont pas été entraînés sur des données étranges) Il faudrait savoir que le JPEG capture bien la bonne section du Web Mais même si le LLM ne contenait que les informations que nous voulons, le problème du flou subsisterait S’il existe un type de flou acceptable, ce serait celui qui consiste à reformuler l’information avec d’autres mots Mais il existe aussi un flou clairement inacceptable, qui ressemble à une falsification manifeste lorsqu’on cherche des faits On ne sait pas s’il est techniquement possible d’éliminer le flou inacceptable tout en conservant le flou acceptable, mais on espère le savoir dans un avenir proche Même s’il était possible d’empêcher les LLM de fabriquer des faux, faudrait-il les utiliser pour générer du contenu Web ? Cela n’a de sens que si notre objectif est uniquement de reconditionner des informations déjà disponibles sur le Web Certaines entreprises existent précisément pour faire cela, ce que nous appelons des fermes à contenu Le flou des LLM leur serait peut-être utile pour éviter la violation du droit d’auteur Mais, de manière générale, j’aimerais dire que ce qui est bon pour les fermes à contenu n’est pas bon pour les personnes qui cherchent de l’information La multiplication de ces reconditionnements rend déjà plus difficile le fait de trouver quelque chose en ligne Plus les textes générés par les LLM seront publiés sur le Web, plus le Web deviendra une version floue de lui-même On sait très peu de choses sur GPT-4, mais on peut supposer que chez OpenAI, lorsqu’ils ont rassemblé les textes nécessaires, ils ont essayé d’exclure les contenus générés par ChatGPT ou par d’autres LLM Si c’est vrai, cela confirmerait que l’analogie entre les LLM et la compression avec perte est pertinente Lorsqu’on recomprime plusieurs fois un JPEG, davantage d’informations sont perdues et davantage d’artefacts de compression apparaissent Comme autrefois lorsqu’on faisait une copie d’une copie, la qualité d’image ne faisait que se dégrader Les LLM peuvent-ils aider les humains à produire des créations originales ? À mon avis, partir d’une copie floue plutôt que de l’original n’est pas une bonne manière de faire naître de l’originalité Si vous êtes écrivain, vous produirez beaucoup de textes non originaux avant d’écrire quelque chose d’original Le temps et les efforts consacrés à ce travail non original ne sont pas perdus Au contraire, c’est ce qui vous permet finalement de créer quelque chose d’original Le temps passé à choisir les bons mots et à réorganiser les phrases pour qu’elles s’enchaînent bien vous apprend comment la prose transmet du sens Demander aux étudiants de rédiger une dissertation ne sert pas seulement à tester leur compréhension des documents Cela leur donne l’expérience d’exprimer clairement leurs pensées Il est possible qu’à l’avenir on puisse construire une IA capable d’écrire de bons textes en se fondant uniquement sur sa propre expérience du monde Ce serait un moment important, mais le jour où cela arrivera dépasse notre horizon de prévision Si l’on devait stocker une copie d’Internet sur un serveur à l’espace limité sans accès au réseau, alors un grand modèle de langage comme ChatGPT pourrait être une bonne solution « Mais nous n’avons pas perdu l’accès à Internet. Pourquoi utiliser un JPEG flou alors que l’original existe ? »

(newyorker.com)

41 points par xguru 2023-02-14 | 26 commentaires | Partager sur WhatsApp

Un texte écrit par Ted Chiang, considéré comme l’un des meilleurs auteurs de science-fiction actuels
L’idée est que ChatGPT stocke l’information en la compressant, ce qui revient à regarder un JPEG flou plutôt que l’original
En 2013, on a découvert qu’un photocopieur Xerox modifiait certains chiffres en d’autres lors de la copie de plans
Le problème venait du processus de numérisation pour la copie : avec la compression avec perte JBIG2, la machine ne stockait qu’un seul exemplaire de chiffres semblables avant de le réutiliser
Il n’est pas évident que ce cas soit directement comparable à ChatGPT d’OpenAI, mais un scénario similaire peut se produire lorsqu’on stocke les informations du Web
Imaginons que l’on perde l’accès à Internet
- On voudrait créer une copie en compressant tous les textes du Web
- Mais comme on ne disposerait que de 1 % de l’espace nécessaire au stockage, il faudrait compresser et donc utiliser un algorithme avec perte
- On pourrait alors tout rechercher, mais le texte serait tellement compressé qu’il serait impossible de retrouver des citations exactes
Il faut voir ChatGPT comme un JPEG flou de l’ensemble des textes présents sur le Web
Comme un JPEG, il conserve une grande partie de l’information du Web, mais pas la séquence de bits parfaitement identique
Tout ce que l’on obtient n’est qu’une approximation
Mais cette approximation est généralement acceptée parce qu’elle se présente sous la forme du texte grammaticalement excellent produit par ChatGPT
Cette compression avec perte n’est pas, à elle seule, une manière de comprendre les capacités de ChatGPT
Mais c’est aussi une manière de comprendre les « hallucinations » de ChatGPT et ses réponses absurdes sur la vérité
Ces hallucinations sont suffisamment plausibles, comme les chiffres erronés générés par le photocopieur Xerox, au point qu’il faut les comparer à l’original pour les identifier comme fausses
Les grands modèles de langage identifient les régularités statistiques du texte
Une expression comme « l’offre est faible » apparaît à proximité d’une phrase comme « les prix augmentent »
Un chatbot qui a souvent observé cette relation répondra par une hausse des prix lorsqu’on l’interrogera sur les effets d’une pénurie d’offre
Peut-on vraiment dire qu’un LLM (grand modèle de langage) comprend la théorie économique simplement parce qu’il a accumulé d’innombrables corrélations entre termes économiques ?
Les modèles comme ChatGPT n’effectuent pas de compression sans perte. Ils ne reconstruisent donc pas exactement le texte d’origine
GPT-3 obtient presque toujours la bonne réponse pour l’addition ou la soustraction de nombres à 2 chiffres, mais si les nombres ont 5 chiffres, sa précision se dégrade fortement et tombe à 10 %
C’est parce qu’il n’existe pas beaucoup de pages Web contenant du texte comme « 245 + 821 »
Même en agrégeant une quantité immense d’informations, il n’a pas su en déduire les « principes de l’arithmétique »
Imaginez ce que serait ChatGPT s’il utilisait un algorithme sans perte
Il répondrait alors aux questions en citant directement des passages des pages Web pertinentes
On penserait probablement que le logiciel n’est qu’une légère amélioration par rapport aux moteurs de recherche existants, et on serait moins impressionné
Le fait que ChatGPT reformule les contenus du Web au lieu de les citer mot pour mot donne l’impression qu’il exprime ses idées avec ses propres mots, comme un élève qui ne récite pas simplement ce qu’il a lu
Cela crée l’illusion que ChatGPT comprend les documents
De nombreux usages ont été proposés pour les LLM, et les considérer comme des JPEG flous permet d’évaluer ce qui est adapté ou non
Les grands modèles de langage peuvent-ils remplacer la recherche existante ?
- Pour avoir confiance dans les LLM, il faudrait savoir qu’ils n’ont pas absorbé de propagande ni de théories du complot (autrement dit, qu’ils n’ont pas été entraînés sur des données étranges)
- Il faudrait savoir que le JPEG capture bien la bonne section du Web
- Mais même si le LLM ne contenait que les informations que nous voulons, le problème du flou subsisterait
- S’il existe un type de flou acceptable, ce serait celui qui consiste à reformuler l’information avec d’autres mots
- Mais il existe aussi un flou clairement inacceptable, qui ressemble à une falsification manifeste lorsqu’on cherche des faits
- On ne sait pas s’il est techniquement possible d’éliminer le flou inacceptable tout en conservant le flou acceptable, mais on espère le savoir dans un avenir proche
Même s’il était possible d’empêcher les LLM de fabriquer des faux, faudrait-il les utiliser pour générer du contenu Web ?
- Cela n’a de sens que si notre objectif est uniquement de reconditionner des informations déjà disponibles sur le Web
- Certaines entreprises existent précisément pour faire cela, ce que nous appelons des fermes à contenu
- Le flou des LLM leur serait peut-être utile pour éviter la violation du droit d’auteur
- Mais, de manière générale, j’aimerais dire que ce qui est bon pour les fermes à contenu n’est pas bon pour les personnes qui cherchent de l’information
- La multiplication de ces reconditionnements rend déjà plus difficile le fait de trouver quelque chose en ligne
Plus les textes générés par les LLM seront publiés sur le Web, plus le Web deviendra une version floue de lui-même
On sait très peu de choses sur GPT-4, mais on peut supposer que chez OpenAI, lorsqu’ils ont rassemblé les textes nécessaires, ils ont essayé d’exclure les contenus générés par ChatGPT ou par d’autres LLM
Si c’est vrai, cela confirmerait que l’analogie entre les LLM et la compression avec perte est pertinente
Lorsqu’on recomprime plusieurs fois un JPEG, davantage d’informations sont perdues et davantage d’artefacts de compression apparaissent
Comme autrefois lorsqu’on faisait une copie d’une copie, la qualité d’image ne faisait que se dégrader
Les LLM peuvent-ils aider les humains à produire des créations originales ?
- À mon avis, partir d’une copie floue plutôt que de l’original n’est pas une bonne manière de faire naître de l’originalité
- Si vous êtes écrivain, vous produirez beaucoup de textes non originaux avant d’écrire quelque chose d’original
- Le temps et les efforts consacrés à ce travail non original ne sont pas perdus
- Au contraire, c’est ce qui vous permet finalement de créer quelque chose d’original
- Le temps passé à choisir les bons mots et à réorganiser les phrases pour qu’elles s’enchaînent bien vous apprend comment la prose transmet du sens
- Demander aux étudiants de rédiger une dissertation ne sert pas seulement à tester leur compréhension des documents
- Cela leur donne l’expérience d’exprimer clairement leurs pensées
Il est possible qu’à l’avenir on puisse construire une IA capable d’écrire de bons textes en se fondant uniquement sur sa propre expérience du monde
Ce serait un moment important, mais le jour où cela arrivera dépasse notre horizon de prévision
Si l’on devait stocker une copie d’Internet sur un serveur à l’espace limité sans accès au réseau, alors un grand modèle de langage comme ChatGPT pourrait être une bonne solution
« Mais nous n’avons pas perdu l’accès à Internet. Pourquoi utiliser un JPEG flou alors que l’original existe ? »

26 commentaires

bleu28 2023-02-26

J’ai essayé de poser plusieurs fois des questions avec des opérations d’addition et de soustraction sur plus de 5 chiffres, et il continue à donner des réponses exactes.
À partir de quel point est-ce que sa précision se dégrade ?

flaps3 2023-02-20

Ce que Ted Chiang néglige, c’est que la recherche Google, qui a été jusqu’ici le principal moyen d’explorer Internet, a vu sa qualité fortement se dégrader ces dernières années sous l’effet de la prolifération de contenus web médiocres.
Même si ChatGPT est un JPEG flou, si l’alternative n’est qu’une recherche Google saturée de bruit, alors il peut être rationnel d’utiliser ChatGPT comme meilleur moyen disponible pour obtenir immédiatement des informations.
On dit que « nous n’avons pas perdu l’accès à Internet », mais c’est précisément là que se trouve la prémisse erronée. Vu l’échelle gigantesque du web, perdre la capacité d’exploration revient pratiquement à perdre l’accès lui-même. À quoi bon avoir accès à quelque chose si l’on ne peut pas trouver l’information que l’on cherche ?
Autrement dit, on se rapproche d’une situation où il n’y a plus vraiment d’« original », et c’est, à mon avis, la raison pour laquelle les gens ressentent aujourd’hui le besoin d’utiliser un « JPEG flou ».

laeyoung 2023-02-16

Je pense que le commentaire laissé ci-dessous par lightgreenmaesil montre bien la différence entre le point de vue de Ted Chiang et celui des personnes qui se situent à l’opposé.

« Déjà, la taille est plus grande, et cela prend aussi plus de temps à consulter. Avec une photo, on le ressent peut-être moins, mais si l’on compare un livre entier à une page qui en résume l’essentiel, cela devient plus parlant. »

Quand on voit la popularité et le nombre de vues de choses comme les résumés de films en 15 minutes ou les résumés de livres sur YouTube, il est clair que les gens aiment ce genre de contenu. Les Shorts aussi. Mais si l’on se demande si ces résumés peuvent restituer pleinement l’œuvre originale, il semble juste de répondre non. Pour quelqu’un qui a été profondément touché par l’original, ce qui manque dans le résumé se fera fortement sentir.

Du point de vue d’un romancier comme Ted Chiang, ce que font ChatGPT et les LLM doit sans doute ressembler à la lecture de textes qui résument ses romans en une ou deux pages. Et quand il voit des gens dire — ou croire — que tout le roman est contenu dans ce court texte, il doit se demander si cela a vraiment du sens.

De la même manière, les réalisateurs ou les acteurs aimeraient-ils les gens qui ne regardent qu’un résumé de film de 15 minutes à la place de l’œuvre originale ? Les considéreraient-ils comme des personnes ayant vu leur œuvre ? Et plus encore, que se passerait-il si presque tout le monde finissait par percevoir un résumé de 15 minutes comme étant plus « filmique » que le vrai film ? Si, à cause de cela, il devenait impossible de faire des films, sur quels films ces résumés de 15 minutes pourraient-ils encore s’appuyer ?

Nous vivons à une époque où l’on aime consommer vidéos et textes sous forme résumée, rapide et compressée ; pourtant, fait intéressant, seule la musique semble rester intacte. Personne n’écoute de la musique résumée, ni en x2, ni en sautant les passages moins intéressants toutes les 10 secondes.

Alors, dans l’esprit du temps actuel, si j’ai écouté Ditto de NewJeans en x2 et en aperçu d’une minute, puis-je devenir fan de NewJeans ? Puis-je dire que j’ai écouté cette chanson même si je l’ai entendue sous une forme compressée et résumée ? Ou non ? Ou bien cela n’a-t-il aucune importance ?

fudiso 2023-02-15

Comme Ted Chiang lui-même a utilisé l’analogie du JPEG, une compression avec perte, pour expliquer les modèles de langage, même lorsqu’il existe un original, l’information comprimée reste nécessaire.
Et même si un modèle de langage est réentraîné sur les résultats qu’il a lui-même produits, la perte d’information est presque nulle. (Il n’y a pratiquement aucune mise à jour des paramètres internes du modèle. Comme il s’agit d’informations qu’il connaît déjà, cela n’a pas d’effet d’apprentissage.)

stdcarrot 2023-02-15

Il me semble qu’il y a une différence entre le texte original et la nuance de la traduction concernant la dernière question, et qu’en ne voyant que la traduction, beaucoup de commentaires s’éloignent sans doute de l’intention de l’original.

So just how much use is a blurry jpeg, when you still have the original?
Quelle utilité a un JPEG flou quand on a encore l’original ?

Pour moi, cela ressemble à une question sur l’utilité d’un JPEG lorsqu’on possède le fichier RAW,
mais en l’interprétant comme « pourquoi l’utiliser », cela donne l’impression d’un « il y a le RAW, alors à quoi bon un truc comme le JPEG ? ».

Bien sûr, dans la réalité, s’il y a une raison pour laquelle le JPEG est plus répandu que le raw, je pense que la question doit aussi être comprise dans cette perspective.

pseudojo 2023-02-15

Parfois, même la documentation officielle de l’open source ou celle d’AWS ne m’inspire pas confiance, au point qu’il faut vérifier en exécutant directement ou même en allant jusqu’à consulter le code source. Alors, pour ChatGPT, à plus forte raison… J’ai l’impression que plus la quantité d’informations augmente, plus la quantité de vérifications croisées que les humains doivent faire augmente inutilement.

daumkakao 2023-02-15

On n’arrive pas à distinguer le JPEG de l’original, si ?

laeyoung 2023-02-16

Cela dépend des caractéristiques de l’image et de son taux de compression. Quand on fait de la photo, on préfère généralement conserver l’original à part du JPEG. Plus tard, au moment de faire des retouches et des corrections, la marge de manœuvre n’a vraiment rien à voir entre un fichier JPEG et l’original.

https://www.keptlight.com/does-size-matter/

botplaysdice 2023-02-15

N’est-ce pas justement ce JPEG flou que la plupart des humains s’efforcent de produire en ce moment même pour gagner leur vie ?

namjun 2023-02-15

ChatGPT est vraiment impressionnant, mais il paraît trop humain, au point de sembler mal adapté à la recherche et à la transmission d’informations.

ahwjdekf 2023-02-15

Je comprends tout à fait l’idée que c’est comparable au fait de regarder un JPEG flou plutôt que l’original. Par exemple, quand on lit un ouvrage traduit, si l’interprétation du traducteur y est fortement reflétée, même si on a parfois l’impression au milieu que la traduction est étrange, si les mots semblent continuer à s’enchaîner de manière fluide et que le contexte global paraît à peu près correct, on tourne simplement les pages la plupart du temps (même si savoir si on a vraiment compris une fois la lecture terminée est une autre question). Mais cette traduction qui semble étrange peut aussi être complètement absurde, donc ce n’est pas un problème qu’on peut se permettre d’ignorer. Pour certains, ce genre de traduction peut être totalement inacceptable, tandis que pour d’autres, cela peut rester dans les limites du supportable.

norimsu 2023-02-15

Hum. La qualité d’image est vraiment médiocre.

tequila 2023-02-15

C’est peut-être aussi un avertissement. Moi aussi, je l’utilise dans mon travail, quand j’ai besoin de conseils ou simplement pour peaufiner une phrase, mais il lui arrive clairement de donner des réponses plausibles mais erronées. Et il est vrai que, pour savoir qu’une réponse est fausse, l’utilisateur doit souvent avoir des connaissances dans le domaine ou faire des recherches complémentaires. Il y a même parfois des erreurs qu’on ne repère qu’en regardant de très près. (Par exemple quand il génère du code en utilisant une fonction qui n’existe pas réellement.)
Jusqu’à ce que je découvre ce genre d’erreurs, je n’avais en réalité jamais envisagé que cette IA puisse me répondre ainsi. J’avais seulement imaginé qu’elle pourrait être incapable de répondre, ou donner une réponse complètement à côté de la plaque.

Quand on voit que même sur Stack Overflow, où il y a probablement beaucoup de gens qui comprennent relativement bien ce type de technologie, il y a eu peu à peu des frictions liées aux réponses produites par l’IA, on peut penser que la vérification parfaite par les utilisateurs n’a sans doute pas été aussi systématique qu’on pourrait le croire. La validation des données générées par l’IA nécessite une intervention humaine, et c’est clairement un travail qui demande du temps et des connaissances. Sinon, Microsoft n’aurait pas laissé passer les erreurs plausibles produites par sa propre IA. C’est pourquoi nous savons qu’il faut, pour l’instant, utiliser cette technologie comme un outil. Pourtant, quand on demande la météo du jour à l’IA de son téléphone, on ne part presque jamais du principe que la réponse pourrait être fausse à cause d’un bug ou d’une autre erreur. Si une IA comme ChatGPT évolue progressivement vers une IA généraliste étroitement intégrée à la vie quotidienne, n’y a-t-il pas de fortes chances que les utilisateurs acceptent ses réponses sans grand esprit critique ?

En ce moment, il y a beaucoup de cas dans les écoles où des essais sont rédigés par ChatGPT ou d’autres outils similaires. Il ne s’agit plus seulement de signaler des erreurs, de proposer des idées pour écrire, ou d’étoffer un texte : des cas où des élèves rendent, sans réelle réflexion sur le sujet, des réponses générées par l’IA en ne changeant que quelques mots, et obtiennent de très bonnes notes, ont même fait l’objet d’articles. Dans une situation où l’on est censé exprimer sa propre pensée à partir d’une recherche menée soi-même, confier à une IA la réflexion, la structure et la rédaction constitue clairement un nouveau paradigme.

Même en dehors de l’IA, il arrive souvent qu’une grande quantité d’informations erronées remonte dans les résultats sur Internet, et beaucoup de gens y croient sans vérification supplémentaire. Moi aussi, si je ne vérifiais pas les choses une par une, j’aurais sans doute souvent accepté par inadvertance des informations fausses.
On plaisante parfois en parlant d’« érosion des données » : quand une image circule sur Internet au format JPG et qu’elle est partagée de site en site, elle est souvent redimensionnée et recompressée encore et encore, jusqu’à ce que sa qualité devienne catastrophique. J’ai même déjà vu un fond blanc devenir bleuâtre.
J’ai l’impression que c’est ce type de dégradation de l’information qui est redouté. Comme on dit, la mauvaise monnaie chasse la bonne, non ?
Les sites de partage d’images débordent déjà d’illustrations générées par l’IA. Ce n’est pas mauvais en soi, mais si Internet finissait rempli d’articles approximatifs rédigés par l’IA, et que des IA s’appuyant sur ces contenus se remettaient ensuite à produire d’autres articles, à répétition, n’y aurait-il pas un risque d’accumulation progressive des distorsions dans l’information ? C’est la réflexion que je me fais.

rousseau 2023-02-15

Je lis de la SF depuis plus de 30 ans et je suis un vrai fan qui place L'Histoire de ta vie au sommet des nouvelles œuvres de SF que j’ai lues depuis près de 10 ans, mais du point de vue de quelqu’un qui travaille dans le secteur et qui est développeur depuis plus de 20 ans, c’est un propos que je ne peux qu’être amené à contester.

Fondamentalement, cette déclaration procède d’un point de vue qu’on peut qualifier d’arrogant. L’idée est que les gens, dans leur naïveté, vont se méprendre et croire que les plateformes d’IA comme ChatGPT ont atteint le domaine de la création, alors que moi, je sais que ce n’est pas le cas, et que je dois leur faire connaître la vérité par des paroles véridiques.

La véritable réalité, c’est que non seulement les professionnels du secteur, mais aussi la grande majorité des gens, savent très bien qu’il n’en est rien. Depuis AlphaGo, l’IA est depuis longtemps un sujet central pour le grand public. Tout le monde connaît plus ou moins ses capacités comme ses limites. Aujourd’hui, dans le monde du go par IA, il existe des monstres qui traiteraient AlphaGo comme un nourrisson, mais personne ne le vit comme un choc. Parce qu’on a déjà beaucoup appris sur ce que cela signifie et sur la manière dont il faut l’interpréter.

À mes yeux, cette déclaration de Ted Chiang est au contraire une erreur qui découle d’une ignorance et de préjugés envers le grand public. Si le public s’enthousiasme pour ChatGPT, ce n’est pas parce qu’il croit que cela remplacera notre activité intellectuelle. Tout le monde comprend très bien que cela va « assister » notre activité intellectuelle, et c’est ainsi que c’est utilisé. Des exemples de prompts sont partagés sous forme de manuels. On voit bien que sa nature d’outil est clairement comprise.

Comment les gens accueillent-ils les IA de génération d’images ? Les frottent-ils comme une lampe magique pour qu’elles créent à leur place ? En ce moment, environ 90 % des images IA que je vois sont des images suggestives. Les mains sont peut-être floues parce qu’elles sont encore mal dessinées, mais pour le reste, tout est propre et net.

J’aurais beaucoup à dire, mais justement parce que j’aurais trop à dire, je vais m’arrêter à une seule remarque.

« Monsieur Kim. Je voudrais me permettre de vous donner un conseil. Ce n’est rien d’autre que ceci : n’utilisez pas trop les fonctions Excel, hein ? S’il y a de la praticité, alors le danger augmente. Pour tuer un bœuf, il faut une lame à sa mesure, mais faut-il vraiment un couteau pour tuer un poulet ?...... À mon avis, on peut être rapide en calcul mental, bien sûr cela dépend des gens, mais un calculateur peut être utile. Je voulais simplement dire : est-ce qu’un ordinateur, ce n’est pas un couteau pour tuer un bœuf ? »

lightgreenmaesil 2023-02-15

La dernière question était mal posée. Le point de comparaison ne devrait pas être un JPEG flou, mais une photo JPEG résumée en mots. Par exemple, un texte comme « un chien qui tire la langue » face à la photo réelle correspondante. C’est aussi une forme de compression avec perte. La grande majorité des informations a été supprimée et compressée en quelques octets de texte seulement. Mais parce que la photo originale existe, cela veut-il dire qu’une telle compression avec perte n’a aucune valeur ? Non. Déjà, elle prend plus de place et demande plus de temps à consulter. Pour une photo, la différence de temps est peut-être moins tangible, mais si l’on compare un livre entier avec un résumé d’une page de ses idées essentielles, cela devient plus concret.

Alors, s’il existe un article scientifique, y a-t-il une raison de consulter son résumé, qui en est une compression avec perte ? Bien sûr, et cela peut être très utile selon les cas. S’il y a un livre et qu’on a besoin d’un résumé portant sur une affirmation précise mentionnée dans l’un de ses chapitres, évidemment qu’il y a une raison de l’utiliser. D’une certaine manière, quand les humains vont à l’école, assistent à des dizaines d’heures de cours, puis les résument et les organisent sous forme de notes ou de cheating sheets, c’est aussi une énorme compression avec perte, qui transforme de la vidéo en texte. L’apprentissage lui-même est une compression avec perte. Est-ce que cela est inutile ?

L’auteur a utilisé la métaphore de la « compression » appliquée aux images comme si c’était quelque chose de très trivial et sans grande portée, mais en réalité la compression est une opération extrêmement essentielle et significative dans l’apprentissage humain. Dans le cas des photos, les méthodes de compression sont relativement bien comprises, mais la compression du langage est une tâche très non-trivial et importante.

cenoch 2023-02-15

La réponse à la dernière question est

Même si l’information que nous fournit GPT est une version JPEG dégradée,
ce que nous voulons, au fond, c’est le plus souvent une version en collage, et l’effort nécessaire pour composer ce collage est considérable.

Comme il prend cet effort de collage à sa charge, et que, parfois, la qualité d’ensemble dépasse même ce que mes propres mains permettraient d’obtenir,
il vaut largement la peine d’accepter cette perte de qualité.

Je ne suis peut-être pas en position de me permettre de juger l’imagination et la compréhension de la technologie de Ted Chiang,
mais j’ai l’impression qu’il s’agit globalement d’un résultat qui surinterprète certains traits de cette technologie
et passe à côté de ses caractéristiques vraiment importantes.

johtta88 2023-02-14

La réponse à la dernière question n’est-elle pas simplement : « parce que c’est pratique » ?
Je ne sais pas si c’est une analogie pertinente, mais c’est un peu comme le fait qu’aujourd’hui beaucoup semblent très satisfaits de versions compressées de l’original, comme le binge-watching de films ou de séries.

regentag 2023-02-14

C’est une très bonne analogie, mais j’ai l’impression qu’elle est impossible à comprendre si l’on ne travaille pas dans le secteur.
Comment pourrait-on l’expliquer à des non-spécialistes, y compris à ceux qui se donnent des airs d’experts ?

yhkee0404 2023-02-14

La super-résolution peut être meilleure que l’original.

wedding 2023-02-15

Bien sûr que cela peut être meilleur, mais l’article ne souligne-t-il pas justement que ce n’est pas systématiquement le cas ?

yhkee0404 2023-02-15

On a dit que cela pouvait s’améliorer, mais bien sûr pas systématiquement. Pourtant, l’article se contente d’affirmer que la résolution est floue, tout en excluant la possibilité inverse, celle de devenir plus nette. On améliore aussi la qualité des images de vidéosurveillance et on colorise même le noir et blanc, alors que le JPEG du titre, lui, ne prend pas ce genre de choses en charge.

seunghaekim 2023-02-15

L’amélioration de la qualité d’image, c’est-à-dire l’amélioration de la qualité d’une vidéo de CCTV, n’est pas vraiment une amélioration sous certains aspects. Elle procure aux humains la « sensation » que l’image a été améliorée. C’est la même chose lorsqu’on ajoute de la couleur à une image en noir et blanc. En « générant » une image colorisée à partir du noir et blanc, on procure aux humains la « sensation » d’une image en couleur. C’est pourquoi l’« amélioration » traitée par les technologies actuelles d’amélioration de la qualité d’image doit être abordée sous un angle très étroit. Comparer cela au fait que JPEG ne prend pas en charge ce genre de chose pour l’amélioration de la qualité des images de CCTV est une comparaison très injuste.

yhkee0404 2023-02-15

Merci pour votre commentaire. Mais selon la même logique, le fait d’être flou non plus n’est pas, sous un certain angle, une simple dégradation : en « générant » quelque chose de dégradé, on produit aussi une certaine « sensation ». C’est donc un sujet qui ne devrait être abordé que sous un angle très étroit, et comparer les capacités mathématiques de ChatGPT à la dégradation JPEG me paraît aussi très injuste, non ? Quand il s’agit d’augmenter la quantité d’information elle-même, il ne me semble pas nécessaire de faire intervenir des notions comme la « sensation » humaine. De la même manière que compresser une image couleur en noir et blanc réduit sa taille, remettre de la couleur à l’inverse ressemble moins à une compression qu’à une décompression, voire à une restauration de l’original, puisque cela augmente non seulement la taille en bits mais aussi la quantité d’information elle-même. Dire que c’est flou simplement parce que ce n’est pas l’original me semble être une comparaison bien plus abusive. Rien qu’en lisant le titre, on pourrait croire à tort que DALL-E ne produit que des images légères et basse résolution, et qu’il est incapable de faire de la HD. Comme le dit l’article, lorsqu’on recompresse un JPEG à répétition, sa taille diminue généralement, la qualité baisse et l’image devient inévitablement floue. Mais avec le deep learning, même si certains calculs mathématiques sur de faibles volumes de données peuvent paraître flous, il existe aussi à l’inverse des domaines où les résultats sont au contraire plus nets et plus précis. J’aimerais que ce point ne soit pas négligé.

seunghaekim 2023-02-15

Je n’ai rien ignoré de ce que vous avez dit. Vous créez l’original, et le fait que, moi, je produise « non pas l’original, mais quelque chose qui est perçu comme l’original » vous a apparemment mis très en colère. Quoi qu’il en soit, c’est un simple fait, alors qu’est-ce que vous voulez que j’y fasse ?

yhkee0404 2023-02-15

Je n’ai pourtant pas exprimé une émotion disant que c’était extrêmement agaçant ou profondément injuste, n’est-ce pas ? Je me suis simplement inquiété du fait que le public voie ce titre d’article attribué à Ted Chiang et passe à côté de l’essentiel. Heureusement, vous semblez être du même avis pour la plupart, et c’est tant mieux si vous le connaissez personnellement. Je suis d’accord sur le fait qu’il est difficile de recréer de l’analogique en numérique. Mais comme il s’agit de texte, c’est hors sujet.

xguru 2023-02-14

Le problème des photocopieurs Xerox, c’est aussi quelque chose que j’avais vu dans les 52 choses que j’ai apprises en 2022 #33.
Le fait que ça se relie à ça le rend intéressant, et d’un coup tout devient limpide !

ChatGPT est un JPEG flou du Web

À lire aussi

26 commentaires