Comment provoquer des hallucinations chez ChatGPT o3

computerphilosopher · 2025-04-18T00:04:44+09:00

Alors qu’une expérience était en cours sur des méthodes pour provoquer des hallucinations chez ChatGPT o1 et Gemini 2.5, o3 est sorti Contrairement à o1, o3 est un puissant modèle multimodal doté de fonctions comme la recherche sur Internet, la reconnaissance d’images et l’exécution de code. Pourtant, il a été observé qu’il donnait parfois des réponses fausses qu’un humain n’aurait probablement pas fournies. Hypothèse centrale : contrairement aux humains, les LLM n’ont pas d’organes sensoriels. Ils seraient donc vulnérables aux questions qui nécessitent des informations liées à la vision ou au sens de l’orientation. Questions utilisées pour provoquer des hallucinations Décrire Les Mangeurs de pommes de terre de Van Gogh Mieux que o1, qui se trompait jusque dans la composition des personnages, mais toujours erroné dans la description détaillée Donner les noms des notes de la mélodie de la sonate pour piano K545 de Mozart Même après avoir trouvé l’image originale via la recherche Internet, il n’a pas réussi à répondre correctement Il semble que le module visuel ne reconnaisse pas les partitions Résultats d’itinéraire à pied A donné une mauvaise réponse alors même que les résultats de recherche incluaient Naver Map Problème de bascule de clavier coréen/anglais (ex. : cotwlvlxl -> 챗지피티) Répond correctement quand l’entrée est courte, puis génère des réponses inventées quand la taille augmente Comme s’il abandonnait en plein milieu du problème en mode « bon, tant pis » Les algorithmes traditionnels n’ont pas de « moment tant pis ». Ils tournent simplement longtemps avant d’atteindre un timeout Conclusion L’absence de véritables organes sensoriels reste encore une faiblesse réelle des LLM Le fait de ne pas réussir à résoudre un problème n’est pas un défaut. Le vrai défaut, c’est d’inventer une fausse réponse. Au lieu de se concentrer uniquement sur le renforcement des capacités de raisonnement et sur de nouvelles fonctionnalités, on aimerait que les éditeurs leur inculquent une métacognition leur permettant de dire qu’ils ne savent pas quand ils ne savent pas

(velog.io/@skynet)

3 points par computerphilosopher 2025-04-18 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Alors qu’une expérience était en cours sur des méthodes pour provoquer des hallucinations chez ChatGPT o1 et Gemini 2.5, o3 est sorti
Contrairement à o1, o3 est un puissant modèle multimodal doté de fonctions comme la recherche sur Internet, la reconnaissance d’images et l’exécution de code. Pourtant, il a été observé qu’il donnait parfois des réponses fausses qu’un humain n’aurait probablement pas fournies.
Hypothèse centrale : contrairement aux humains, les LLM n’ont pas d’organes sensoriels. Ils seraient donc vulnérables aux questions qui nécessitent des informations liées à la vision ou au sens de l’orientation.
Questions utilisées pour provoquer des hallucinations
- Décrire Les Mangeurs de pommes de terre de Van Gogh
  - Mieux que o1, qui se trompait jusque dans la composition des personnages, mais toujours erroné dans la description détaillée
- Donner les noms des notes de la mélodie de la sonate pour piano K545 de Mozart
  - Même après avoir trouvé l’image originale via la recherche Internet, il n’a pas réussi à répondre correctement
  - Il semble que le module visuel ne reconnaisse pas les partitions
- Résultats d’itinéraire à pied
  - A donné une mauvaise réponse alors même que les résultats de recherche incluaient Naver Map
- Problème de bascule de clavier coréen/anglais (ex. : cotwlvlxl -> 챗지피티)
  - Répond correctement quand l’entrée est courte, puis génère des réponses inventées quand la taille augmente
  - Comme s’il abandonnait en plein milieu du problème en mode « bon, tant pis »
  - Les algorithmes traditionnels n’ont pas de « moment tant pis ». Ils tournent simplement longtemps avant d’atteindre un timeout
Conclusion
- L’absence de véritables organes sensoriels reste encore une faiblesse réelle des LLM
- Le fait de ne pas réussir à résoudre un problème n’est pas un défaut. Le vrai défaut, c’est d’inventer une fausse réponse.
- Au lieu de se concentrer uniquement sur le renforcement des capacités de raisonnement et sur de nouvelles fonctionnalités, on aimerait que les éditeurs leur inculquent une métacognition leur permettant de dire qu’ils ne savent pas quand ils ne savent pas

Comment provoquer des hallucinations chez ChatGPT o3

À lire aussi

Aucun commentaire pour le moment.