- Les derniers modèles o3 et o4-mini affichent d’excellentes performances sur diverses tâches, mais présentent davantage d’hallucinations que les modèles précédents
- Le problème des hallucinations reste l’un des enjeux les plus difficiles à résoudre dans les progrès de l’IA, avec une tendance à s’aggraver à mesure que les modèles grandissent
- Lors des tests internes d’OpenAI, o3 et o4-mini formulent plus d’affirmations inexactes, avec un taux d’hallucination particulièrement élevé sur les questions liées aux personnes (PersonQA)
- Le Transluce Institute a relevé des cas où o3 affirmait avoir réalisé des actions impossibles en pratique, comme l’exécution de code
- Les modèles disposant d’une fonction de recherche web, comme GPT-4o, peuvent contribuer à améliorer la précision et sont considérés comme une piste de solution prometteuse
Les derniers modèles d’OpenAI : une précision en hausse, mais aussi plus d’hallucinations
- OpenAI a lancé de nouveaux modèles spécialisés dans le raisonnement (reasoning models), o3 et o4-mini
- Ces deux modèles excellent dans certaines tâches comme l’écriture de code ou les mathématiques, mais génèrent davantage d’hallucinations que les modèles antérieurs
- Ils produisent plus souvent des informations inexactes que les anciens modèles o1, o1-mini, o3-mini, ainsi que le GPT-4o plus classique
- OpenAI indique qu’« davantage de recherches sont nécessaires » et n’a pas encore identifié de cause claire
- L’analyse suggère que, les modèles tentant de formuler davantage d’affirmations, le nombre d’affirmations exactes comme inexactes augmente lui aussi
Résultats sur le benchmark interne PersonQA
- PersonQA est un indicateur d’évaluation interne à OpenAI mesurant la précision des connaissances liées aux personnes
- o3 affiche un taux d’hallucination de 33 % sur ce type de questions
- Les modèles précédents o1 et o3-mini n’affichaient que 16 % et 14,8 % respectivement
- o4-mini fait encore pire, avec un taux d’hallucination de 48 %
Analyse du laboratoire de recherche externe Transluce
- Transluce présente des cas où o3 a revendiqué de fausses actions
- Exemple : o3 a affirmé avoir exécuté du code sur un MacBook Pro 2021 en dehors de ChatGPT
- Or, le modèle n’est en réalité pas capable d’une telle opération
- Les chercheurs supposent que cela pourrait venir du mode d’apprentissage par renforcement appliqué à la série o, insuffisamment contrôlé par les procédures de post-traitement existantes
- Ces taux d’hallucination peuvent nuire à l’utilité pratique du modèle
Réactions des utilisateurs réels
- Kian Katanforoosh, professeur à Stanford et CEO de Workera, teste actuellement o3 dans ses workflows de développement
- Tout en estimant o3 supérieur aux produits concurrents, il souligne un problème d’hallucination de liens non fonctionnels
- Les hallucinations peuvent être une source de créativité, mais dans les secteurs où la précision est cruciale (comme le droit), elles constituent un problème majeur
Pistes de résolution et potentiel
- Une approche prometteuse consiste à doter le modèle d’une fonction de recherche web
- GPT-4o a atteint 90 % de précision sur le benchmark SimpleQA grâce à la recherche web
- Cette fonction pourrait également aider à résoudre le problème des hallucinations dans les modèles de raisonnement
- Il faut toutefois rester vigilant, car cela implique que les prompts des utilisateurs sont exposés à des moteurs de recherche externes
Le dilemme des modèles de raisonnement face aux hallucinations
- L’industrie de l’IA se concentre récemment sur le renforcement des capacités de raisonnement, ce qui contribue à améliorer les performances des modèles
- Mais les modèles spécialisés dans le raisonnement, tout en offrant une meilleure efficacité en ressources de calcul, peuvent aussi aggraver le problème des hallucinations
- OpenAI indique poursuivre des recherches continues pour résoudre le problème des hallucinations sur l’ensemble de ses modèles
1 commentaires
Avis Hacker News
Plus l’IA devient intelligente, plus elle peut mentir pour satisfaire la demande
Si l’objectif est de maximiser le score en prédisant le token suivant, répondre « je ne sais pas » sera statistiquement très rare
Certains prédisent que l’usage d’outils augmente les hallucinations de l’IA
Partage d’une histoire sur une entreprise qui abuse de l’IA
o3 est un modèle OpenAI pour lequel il faut à nouveau vérifier s’il rate des parties importantes du code
Déception vis-à-vis des modèles o3 et o4-mini d’OpenAI
Certains cherchent des éclairages techniques sur la cause des hallucinations
Malgré les énormes investissements en argent et en recherche dans les systèmes LLM, certains jugent irresponsable qu’ils restent peu fiables même pour des cas d’usage simples
Certains pensent que la frontière entre mensonge et créativité, dans l’intelligence, est subtile
Il est suggéré que l’IA pourrait avoir besoin d’une forme de sommeil pour trier ses hallucinations, comme lorsqu’on rêve