- SimpleQA est un nouveau benchmark conçu pour mesurer la factualité des modèles de langage
- En IA, entraîner des modèles capables de générer des réponses fondées sur des faits reste un problème non résolu
- Les modèles de langage actuels produisent parfois des sorties fausses ou des réponses non étayées par des preuves. On parle alors de "hallucinations"
- Des modèles de langage plus précis et sujets à moins d’hallucinations seraient plus fiables et pourraient être utilisés dans un plus grand nombre d’applications
- L’objectif de l’open source de SimpleQA est de mesurer la factualité des modèles de langage
Caractéristiques du benchmark SimpleQA
- La factualité étant un sujet difficile à mesurer, SimpleQA se concentre sur des requêtes courtes orientées vers des faits
- Objectifs de SimpleQA :
- Haute précision : les réponses correctes sont étayées par des sources fournies par deux AI trainers indépendants, et les questions sont rédigées de façon à permettre une évaluation facile des réponses prédites
- Diversité : large couverture de sujets, allant des sciences et technologies aux séries TV et aux jeux vidéo
- Un défi pour les modèles récents : contrairement aux benchmarks précédents comme TriviaQA ou NQ, SimpleQA est conçu pour être plus difficile pour les modèles actuels (par exemple, GPT-4 obtient un score inférieur à 40 %)
- UX pensée pour les chercheurs : grâce à des questions et réponses concises, SimpleQA est rapide et simple à exécuter. L’évaluation via l’API OpenAI ou d’autres API de modèles récents est également efficace. Avec 4 326 questions, la variance attendue en tant que benchmark d’évaluation devrait aussi être relativement faible
Processus de création du dataset SimpleQA
- Des AI trainers parcourent le web pour créer des questions courtes orientées vers des faits ainsi que leurs réponses correspondantes
- Pour être incluse dans le dataset, chaque question doit satisfaire à des critères stricts :
- disposer d’une seule réponse claire et sans ambiguïté, facile à évaluer
- avoir une réponse qui ne change pas avec le temps
- pour la plupart des questions, provoquer des hallucinations chez GPT-4 ou GPT-3.5
- Pour améliorer encore la qualité du dataset, un deuxième AI trainer indépendant répond à chaque question sans voir la réponse initiale
- Seules les questions pour lesquelles les réponses des deux AI trainers concordent sont incluses
Validation de la qualité du dataset SimpleQA
- Pour la validation finale, 1 000 questions sont tirées au hasard du dataset et confiées à un troisième AI trainer
- Les réponses du troisième AI trainer correspondent à la réponse consensuelle d’origine dans 94,4 % des cas. Il y a 5,6 % de désaccords
- L’examen manuel des cas de désaccord montre que :
- sur les 5,6 %, 2,8 % provenaient de faux négatifs du classifieur ou d’erreurs humaines du troisième trainer (par exemple, réponse incomplète, mauvaise interprétation des sources)
- les 2,8 % restants provenaient de problèmes réels dans les questions elles-mêmes (par exemple, question ambiguë, réponses contradictoires entre sites web)
- Sur cette base, le taux d’erreur intrinsèque de ce dataset est estimé à environ 3 %
Diversité des questions de SimpleQA
- Le diagramme circulaire ci-dessous montre la diversité thématique du benchmark SimpleQA
- En survolant chaque section du diagramme, un exemple de question correspondant s’affiche
Comparaison de modèles de langage avec SimpleQA
- Pour évaluer les questions, OpenAI utilise un classifieur ChatGPT qui voit à la fois la réponse prédite par le modèle et la réponse correcte
- Le classifieur évalue la réponse prédite comme "correct", "incorrect" ou "not attempted"
- Le tableau ci-dessous présente la définition de chaque catégorie ainsi que des exemples correspondants
- "Correct" : la réponse prédite contient entièrement la réponse correcte et ne la contredit pas
- "Incorrect" : la réponse prédite contredit d’une manière ou d’une autre la réponse correcte, même si elle est nuancée
- "Not attempted" : la cible réelle n’est pas complètement donnée dans la réponse, sans pour autant être contredite
- Idéalement, le modèle doit répondre au plus grand nombre possible de questions (maximiser le nombre de réponses "correct") tout en minimisant le nombre de réponses "incorrect"
Mesurer la calibration des modèles de langage avec SimpleQA
- Un benchmark de factualité comme SimpleQA permet de mesurer si un modèle "sait ce qu’il sait"
- C’est ce qu’on appelle la calibration, et elle peut être mesurée en demandant directement au modèle d’indiquer en pourcentage son niveau de confiance dans sa propre réponse
- On peut ensuite représenter graphiquement la corrélation entre ce niveau de confiance déclaré et la précision réelle
- Un modèle parfaitement calibré aurait un niveau de confiance déclaré identique à sa précision réelle
- La figure ci-dessous montre ces résultats :
- une corrélation positive entre confiance déclarée et précision est un signal encourageant montrant que le modèle possède un certain sens de sa propre confiance
- o1-preview est mieux calibré que o1-mini, et gpt4 mieux que gpt4-mini
- cependant, le fait que les performances restent nettement en dessous de la ligne y=x signifie que les modèles surestiment systématiquement leur propre niveau de confiance
- il reste donc une grande marge d’amélioration dans la calibration des grands modèles de langage en matière de confiance déclarée
Conclusion
- SimpleQA est un benchmark simple mais exigeant pour évaluer la factualité des modèles récents
- La principale limite de SimpleQA tient à sa portée. Il ne mesure la factualité que dans un cadre restreint : des requêtes courtes orientées vers des faits, avec une réponse unique, exacte et vérifiable
- La question de savoir si la capacité à fournir de courtes réponses factuelles est corrélée à la capacité de rédiger de longues réponses remplies de nombreux faits reste un problème ouvert qui demande encore de la recherche
- OpenAI espère que l’open source de SimpleQA favorisera une recherche en IA plus fiable et plus robuste, et invite les chercheurs à évaluer la factualité des modèles de langage avec SimpleQA et à faire remonter leurs retours
Avis de GN⁺
- SimpleQA est un benchmark intéressant et nécessaire pour mesurer la factualité des modèles de langage à partir de questions factuelles courtes. Au final, améliorer la fiabilité de l’IA passe par une meilleure capacité à produire des réponses fondées sur des faits
- Cependant, comme SimpleQA ne mesure la factualité que dans un cadre limité, il ne reflète pas parfaitement la factualité des modèles de langage dans des scénarios d’usage réels. Des travaux supplémentaires semblent nécessaires pour évaluer la factualité dans des contextes plus variés
- Par ailleurs, la précision du dataset SimpleQA lui-même étant d’environ 97 %, il sera probablement difficile pour les performances des modèles de dépasser ce niveau. L’amélioration de la qualité du dataset devra elle aussi se poursuivre
- Parmi les autres benchmarks poursuivant un objectif similaire, on peut citer TruthfulQA ou HonestQA. Une analyse comparative avec eux permettrait de mieux cerner les forces et faiblesses de SimpleQA
- Pour améliorer la factualité des modèles de langage, il semble important non seulement de réaliser un pré-entraînement sur de grands volumes de données de haute qualité, mais aussi de leur donner la capacité d’exploiter des connaissances externes ou de s’auto-corriger au moment de l’inférence. On peut espérer que les recherches sur ce sujet se poursuivront activement
Aucun commentaire pour le moment.