1 points par GN⁺ 4 시간 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Reconfiguration du jeu de déduction classique Bataille navale sous forme de questions-réponses en langage naturel afin de construire un banc d’essai mesurant la capacité des agents IA à poser de bonnes questions dans des environnements incertains
  • Le jeu repose sur une structure avec un capitaine (captain) qui interroge sur la position des navires cachés, et un observateur (spotter) qui répond en temps réel ; les données de parties jouées par plus de 40 personnes ont servi à créer le jeu de données BattleshipQA
  • Même sans préentraînement, de grands modèles comme GPT-5 ont gagné en moins de tours que les humains, tandis que les petits modèles se montraient maladroits pour produire des questions utiles, d’où l’application d’une stratégie d’inférence Monte Carlo
  • Llama 4 Scout est passé d’un taux de victoire de 8 % contre des humains à 82 % après amélioration, dépassant GPT-5 pour un coût d’environ 1 %
  • La démonstration qu’un petit modèle peut surpasser un grand modèle avec un meilleur rapport coût-efficacité suggère un potentiel pour les domaines de découverte scientifique nécessitant une recherche de solution rare (needle-in-a-haystack)

Contexte de la recherche : les limites de l’exploration d’information par les agents IA

  • En 2026, les attentes autour des agents IA sont plus élevées que jamais, avec des modèles de langage (LM) utilisés pour des tâches bien définies comme le service client ou le développement logiciel
  • Les domaines comme le diagnostic médical ou la découverte scientifique, où il faut explorer un vaste espace de solutions dans des environnements incertains, restent difficiles pour les LM
  • Des chercheurs du MIT CSAIL et de la Harvard SEAS ont choisi Bataille navale, déjà utilisé en sciences cognitives pour étudier l’exploration d’information humaine, afin d’analyser les problèmes clés des LM dans des situations à haut risque

Le jeu Collaborative Battleship et le jeu de données BattleshipQA

  • Le jeu a été reconstruit autour d’échanges en langage naturel ; un participant joue le rôle de capitaine, qui interroge sur la position des navires cachés, tandis qu’un coéquipier joue l’observateur, qui répond en temps réel
  • Plus de 40 personnes ont joué ensemble, permettant de collecter questions et réponses oui/non pour constituer le jeu de données BattleshipQA
  • Ces données servent de référence pour tester des LM récents comme GPT-5 et des modèles plus compacts comme Llama 4 Scout
  • Même sans préentraînement, les meilleurs LM pouvaient « gagner » la partie en moins de tours qu’un humain, alors que les petits systèmes se montraient bien moins rationnels

Mieux poser ses questions — stratégie d’inférence Monte Carlo

  • Le problème central est que de nombreux modèles ne parviennent pas à produire des questions utiles
  • Chaque modèle a reçu une stratégie d’inférence Monte Carlo mesurant, à chaque réponse, la probabilité que chaque option soit correcte, ce qui a permis de battre des joueurs ordinaires quelle que soit la taille du modèle
  • Le LM traite les hypothèses possibles comme des particules (particles) distinctes et, après chaque réponse de l’observateur, augmente le poids des hypothèses qui semblent les plus plausibles
    • Le mécanisme agit comme une balle de jeu qui gonfle ou rétrécit à chaque tour, aidant le capitaine à extraire bien davantage d’informations de l’observateur
  • Llama 4 Scout, qui n’atteignait que 8 % de victoires contre des humains en tant que petit modèle, est monté à 82 % après amélioration de la stratégie d’inférence, dépassant GPT-5 pour un coût d’environ 1 %

Répondre plus précisément — conversion en code Python

  • GPT-5 s’est montré un observateur fiable, mais les petits systèmes avaient tendance à se tromper sur la position des navires
  • Les questions du capitaine ont été automatiquement transformées en commandes encodées pour pousser le LM jouant l’observateur à vérifier sa réponse, ce qui a amélioré la précision moyenne de 15 %
    • Exemple : « Y a-t-il un navire de deux cases dans la colonne 1 ? » → conversion en commande explorant la zone concernée et évaluant la largeur de la pièce du jeu
  • En donnant des instructions claires dans le langage Python, particulièrement bien compris par les modèles, le taux de bonnes réponses a nettement augmenté
    • Le modèle léger GPT-4o-mini a progressé d’environ 30 %, tandis que le grand modèle Claude 4 Opus a gagné environ 8 points
  • En s’appuyant sur le succès de la stratégie d’auto-formalization, où le LM génère du code pour vérifier une solution, les chercheurs suggèrent qu’une amélioration des capacités d’exploration et de collecte d’information pourrait mener à de meilleures solutions

Extension à d’autres jeux — Guess Who?

  • La même technique a été appliquée à Guess Who?, où il faut identifier un personnage caché en réduisant 100 possibilités
  • Llama 4 Scout est passé de 30 % à plus de 72 %, et GPT-4o de 62 % à 90 %, GPT-5 tenant dans chaque cas le rôle d’observateur
  • Les modèles continuent toutefois d’avoir du mal à répondre à des questions complexes par rapport aux humains
    • GPT-5 bat un joueur moyen de bataille navale et s’améliore légèrement avec la technique, mais contrairement aux échecs, les joueurs experts restent difficiles à battre pour tous les modèles

Défis restants et orientations futures

  • Les agents IA montrent un potentiel pour les recherches needle-in-a-haystack, où il faut trouver une solution rare parmi un très grand nombre d’options
    • Ils pourraient servir d’excellents assistants de recherche pour des tâches scientifiques comme l’identification de structures moléculaires de composés
  • Collaborative Battleship reste un banc d’essai relativement simple ; il faudra des validations supplémentaires dans des environnements complexes où le nombre d’options à considérer est plus élevé
  • Les chercheurs prévoient d’étudier les effets de la collaboration humain-IA, d’utiliser un fine-tuning fondé sur la simulation de parties, et d’obtenir des capacités de raisonnement plus avancées grâce à davantage de ressources de calcul
  • À mesure que les agents gagnent en autonomie, les problèmes sociaux comme le suivi d’une base commune, la résolution des malentendus ou l’adaptation au partenaire deviennent les plus difficiles ; selon les chercheurs, le vrai goulot d’étranglement n’est pas seulement de calculer la question optimale, mais d’exploiter au mieux la réponse via un raisonnement pratique

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.