LoPE : ajouter au début un texte latin aléatoire améliore le raisonnement des LLM ! (article arXiv)
(dev.to)LoPE est une technique qui consiste à insérer Lorem ipsum dolor sit amet ... au début du prompt pendant l’entraînement RL. Elle résout le problème de « zero-advantage », où le signal d’apprentissage devient nul lorsque tous les échantillons échouent sur des problèmes difficiles.
Résultats clés :
- +4,62 points en moyenne sur les benchmarks de mathématiques avec Qwen3-4B
- amélioration relative de 22 % sur l’AMC 2023
- seule méthode à franchir 50 problèmes difficiles sur lesquels toutes les méthodes existantes avaient échoué
Points de lecture
La raison pour laquelle un « texte qui ressemble à une langue mais n’a pas de sens », basé sur le latin, est efficace, ainsi que le mécanisme par lequel il perturbe la trajectoire de raisonnement de base du modèle pour garantir une plus grande diversité d’exploration, sont particulièrement intéressants.
13 commentaires
« Hibou n°158, vous pouvez le faire ? »
« … mon instructeur, c’est trop pour moi… »
« Lorem ipsum ! Vous pouvez le faire ? »
« Aaah !!! Oui, je peux le faire ! »
Ah ah ah ah ah ah ah ah ah ah ah
MDRRRR
🤣🤣🤣🤣 J’ai explosé de rire
C’est intéressant. En gros, ils ajoutent des phrases que le modèle peut ignorer, un peu comme une seed, pour élargir l’espace d’exploration lors du sampling.
Exactement. C’est amusant et fascinant à la fois qu’une nouvelle perspective aussi inattendue soit proposée, tout en améliorant réellement les performances.
On peut peut-être aussi l’interpréter comme le signe que les modèles actuels sont en situation de surapprentissage, et qu’il reste donc une marge pour réduire encore davantage la capacité des modèles.
Donc ce n’était pas qu’une impression : écrire des prompts avec des fautes comme un sauvage améliore vraiment les performances
Hahaha, pourquoi êtes-vous tous aussi drôles ?
Le principe se tient, mais c’est surprenant. Pourquoi les performances ont-elles augmenté au lieu de baisser ?
À mon avis, c’est peut-être un peu comparable au fait que, chez un humain, quand on essaie de résoudre un problème difficile, le fait de se « remettre en route mentalement » puis de reprendre la réflexion depuis le début permet parfois de trouver la solution ? Ce n’est que mon avis perso haha
Je me demande : si on applique ça, est-ce qu’on pourrait aussi obtenir des résultats significatifs dans un apprentissage plus général ?? J’ai hâte..
J’aimerais bien essayer moi aussi. ^^
Il y a quelque temps, il y avait aussi une étude montrant que si on répétait 2 fois exactement le même prompt (même si cela n’a pas de sens), on obtenait de meilleurs résultats. Une sorte d’impression de faire un rappel une fois de plus… Comme je l’ai écrit en commentaire sur le post de aliverornot, j’ai l’impression que cela sert à relancer la réflexion. C’est peut-être un peu comparable au fait que des mathématiciens, lorsqu’ils butent sur un problème difficile, posent un instant leur stylo pour aller faire une promenade… haha