16 points par taekim34 2026-05-12 | 13 commentaires | Partager sur WhatsApp

LoPE est une technique qui consiste à insérer Lorem ipsum dolor sit amet ... au début du prompt pendant l’entraînement RL. Elle résout le problème de « zero-advantage », où le signal d’apprentissage devient nul lorsque tous les échantillons échouent sur des problèmes difficiles.

Résultats clés :

  • +4,62 points en moyenne sur les benchmarks de mathématiques avec Qwen3-4B
  • amélioration relative de 22 % sur l’AMC 2023
  • seule méthode à franchir 50 problèmes difficiles sur lesquels toutes les méthodes existantes avaient échoué

Points de lecture

La raison pour laquelle un « texte qui ressemble à une langue mais n’a pas de sens », basé sur le latin, est efficace, ainsi que le mécanisme par lequel il perturbe la trajectoire de raisonnement de base du modèle pour garantir une plus grande diversité d’exploration, sont particulièrement intéressants.

13 commentaires

 
gooksangom6394 2026-05-12

« Hibou n°158, vous pouvez le faire ? »
« … mon instructeur, c’est trop pour moi… »
« Lorem ipsum ! Vous pouvez le faire ? »
« Aaah !!! Oui, je peux le faire ! »

 
sonic0987 2026-05-12

Ah ah ah ah ah ah ah ah ah ah ah

 
epics 2026-05-12

MDRRRR

 
taekim34 2026-05-12

🤣🤣🤣🤣 J’ai explosé de rire

 
mammal 2026-05-12

C’est intéressant. En gros, ils ajoutent des phrases que le modèle peut ignorer, un peu comme une seed, pour élargir l’espace d’exploration lors du sampling.

 
taekim34 2026-05-12

Exactement. C’est amusant et fascinant à la fois qu’une nouvelle perspective aussi inattendue soit proposée, tout en améliorant réellement les performances.

 
ide127 2026-05-21

On peut peut-être aussi l’interpréter comme le signe que les modèles actuels sont en situation de surapprentissage, et qu’il reste donc une marge pour réduire encore davantage la capacité des modèles.

 
happing94 2026-05-12

Donc ce n’était pas qu’une impression : écrire des prompts avec des fautes comme un sauvage améliore vraiment les performances

 
taekim34 2026-05-13

Hahaha, pourquoi êtes-vous tous aussi drôles ?

 
aliveornot 2026-05-12

Le principe se tient, mais c’est surprenant. Pourquoi les performances ont-elles augmenté au lieu de baisser ?

 
taekim34 2026-05-12

À mon avis, c’est peut-être un peu comparable au fait que, chez un humain, quand on essaie de résoudre un problème difficile, le fait de se « remettre en route mentalement » puis de reprendre la réflexion depuis le début permet parfois de trouver la solution ? Ce n’est que mon avis perso haha

 
somang04 2026-05-12

Je me demande : si on applique ça, est-ce qu’on pourrait aussi obtenir des résultats significatifs dans un apprentissage plus général ?? J’ai hâte..

 
taekim34 2026-05-12

J’aimerais bien essayer moi aussi. ^^
Il y a quelque temps, il y avait aussi une étude montrant que si on répétait 2 fois exactement le même prompt (même si cela n’a pas de sens), on obtenait de meilleurs résultats. Une sorte d’impression de faire un rappel une fois de plus… Comme je l’ai écrit en commentaire sur le post de aliverornot, j’ai l’impression que cela sert à relancer la réflexion. C’est peut-être un peu comparable au fait que des mathématiciens, lorsqu’ils butent sur un problème difficile, posent un instant leur stylo pour aller faire une promenade… haha