Entraîner un ModernBERT 100 fois plus petit à partir des capacités de raisonnement de DeepSeek R1

(link.medium.com)

7 points par sigridjineth 2025-01-30 | Aucun commentaire pour le moment. | Partager sur WhatsApp

En utilisant des labels générés à partir de DeepSeek R1, il est possible d’entraîner un modèle ModernBERT à prédire si « un article présente un nouveau jeu de données ». Le modèle ainsi obtenu peut être utilisé immédiatement et, dans un environnement de service en production, il n’a pas besoin des ressources massives d’un LLM lorsqu’il ne fait que de l’inférence. Malgré cela, comme il hérite indirectement des capacités de raisonnement d’un LLM pour un problème de classification nécessitant des labels, il conserve un bon niveau de précision.

En particulier, dans le RAG, lorsque de simples correspondances de texte ne suffisent pas et qu’un certain niveau de raisonnement est nécessaire, ou lorsque les labels sont trop rares ou difficiles à créer, il est utile d’entraîner un modèle ModernBERT à partir de labels générés par DeepSeek.

Entraîner un ModernBERT 100 fois plus petit à partir des capacités de raisonnement de DeepSeek R1

À lire aussi

Aucun commentaire pour le moment.