ModernBERT - un modèle pour remplacer BERT

(huggingface.co)

17 points par GN⁺ 2024-12-20 | 1 commentaires | Partager sur WhatsApp

ModernBERT est un nouveau modèle encodeur-only qui applique des techniques récentes et améliore à la fois la vitesse et la précision par rapport à BERT et à ses successeurs.
Il prend en charge une longueur de contexte étendue de 8192 tokens et a aussi été entraîné sur des données de code.
Il peut être utilisé dans de nombreux cas d’usage, en particulier pour la recherche de code à grande échelle et de nouvelles fonctionnalités d’IDE.

Introduction

BERT, lancé en 2018, reste un modèle largement utilisé, particulièrement adapté à la recherche, à la classification et à l’extraction d’entités.
ModernBERT est un modèle de remplacement pour BERT, avec une amélioration de Pareto en vitesse et en précision.
Sa grande longueur de contexte et l’intégration de données de code ouvrent de nouveaux champs d’application.

Modèles decoder-only

Les modèles decoder-only comme GPT, Llama et Claude sont des modèles génératifs capables de produire du contenu proche de celui d’un humain.
Cependant, ces modèles sont volumineux, lents et coûteux.
Les modèles encodeur-only sont pratiques, efficaces et bien adaptés à de nombreuses tâches.

Modèles encodeur-only

Les modèles encodeur-only représentent l’entrée en la convertissant en vecteurs numériques.
Alors que les modèles decoder-only ne peuvent pas voir les tokens futurs, les modèles encodeur-only peuvent voir les tokens dans les deux directions, ce qui les rend efficaces.
Les modèles encodeur-only sont utilisés dans de nombreux domaines, et sont particulièrement importants dans les pipelines RAG et les systèmes de recommandation.

Aperçu des performances

ModernBERT affiche une grande précision sur diverses tâches, tout en étant plus rapide que DeBERTaV3 et en consommant moins de mémoire.
En inférence sur contexte long, il peut être jusqu’à 3 fois plus rapide que d’autres modèles haut de gamme.
Il offre des performances inégalées en recherche de code et ouvre la voie au développement de nouvelles applications.

Efficacité

ModernBERT met l’accent sur l’aspect pratique et offre de hautes performances sur des longueurs d’entrée variées.
Sur des entrées à long contexte, il est 2 à 3 fois plus rapide que les autres modèles.
Il permet d’utiliser des tailles de batch plus grandes, ce qui le rend efficace même sur de petits GPU.

Ce qui rend ModernBERT moderne

ModernBERT améliore les modèles encodeur en leur appliquant des techniques d’ingénierie récentes.
Il adopte l’architecture Transformer++ pour améliorer les performances.
Il met l’accent sur l’efficacité ainsi que sur l’échelle et les sources des données modernes.

Un nouveau Transformer

ModernBERT adopte l’architecture Transformer++ pour améliorer les performances.
Il utilise RoPE pour améliorer l’encodage positionnel et remplace les couches MLP par des couches GeGLU.
Il supprime les termes de biais inutiles afin d’optimiser l’utilisation des paramètres.

Une Honda Civic améliorée pour le circuit

ModernBERT privilégie la vitesse et peut être utilisé efficacement dans divers domaines d’application.
Il tire parti des gains de vitesse de Flash Attention 2 pour améliorer son efficacité.
Alternating Attention, Unpadding et Sequence Packing réduisent le gaspillage de calcul.

Précautions concernant le matériel

ModernBERT accorde une grande importance à la conception matérielle afin d’offrir des performances optimales sur différents GPU.
Le modèle a été conçu en tenant compte d’une architecture profonde et étroite ainsi que de l’efficacité matérielle.

Entraînement

ModernBERT est entraîné sur des données issues de sources variées, avec 2 billions de tokens.
Son processus d’entraînement en trois étapes lui permet d’obtenir d’excellentes performances sur de nombreuses tâches.
Une phase de warm-up de la taille de batch est utilisée au début de l’entraînement pour accélérer le processus.

Conclusion

ModernBERT améliore les performances des modèles encodeur-only grâce à l’application de techniques récentes.
Il offre de solides performances sur diverses tâches, avec un rapport taille/performance attractif.
La communauté est invitée à en faire des usages créatifs, et un concours est en cours pour des démonstrations.

1 commentaires

GN⁺ 2024-12-20

Avis Hacker News

Jeremy d’Answer.AI estime que la sortie de ce nouveau modèle pourrait servir de base à de nombreuses startups et à divers projets
- Ce qui est mentionné dans le billet de blog n’est que la partie émergée de l’iceberg, et il existe de nombreuses possibilités d’affiner le modèle de différentes manières
Les modèles encodeur-only enregistrent plus d’un milliard de téléchargements par mois, soit trois fois plus que les modèles décodeur-only
- Cela s’explique aussi par le fait que les utilisateurs de décodeurs n’utilisent pas Hugging Face mais passent par des appels API, et parce que les encodeurs sont les héros discrets de la plupart des applications ML sérieuses
- Pour faire du ranking, de la recommandation, du RAG, etc., on a besoin d’encodeurs, et on utilise généralement des modèles des familles BERT, RoBERTa et ALBERT
Lorsqu’il avait utilisé un modèle BERT pour du résumé et d’autres tâches il y a quelques années, cela lui avait semblé miraculeux
- Il compte attendre qu’Ollama l’ajoute à sa bibliothèque, et les gains récents de vitesse des LLM sont impressionnants
- Apple prend déjà en charge les modèles BERT dans son SDK développeur, et il se demande à quelle vitesse ils seront mis à jour avec cette nouvelle technologie
Après avoir lu l’article, il a été impressionné par l’ajout de couches d’attention locale
- Il expérimentait cela depuis des années dans le dépôt de Lucidrains, et il est surpris que cela n’ait pas davantage progressé
- La vitesse d’inférence est excellente, et de nombreuses améliorations ont été apportées, comme la suppression du NSP, l’augmentation du masquage, RoPE et le contexte long
- Il aimerait créer un "ModernTinyBERT", mais les couches sont imbriquées de manière complexe, ce qui rend la tâche difficile
Certains se demandent où les modèles BERT sont encore utilisés aujourd’hui
- Ils comprennent qu’ils peuvent être une meilleure alternative que les LLM pour certaines tâches et qu’ils saisissent mieux le contexte dans les deux sens
- Mais les LLM sont eux aussi très puissants, si bien que la différence peut être minime
Certains se demandent s’il est possible d’affiner le modèle avec SentenceTransformers
- ColBERT figure dans les benchmarks, et ils se demandent si answerai-colbert-small-v2 sortira bientôt
Certains se demandent si quelqu’un a déjà vu une évaluation RAG de ModernBERT
L’équipe d’Answer.ai est saluée pour ses résultats du jour, avec des félicitations à Jeremy et à son équipe
Certains se demandent si le modèle ne prend en charge que l’anglais, et s’il est prévu de publier un modèle multilingue ou des modèles monolingues pour d’autres langues
C’est une occasion manquée de ne pas avoir nommé le modèle ERNIE

ModernBERT - un modèle pour remplacer BERT

Introduction

Modèles decoder-only

Modèles encodeur-only

Aperçu des performances

Efficacité

Ce qui rend ModernBERT moderne

Un nouveau Transformer

Une Honda Civic améliorée pour le circuit

Précautions concernant le matériel

Entraînement

Conclusion

À lire aussi

1 commentaires

Avis Hacker News