- ModernBERT est un nouveau modèle encodeur-only qui applique des techniques récentes et améliore à la fois la vitesse et la précision par rapport à BERT et à ses successeurs.
- Il prend en charge une longueur de contexte étendue de 8192 tokens et a aussi été entraîné sur des données de code.
- Il peut être utilisé dans de nombreux cas d’usage, en particulier pour la recherche de code à grande échelle et de nouvelles fonctionnalités d’IDE.
Introduction
- BERT, lancé en 2018, reste un modèle largement utilisé, particulièrement adapté à la recherche, à la classification et à l’extraction d’entités.
- ModernBERT est un modèle de remplacement pour BERT, avec une amélioration de Pareto en vitesse et en précision.
- Sa grande longueur de contexte et l’intégration de données de code ouvrent de nouveaux champs d’application.
Modèles decoder-only
- Les modèles decoder-only comme GPT, Llama et Claude sont des modèles génératifs capables de produire du contenu proche de celui d’un humain.
- Cependant, ces modèles sont volumineux, lents et coûteux.
- Les modèles encodeur-only sont pratiques, efficaces et bien adaptés à de nombreuses tâches.
Modèles encodeur-only
- Les modèles encodeur-only représentent l’entrée en la convertissant en vecteurs numériques.
- Alors que les modèles decoder-only ne peuvent pas voir les tokens futurs, les modèles encodeur-only peuvent voir les tokens dans les deux directions, ce qui les rend efficaces.
- Les modèles encodeur-only sont utilisés dans de nombreux domaines, et sont particulièrement importants dans les pipelines RAG et les systèmes de recommandation.
Aperçu des performances
- ModernBERT affiche une grande précision sur diverses tâches, tout en étant plus rapide que DeBERTaV3 et en consommant moins de mémoire.
- En inférence sur contexte long, il peut être jusqu’à 3 fois plus rapide que d’autres modèles haut de gamme.
- Il offre des performances inégalées en recherche de code et ouvre la voie au développement de nouvelles applications.
Efficacité
- ModernBERT met l’accent sur l’aspect pratique et offre de hautes performances sur des longueurs d’entrée variées.
- Sur des entrées à long contexte, il est 2 à 3 fois plus rapide que les autres modèles.
- Il permet d’utiliser des tailles de batch plus grandes, ce qui le rend efficace même sur de petits GPU.
Ce qui rend ModernBERT moderne
- ModernBERT améliore les modèles encodeur en leur appliquant des techniques d’ingénierie récentes.
- Il adopte l’architecture Transformer++ pour améliorer les performances.
- Il met l’accent sur l’efficacité ainsi que sur l’échelle et les sources des données modernes.
Un nouveau Transformer
- ModernBERT adopte l’architecture Transformer++ pour améliorer les performances.
- Il utilise RoPE pour améliorer l’encodage positionnel et remplace les couches MLP par des couches GeGLU.
- Il supprime les termes de biais inutiles afin d’optimiser l’utilisation des paramètres.
Une Honda Civic améliorée pour le circuit
- ModernBERT privilégie la vitesse et peut être utilisé efficacement dans divers domaines d’application.
- Il tire parti des gains de vitesse de Flash Attention 2 pour améliorer son efficacité.
- Alternating Attention, Unpadding et Sequence Packing réduisent le gaspillage de calcul.
Précautions concernant le matériel
- ModernBERT accorde une grande importance à la conception matérielle afin d’offrir des performances optimales sur différents GPU.
- Le modèle a été conçu en tenant compte d’une architecture profonde et étroite ainsi que de l’efficacité matérielle.
Entraînement
- ModernBERT est entraîné sur des données issues de sources variées, avec 2 billions de tokens.
- Son processus d’entraînement en trois étapes lui permet d’obtenir d’excellentes performances sur de nombreuses tâches.
- Une phase de warm-up de la taille de batch est utilisée au début de l’entraînement pour accélérer le processus.
Conclusion
- ModernBERT améliore les performances des modèles encodeur-only grâce à l’application de techniques récentes.
- Il offre de solides performances sur diverses tâches, avec un rapport taille/performance attractif.
- La communauté est invitée à en faire des usages créatifs, et un concours est en cours pour des démonstrations.
1 commentaires
Avis Hacker News
answerai-colbert-small-v2sortira bientôt