IBM et la NASA développent des modèles de langage pour améliorer l’accès aux connaissances scientifiques

(research.ibm.com)

4 points par GN⁺ 2024-03-15 | Aucun commentaire pour le moment. | Partager sur WhatsApp

IBM et la NASA construisent des modèles de langage pour améliorer l’accès aux connaissances scientifiques

IBM et la NASA ont lancé une nouvelle collaboration pour créer des modèles de langage efficaces à partir de la littérature scientifique.
Basés sur l’architecture Transformer, ces modèles peuvent être utilisés dans diverses applications, notamment la classification, l’extraction d’entités, les questions-réponses et la recherche d’information.
Ils atteignent de hautes performances dans différents domaines et répondent rapidement, et sont publiés en open source sur Hugging Face au bénéfice des communautés scientifiques et académiques.

Les modèles de langage fondés sur les Transformers, dont BERT, RoBERTa ainsi que les familles de modèles Slate et Granite d’IBM, sont essentiels pour les tâches de compréhension du langage naturel.
Ces modèles reposent sur une compréhension statistique du fonctionnement de la langue et sont entraînés via une tâche de modélisation de langage masqué qui reconstruit les phrases en restaurant les mots cachés.
Le tokenizer, qui décompose les mots en unités exploitables par le modèle, joue un rôle clé dans l’apprentissage d’un vocabulaire massif.

IBM et la NASA ont entraîné les modèles sur 60 milliards de tokens issus d’un corpus couvrant l’astrophysique, les sciences planétaires, les sciences de la Terre, l’héliophysique, ainsi que les sciences biologiques et physiques.
Contrairement aux tokenizers génériques, le tokenizer spécialisé développé ici peut reconnaître des termes scientifiques comme "axes" et "polycrystalline".
Parmi les 50 000 tokens traités par le modèle, plus de la moitié sont uniques par rapport au modèle RoBERTa de Hugging Face.

Entraîné sur un vocabulaire spécialisé, le modèle IBM-NASA dépasse de 5 % le modèle RoBERTa open sur le benchmark BLURB, couramment utilisé pour évaluer les tâches biomédicales.
Il montre également une amélioration de 2,4 % du score F1 sur un benchmark interne de questions-réponses scientifiques et de 5,5 % sur un test interne de reconnaissance d’entités en sciences de la Terre.

Les modèles encodeurs entraînés peuvent être affinés pour de nombreuses tâches linguistiques non génératives et produire des embeddings riches en information pour la recherche de documents.

En utilisant environ 268 millions de paires de textes, ces modèles montrent d’excellentes performances pour retrouver des passages pertinents sur un jeu de test d’environ 400 questions préparé par la NASA.
Des améliorations significatives ont été obtenues grâce à des données d’apprentissage spécialisées, un tokenizer personnalisé et une méthodologie d’entraînement adaptée.

Conformément à l’engagement d’IBM et de la NASA en faveur d’une IA transparente, les deux modèles sont disponibles sur Hugging Face.
Le modèle encodeur peut être davantage affiné pour des applications du domaine spatial, tandis que le modèle de recherche peut être utilisé pour des applications de recherche d’information dans le cadre du RAG.

Cette collaboration semble pouvoir grandement contribuer à améliorer l’accessibilité des connaissances scientifiques. En particulier, le développement de modèles de langage capables de comprendre et de traiter la terminologie spécialisée des sciences devrait être très utile aux chercheurs.
Le fait que ces modèles soient proposés en open source offre à de nombreux chercheurs et développeurs la possibilité de les utiliser et de les améliorer librement, ce qui peut contribuer à la démocratisation de la recherche en IA.
Toutefois, l’utilisation efficace de ces modèles avancés peut nécessiter des ressources de calcul suffisantes ainsi qu’une expertise en modélisation IA. Cela peut constituer une barrière à l’entrée pour certains chercheurs ou certaines institutions.
Parmi les éléments à prendre en compte lors de l’adoption de cette technologie figurent la complexité du modèle, le volume de données requis pour l’entraînement et les performances du matériel capable de les traiter. Les avantages attendus incluent une compréhension plus profonde de la littérature scientifique et une recherche d’information plus rapide, mais au prix d’un investissement en coûts et en ressources.