Le modèle de nouvelle génération de Google : Gemini 1.5
(blog.google)- La semaine dernière, Google a lancé Gemini 1.0 Ultra, son modèle le plus performant, marquant une avancée importante pour rendre les produits Google plus utiles
- Les développeurs et les clients cloud peuvent commencer à créer avec 1.0 Ultra via l’API Gemini dans AI Studio et Vertex AI
- Les équipes qui repoussent rapidement les frontières des modèles, avec la sécurité au cœur de leur approche, ont réalisé des progrès rapides et sont prêtes à présenter la génération suivante, Gemini 1.5
- Gemini 1.5 apporte des améliorations nettes sur plusieurs dimensions, et 1.5 Pro atteint une qualité comparable à celle de 1.0 Ultra tout en utilisant moins de calcul
- Cette nouvelle génération apporte une percée dans la compréhension de contextes longs à travers les différentes modalités, augmentant fortement la quantité d’informations que le modèle peut traiter, avec une exécution cohérente jusqu’à 1 million de tokens
Présentation de Gemini 1.5
- Les nouvelles avancées dans l’IA ont le potentiel de rendre l’IA plus utile à des milliards de personnes dans les années à venir
- Depuis la présentation de Gemini 1.0, les travaux de test, de raffinement et d’amélioration des capacités se sont poursuivis
- Gemini 1.5 offre des performances nettement supérieures et marque un changement d’approche fondé sur des innovations en recherche et en ingénierie
- Une nouvelle architecture Mixture-of-Experts (MoE) est utilisée pour rendre l’entraînement et le service plus efficaces
- Gemini 1.5 Pro est un modèle multimodal de taille intermédiaire, optimisé pour un large éventail de tâches, et offre des performances comparables à 1.0 Ultra, le plus grand modèle à ce jour
- Gemini 1.5 Pro propose une fenêtre de contexte standard de 128 000 tokens, mais les développeurs et les clients entreprise peuvent essayer une fenêtre de contexte allant jusqu’à 1 million de tokens via AI Studio et Vertex AI
Une architecture efficace
- Gemini 1.5 est construit sur des recherches de pointe autour des architectures Transformer et MoE
- Un Transformer traditionnel fonctionne comme un grand réseau de neurones unique, tandis qu’un modèle MoE est divisé en plus petits réseaux de neurones « experts »
- Selon le type d’entrée, un modèle MoE apprend à n’activer de façon sélective que les chemins d’experts les plus pertinents dans le réseau neuronal
- Cette spécialisation améliore fortement l’efficacité du modèle
Plus de contexte, des fonctionnalités plus utiles
- La « fenêtre de contexte » d’un modèle d’IA est composée des tokens utilisés pour traiter l’information
- Plus la fenêtre de contexte d’un modèle est grande, plus il peut traiter d’informations en une seule fois, ce qui rend les sorties plus cohérentes, plus pertinentes et plus utiles
- Grâce à des innovations en machine learning, il a été possible d’augmenter la capacité de la fenêtre de contexte de 1.5 Pro bien au-delà des 32 000 tokens d’origine de Gemini 1.0
- Désormais, 1.5 Pro peut traiter d’énormes volumes d’information en une seule fois, et les recherches l’ont testé avec succès jusqu’à 10 millions de tokens
Des performances en hausse
- Lors de tests sur un panel complet incluant des évaluations de texte, de code, d’image, d’audio et de vidéo, 1.5 Pro surpasse 1.0 Pro sur 87 % des benchmarks utilisés pour le développement des grands modèles de langage (LLMs)
- 1.5 Pro conserve un haut niveau de performance malgré l’augmentation de la fenêtre de contexte
Des tests éthiques et de sécurité approfondis
- Conformément aux principes de l’IA et à des politiques de sécurité strictes, il est garanti que le modèle passe par des tests éthiques et de sécurité approfondis
- Depuis le lancement de 1.0 Ultra, l’équipe affine continuellement le modèle afin de le rendre sûr pour un lancement plus large
- Avant le lancement de 1.5 Pro, des évaluations approfondies ont été menées dans des domaines comme la sécurité des contenus et les préjudices de représentation, et ces tests continueront à être étendus
Créer et expérimenter avec les modèles Gemini
- L’objectif est de proposer de manière responsable la nouvelle génération de modèles Gemini à des milliards de personnes, aux développeurs et aux entreprises dans le monde entier
- À partir d’aujourd’hui, un aperçu limité de 1.5 Pro est proposé aux développeurs et aux clients entreprise via AI Studio et Vertex AI
- Lorsque le modèle sera prêt pour un lancement plus large, 1.5 Pro sera proposé avec sa fenêtre de contexte standard de 128 000 tokens
- Les premiers testeurs peuvent essayer gratuitement la fenêtre de contexte de 1 million de tokens pendant la période de test, mais cette fonctionnalité expérimentale peut entraîner une latence plus élevée
L’avis de GN⁺
- Le point le plus important de Gemini 1.5 est qu’il augmente fortement la quantité d’informations qu’un modèle d’IA peut traiter, ce qui lui permet d’exécuter des tâches plus complexes et plus variées
- Ce modèle fait entrer les progrès de l’IA dans une nouvelle dimension et aidera les développeurs et les entreprises à créer des modèles et des applications plus utiles
- C’est un exemple qui montre comment la recherche et l’innovation de Google façonnent l’avenir des technologies d’IA, et cette technologie offre un aperçu stimulant de la manière dont l’IA pourrait s’intégrer à notre quotidien à l’avenir
3 commentaires
Parmi les IA que j’utilise en ce moment, c’est GPT-4 que j’utilise le plus, et on dirait que les technologies d’IA vont peu à peu s’intégrer davantage dans la vie quotidienne.
On dirait que Google panique pas mal : ils continuent à faire fuiter avant même les sorties pour dire si c’est mieux ou pas, et l’Ultra ne gère toujours pas correctement le multilingue ; on en est à un niveau qui nécessitait le genie de prompt d’OpenAI d’il y a un an.
Avis sur Hacker News
Résumé des commentaires sur le white paper :
Informations intéressantes du rapport technique :
Performances notables du rapport technique :
Nouvelle capacité des grands modèles de langage :
Manque de confiance envers Google :
Doutes concernant Demis Hassabis :
Le caractère révolutionnaire des 10M de tokens :
Expérience négative avec Gemini :
Différence entre Pro et Ultra :
Innovation de la taille de la fenêtre de contexte :