Le modèle de nouvelle génération de Google : Gemini 1.5

(blog.google)

9 points par GN⁺ 2024-02-16 | 3 commentaires | Partager sur WhatsApp

La semaine dernière, Google a lancé Gemini 1.0 Ultra, son modèle le plus performant, marquant une avancée importante pour rendre les produits Google plus utiles
Les développeurs et les clients cloud peuvent commencer à créer avec 1.0 Ultra via l’API Gemini dans AI Studio et Vertex AI
Les équipes qui repoussent rapidement les frontières des modèles, avec la sécurité au cœur de leur approche, ont réalisé des progrès rapides et sont prêtes à présenter la génération suivante, Gemini 1.5
Gemini 1.5 apporte des améliorations nettes sur plusieurs dimensions, et 1.5 Pro atteint une qualité comparable à celle de 1.0 Ultra tout en utilisant moins de calcul
Cette nouvelle génération apporte une percée dans la compréhension de contextes longs à travers les différentes modalités, augmentant fortement la quantité d’informations que le modèle peut traiter, avec une exécution cohérente jusqu’à 1 million de tokens

Présentation de Gemini 1.5

Les nouvelles avancées dans l’IA ont le potentiel de rendre l’IA plus utile à des milliards de personnes dans les années à venir
Depuis la présentation de Gemini 1.0, les travaux de test, de raffinement et d’amélioration des capacités se sont poursuivis
Gemini 1.5 offre des performances nettement supérieures et marque un changement d’approche fondé sur des innovations en recherche et en ingénierie
Une nouvelle architecture Mixture-of-Experts (MoE) est utilisée pour rendre l’entraînement et le service plus efficaces
Gemini 1.5 Pro est un modèle multimodal de taille intermédiaire, optimisé pour un large éventail de tâches, et offre des performances comparables à 1.0 Ultra, le plus grand modèle à ce jour
Gemini 1.5 Pro propose une fenêtre de contexte standard de 128 000 tokens, mais les développeurs et les clients entreprise peuvent essayer une fenêtre de contexte allant jusqu’à 1 million de tokens via AI Studio et Vertex AI

Une architecture efficace

Gemini 1.5 est construit sur des recherches de pointe autour des architectures Transformer et MoE
Un Transformer traditionnel fonctionne comme un grand réseau de neurones unique, tandis qu’un modèle MoE est divisé en plus petits réseaux de neurones « experts »
Selon le type d’entrée, un modèle MoE apprend à n’activer de façon sélective que les chemins d’experts les plus pertinents dans le réseau neuronal
Cette spécialisation améliore fortement l’efficacité du modèle

Plus de contexte, des fonctionnalités plus utiles

La « fenêtre de contexte » d’un modèle d’IA est composée des tokens utilisés pour traiter l’information
Plus la fenêtre de contexte d’un modèle est grande, plus il peut traiter d’informations en une seule fois, ce qui rend les sorties plus cohérentes, plus pertinentes et plus utiles
Grâce à des innovations en machine learning, il a été possible d’augmenter la capacité de la fenêtre de contexte de 1.5 Pro bien au-delà des 32 000 tokens d’origine de Gemini 1.0
Désormais, 1.5 Pro peut traiter d’énormes volumes d’information en une seule fois, et les recherches l’ont testé avec succès jusqu’à 10 millions de tokens

Des performances en hausse

Lors de tests sur un panel complet incluant des évaluations de texte, de code, d’image, d’audio et de vidéo, 1.5 Pro surpasse 1.0 Pro sur 87 % des benchmarks utilisés pour le développement des grands modèles de langage (LLMs)
1.5 Pro conserve un haut niveau de performance malgré l’augmentation de la fenêtre de contexte

Des tests éthiques et de sécurité approfondis

Conformément aux principes de l’IA et à des politiques de sécurité strictes, il est garanti que le modèle passe par des tests éthiques et de sécurité approfondis
Depuis le lancement de 1.0 Ultra, l’équipe affine continuellement le modèle afin de le rendre sûr pour un lancement plus large
Avant le lancement de 1.5 Pro, des évaluations approfondies ont été menées dans des domaines comme la sécurité des contenus et les préjudices de représentation, et ces tests continueront à être étendus

Créer et expérimenter avec les modèles Gemini

L’objectif est de proposer de manière responsable la nouvelle génération de modèles Gemini à des milliards de personnes, aux développeurs et aux entreprises dans le monde entier
À partir d’aujourd’hui, un aperçu limité de 1.5 Pro est proposé aux développeurs et aux clients entreprise via AI Studio et Vertex AI
Lorsque le modèle sera prêt pour un lancement plus large, 1.5 Pro sera proposé avec sa fenêtre de contexte standard de 128 000 tokens
Les premiers testeurs peuvent essayer gratuitement la fenêtre de contexte de 1 million de tokens pendant la période de test, mais cette fonctionnalité expérimentale peut entraîner une latence plus élevée

L’avis de GN⁺

Le point le plus important de Gemini 1.5 est qu’il augmente fortement la quantité d’informations qu’un modèle d’IA peut traiter, ce qui lui permet d’exécuter des tâches plus complexes et plus variées
Ce modèle fait entrer les progrès de l’IA dans une nouvelle dimension et aidera les développeurs et les entreprises à créer des modèles et des applications plus utiles
C’est un exemple qui montre comment la recherche et l’innovation de Google façonnent l’avenir des technologies d’IA, et cette technologie offre un aperçu stimulant de la manière dont l’IA pourrait s’intégrer à notre quotidien à l’avenir

3 commentaires

yoo04233 2024-02-17

Parmi les IA que j’utilise en ce moment, c’est GPT-4 que j’utilise le plus, et on dirait que les technologies d’IA vont peu à peu s’intégrer davantage dans la vie quotidienne.

riskatcher 2024-02-16

On dirait que Google panique pas mal : ils continuent à faire fuiter avant même les sorties pour dire si c’est mieux ou pas, et l’Ultra ne gère toujours pas correctement le multilingue ; on en est à un niveau qui nécessitait le genie de prompt d’OpenAI d’il y a un an.

GN⁺ 2024-02-16

Avis sur Hacker News

Résumé des commentaires sur le white paper :
- Manque d’explications sur la manière d’atteindre 10M de tokens de contexte : le white paper n’indique pas comment atteindre un contexte de 10M de tokens.
- Réduction de la complexité des stacks RAG : une capacité de contexte de 10M élimine immédiatement l’essentiel de la complexité des stacks RAG, ce qui simplifie considérablement de nombreux cas d’usage.
- Supériorité de 1.5 Pro : il est clairement suggéré que 1.5 Pro est globalement meilleur que GPT-4, ce qui en fait un nouveau leader intéressant pour les évaluations de type LLM-as-judge.
- Niveau élevé de 1.5 Ultra : 1.5 Ultra semble extrêmement performant, et 1.5 Pro l’est déjà beaucoup. Le modèle obtient des scores élevés sur divers tests, et il est souligné que les tests où les scores sont plus faibles se révèlent majoritairement être des faux négatifs.
- Potentiel de 1.5 Pro : 1.5 Pro devrait fixer la référence pour les tâches de workflow. 1.0 Ultra est très performant mais un peu lent. Les modèles open source qui l’utiliseront devraient voir leur qualité fortement progresser.
- Réexamen des tests de code : il est temps de refaire les tests de programmation qui demandent d’écrire de nouveaux modules.
- Interrogations sur la manière d’atteindre 10M de contexte : au vu de ce que suggèrent les tests de type « needle » audio et vidéo montrant un rappel parfait sur 10M de tokens, certains supposent qu’il existe une forme de compression plutôt qu’un unique vecteur ultra-long.
Informations intéressantes du rapport technique :
- Problème de fuite de données sur le benchmark HumanEval : HumanEval est un benchmark d’évaluation open source standard dans l’industrie, mais il est difficile de contrôler les fuites accidentelles depuis des pages web et des dépôts de code open source. L’analyse des fuites de données de test pour Gemini 1.0 Ultra montre qu’un préentraînement poursuivi sur un jeu de données ne contenant qu’une seule époque du split de test de HumanEval fait fortement passer le score de 74,4 % à 89,0 %. Cette hausse persiste même lorsque les exemples sont inclus dans d’autres formats comme JSON ou HTML. Les chercheurs sont invités à réduire le risque de fuite en conservant toujours un petit ensemble maison de véritables fonctions de test tenues à l’écart pour évaluer les capacités de codage de ces modèles. Le benchmark Natural2Code a été créé pour combler cette lacune : il reprend le même format que HumanEval, mais avec des prompts et des ensembles de tests différents.
Performances notables du rapport technique :
- Capacité de contexte long de Gemini 1.5 Pro : l’étude des capacités de contexte long de Gemini 1.5 Pro a mis en évidence une amélioration continue de la prédiction du token suivant et une récupération quasi parfaite (>99 %) jusqu’à au moins 10M de tokens.
Nouvelle capacité des grands modèles de langage :
- Traduction de la langue Kalamang : après avoir reçu un manuel de grammaire d’une langue, le kalamang, qui compte moins de 200 locuteurs dans le monde, le modèle a appris à traduire de l’anglais vers le kalamang à un niveau comparable à celui d’une personne apprenant à partir du même contenu.
Manque de confiance envers Google :
- Doutes sur les annonces de Google : comme une vidéo promotionnelle montée publiée auparavant ne montrait pas le produit réel, certains ne font plus confiance à ce que Google présente à moins qu’il ne s’agisse d’un formulaire de saisie testable immédiatement.
Doutes concernant Demis Hassabis :
- Vision sceptique de ses stratégies promotionnelles passées : certains gardent un regard sceptique sur la communication de Demis Hassabis depuis son époque dans le développement de jeux vidéo. « Infinite Polygons » est devenu une blague dans le secteur, et son jeu Republic est considéré comme un échec sans grand intérêt.
Le caractère révolutionnaire des 10M de tokens :
- Corrélation entre taille du prompt et qualité : 10M de tokens serait un game changer et très révolutionnaire s’il n’y a pas de baisse notable entre la taille du prompt et la qualité. On commencerait alors à considérer le prompt lui-même comme une forme de runtime plutôt que comme une simple entrée statique.
Expérience négative avec Gemini :
- Performances insuffisantes de Gemini : après avoir essayé Gemini, certains jugent ses performances très décevantes. Il ferait bien moins bien que ChatGPT ou qu’un llama local. Ils n’ont aucune confiance dans la stratégie IA de Google et partent du principe que tous les talents compétents sont allés chez OpenAI ou Anthropic.
Différence entre Pro et Ultra :
- Taille de la fenêtre de contexte : aujourd’hui, des fenêtres de contexte de plus de 100k tokens, pouvant aller jusqu’à un million, ouvrent des possibilités très intéressantes. Le RAG peut devenir extrêmement puissant avec un tel volume d’information.
Innovation de la taille de la fenêtre de contexte :
- Résolution du problème des tokens d’entrée : si cela fonctionne réellement comme annoncé, cela pourrait remplacer le besoin de RAG ou de fine-tuning pour certaines analyses spécifiques. Certains se demandent comment le problème du remplissage des tokens d’entrée a été résolu.