Google DeepMind dévoile Gemini 2.0, son nouveau modèle d’IA pour l’ère agentique

(blog.google)

2 points par GN⁺ 2024-12-12 | 1 commentaires | Partager sur WhatsApp

Gemini 1.0 a marqué une avancée majeure en tant que modèle multimodal capable de traiter des informations en texte, vidéo, image, audio et code
Gemini 2.0 pousse cette vision plus loin et évolue vers un modèle agentique capable de comprendre le monde, de planifier plusieurs étapes et d’exécuter des tâches
Gemini 2.0 est intégré à des produits majeurs comme Google Search, lui donnant la capacité de traiter des sujets plus complexes et des questions en plusieurs étapes

Principales caractéristiques de Gemini 2.0 Flash

S’appuie sur le succès de 1.5 Flash pour offrir des performances encore meilleures et des temps de réponse plus rapides
Deux fois plus rapide que 1.5 Pro, avec de meilleurs résultats sur les principaux benchmarks
Prend en charge les entrées multimodales comme les images, les vidéos et l’audio, ainsi que la génération d’images mêlées au texte et la synthèse vocale multilingue
Peut appeler nativement des outils comme Google Search, l’exécution de code et des fonctions personnalisées
D’abord proposé aux développeurs et à des testeurs de confiance, avant un déploiement plus large prévu au début de l’année prochaine

Présentation des projets de recherche

Project Astra : un assistant IA universel doté de capacités de mémoire améliorées
- Amélioration de fonctionnalités comme les conversations multilingues, l’utilisation de Google Search/Lens/Maps et une mémoire de session d’environ 10 minutes
- Continue d’évoluer en recueillant les retours de testeurs de confiance via des appareils Android
Project Mariner : un prototype de recherche capable d’interagir avec le navigateur pour aider à accomplir des tâches complexes
- A atteint un score élevé de 83,5 % sur le benchmark WebVoyager
- Intègre une mesure de sécurité demandant une confirmation avant que l’utilisateur n’approuve l’action finale
Jules : un agent de codage alimenté par l’IA et intégré aux workflows GitHub
- Aide les développeurs à résoudre des issues et à exécuter des plans

Domaines d’application des agents IA

Explore l’usage d’agents IA dans les jeux en collaboration avec le studio Supercell
Mène des expérimentations pour appliquer les capacités de raisonnement spatial de Gemini 2.0 au domaine de la robotique

Sécurité et développement responsable

Adopte une approche progressive et exploratoire dans le développement des nouvelles technologies
Génère automatiquement la détection des risques et des mesures d’atténuation via une approche de red team assistée par l’IA
Dans Project Mariner, met en œuvre des fonctions pour protéger les utilisateurs contre les tentatives malveillantes d’injection de prompt
Fournit des contrôles de protection de la vie privée et des fonctions de suppression de session

Plans à venir

Prévoit d’étendre les capacités de Gemini 2.0 à l’application Gemini et à d’autres produits Google
Continuera de faire de la sécurité et de la responsabilité la priorité absolue dans sa progression vers l’AGI

1 commentaires

GN⁺ 2024-12-12

Avis sur Hacker News

Le nouveau plugin llm-gemini prend en charge le modèle Gemini 2.0 Flash. Partage d'une méthode d'utilisation dans le terminal
- Les modèles Gemini ont la capacité d'écrire et d'exécuter du code Python
- Les appels réseau ne sont pas possibles, mais diverses approches sont tentées
- Excellentes performances pour les explications visuelles
Les grandes entreprises changent lentement de direction, mais une fois la trajectoire fixée, elles peuvent accomplir ce que les petites entreprises ne peuvent pas faire
- Google dispose de nombreux talents dans ce domaine et obtient de bons résultats
- La capacité à transformer les modèles LLM en produits et à les commercialiser reste incertaine, mais les performances sont excellentes
Dépasse Gemini 1.5 Pro sur la plupart des benchmarks
- Google DeepMind est en train de s'adapter à l'ère des LLM
- Contrôle directement le matériel via les TPU
Un nouveau SDK a été annoncé. Il semble suivre les bonnes pratiques modernes
- Un endpoint compatible OpenAI était proposé, mais son support à long terme restait incertain
- Il est recommandé de configurer un cluster Kubernetes et des buckets GCP
Ravi que la nouvelle release de Google soit disponible immédiatement
- Gemini Flash 2.0 surpasse Gemini Pro 1.5 sur les problèmes d'Advent of Code
- Flash 2.0 corrige les erreurs de compilation
Le mot "agentic" donne une impression désagréable
- Des mots comme "versatile", "multifaceted" ou "autonomous" sembleraient plus appropriés
Les modèles Gemini 2 prennent en charge la génération audio et d'images
- La génération d'images devrait être généralement disponible en janvier
- Les tâches de computer vision deviendront possibles via les LLM
Gemini 2 devance 4o dans Chatbot Arena
Le mot "agentic" semble inapproprié
- Il s'agit surtout d'un pipeline composé de system prompts et d'outils
Accès à Gemini 2.0 Flash via Google AI Studio dans le navigateur Safari sur iPhone
- Il identifie avec précision ce qui est vu par la caméra
- Il peut lire du texte en anglais et en japonais
- Il a identifié visuellement des notes de piano, mais n'y parvenait pas à partir du son seul

Google DeepMind dévoile Gemini 2.0, son nouveau modèle d’IA pour l’ère agentique

Principales caractéristiques de Gemini 2.0 Flash

Présentation des projets de recherche

Domaines d’application des agents IA

Sécurité et développement responsable

Plans à venir

À lire aussi

1 commentaires

Avis sur Hacker News