2 points par GN⁺ 2024-12-12 | 1 commentaires | Partager sur WhatsApp
  • Gemini 1.0 a marqué une avancée majeure en tant que modèle multimodal capable de traiter des informations en texte, vidéo, image, audio et code
  • Gemini 2.0 pousse cette vision plus loin et évolue vers un modèle agentique capable de comprendre le monde, de planifier plusieurs étapes et d’exécuter des tâches
  • Gemini 2.0 est intégré à des produits majeurs comme Google Search, lui donnant la capacité de traiter des sujets plus complexes et des questions en plusieurs étapes

Principales caractéristiques de Gemini 2.0 Flash

  • S’appuie sur le succès de 1.5 Flash pour offrir des performances encore meilleures et des temps de réponse plus rapides
  • Deux fois plus rapide que 1.5 Pro, avec de meilleurs résultats sur les principaux benchmarks
  • Prend en charge les entrées multimodales comme les images, les vidéos et l’audio, ainsi que la génération d’images mêlées au texte et la synthèse vocale multilingue
  • Peut appeler nativement des outils comme Google Search, l’exécution de code et des fonctions personnalisées
  • D’abord proposé aux développeurs et à des testeurs de confiance, avant un déploiement plus large prévu au début de l’année prochaine

Présentation des projets de recherche

  • Project Astra : un assistant IA universel doté de capacités de mémoire améliorées
    • Amélioration de fonctionnalités comme les conversations multilingues, l’utilisation de Google Search/Lens/Maps et une mémoire de session d’environ 10 minutes
    • Continue d’évoluer en recueillant les retours de testeurs de confiance via des appareils Android
  • Project Mariner : un prototype de recherche capable d’interagir avec le navigateur pour aider à accomplir des tâches complexes
    • A atteint un score élevé de 83,5 % sur le benchmark WebVoyager
    • Intègre une mesure de sécurité demandant une confirmation avant que l’utilisateur n’approuve l’action finale
  • Jules : un agent de codage alimenté par l’IA et intégré aux workflows GitHub
    • Aide les développeurs à résoudre des issues et à exécuter des plans

Domaines d’application des agents IA

  • Explore l’usage d’agents IA dans les jeux en collaboration avec le studio Supercell
  • Mène des expérimentations pour appliquer les capacités de raisonnement spatial de Gemini 2.0 au domaine de la robotique

Sécurité et développement responsable

  • Adopte une approche progressive et exploratoire dans le développement des nouvelles technologies
  • Génère automatiquement la détection des risques et des mesures d’atténuation via une approche de red team assistée par l’IA
  • Dans Project Mariner, met en œuvre des fonctions pour protéger les utilisateurs contre les tentatives malveillantes d’injection de prompt
  • Fournit des contrôles de protection de la vie privée et des fonctions de suppression de session

Plans à venir

  • Prévoit d’étendre les capacités de Gemini 2.0 à l’application Gemini et à d’autres produits Google
  • Continuera de faire de la sécurité et de la responsabilité la priorité absolue dans sa progression vers l’AGI

1 commentaires

 
GN⁺ 2024-12-12
Avis sur Hacker News
  • Le nouveau plugin llm-gemini prend en charge le modèle Gemini 2.0 Flash. Partage d'une méthode d'utilisation dans le terminal

    • Les modèles Gemini ont la capacité d'écrire et d'exécuter du code Python
    • Les appels réseau ne sont pas possibles, mais diverses approches sont tentées
    • Excellentes performances pour les explications visuelles
  • Les grandes entreprises changent lentement de direction, mais une fois la trajectoire fixée, elles peuvent accomplir ce que les petites entreprises ne peuvent pas faire

    • Google dispose de nombreux talents dans ce domaine et obtient de bons résultats
    • La capacité à transformer les modèles LLM en produits et à les commercialiser reste incertaine, mais les performances sont excellentes
  • Dépasse Gemini 1.5 Pro sur la plupart des benchmarks

    • Google DeepMind est en train de s'adapter à l'ère des LLM
    • Contrôle directement le matériel via les TPU
  • Un nouveau SDK a été annoncé. Il semble suivre les bonnes pratiques modernes

    • Un endpoint compatible OpenAI était proposé, mais son support à long terme restait incertain
    • Il est recommandé de configurer un cluster Kubernetes et des buckets GCP
  • Ravi que la nouvelle release de Google soit disponible immédiatement

    • Gemini Flash 2.0 surpasse Gemini Pro 1.5 sur les problèmes d'Advent of Code
    • Flash 2.0 corrige les erreurs de compilation
  • Le mot "agentic" donne une impression désagréable

    • Des mots comme "versatile", "multifaceted" ou "autonomous" sembleraient plus appropriés
  • Les modèles Gemini 2 prennent en charge la génération audio et d'images

    • La génération d'images devrait être généralement disponible en janvier
    • Les tâches de computer vision deviendront possibles via les LLM
  • Gemini 2 devance 4o dans Chatbot Arena

  • Le mot "agentic" semble inapproprié

    • Il s'agit surtout d'un pipeline composé de system prompts et d'outils
  • Accès à Gemini 2.0 Flash via Google AI Studio dans le navigateur Safari sur iPhone

    • Il identifie avec précision ce qui est vu par la caméra
    • Il peut lire du texte en anglais et en japonais
    • Il a identifié visuellement des notes de piano, mais n'y parvenait pas à partir du son seul