Sortie de Gemini 2.0

(developers.googleblog.com)

3 points par lemonmint 2024-12-12 | 1 commentaires | Partager sur WhatsApp

Gemini 2.0 : le modèle d’IA de nouvelle génération pour les développeurs

Un modèle d’IA de pointe développé par Google, conçu pour aider les développeurs à construire l’avenir de l’IA.
Depuis le lancement de Gemini 1.0, des millions de développeurs utilisent Gemini dans 109 langues via Google AI Studio et Vertex AI.
Gemini 2.0 Flash Experimental permet de créer des applications plus immersives et interactives, et introduit un nouvel agent de codage capable d’effectuer des tâches à la place du développeur.

Gemini 2.0 Flash

Un modèle construit sur le succès de Gemini 1.5 Flash, offrant des performances puissantes tout en étant deux fois plus rapide que 1.5 Pro.
Il propose de nouvelles capacités de sortie multimodale et une utilisation native des outils.
Il introduit une API Live multimodale permettant de créer des applications dynamiques grâce au streaming audio et vidéo en temps réel.
Les développeurs peuvent tester et explorer Gemini 2.0 Flash en phase expérimentale dans Google AI Studio et Vertex AI, avec une disponibilité générale prévue au début de l’année prochaine.

Fonctionnalités principales :

Performances améliorées :
- Plus puissant que Gemini 1.5 Pro, tout en conservant la vitesse et l’efficacité d’un modèle Flash.
- Amélioration des performances en multimodal, texte, code, vidéo, compréhension spatiale et raisonnement.
- En particulier, l’amélioration de la compréhension spatiale augmente la précision de génération des boîtes englobantes pour les petits objets dans des images complexes.
Nouveaux modes de sortie :
- Possibilité de générer des réponses unifiées incluant texte, audio et images en un seul appel API.
- Application du filigrane invisible SynthID à toutes les sorties image et audio afin de réduire la désinformation et les problèmes de mauvaise attribution.
- Sortie audio native multilingue : contrôle précis de la sortie audio de synthèse vocale avec un choix de 8 voix haute qualité, de plusieurs langues et d’accents variés.
- Sortie image native : génération d’images avec prise en charge d’une édition conversationnelle en plusieurs tours, permettant d’améliorer une image à partir des sorties précédentes. Utile pour créer des contenus multimodaux, comme des recettes, en combinant texte et image.
Utilisation native des outils :
- Le modèle dispose de capacités d’utilisation d’outils, une fonction essentielle pour créer des expériences agentiques.
- Il peut appeler nativement des outils comme Google Search et l’exécution de code, et utiliser aussi des fonctions tierces via l’appel de fonctions personnalisées.
- L’utilisation de Google Search comme outil permet de fournir des réponses plus factuelles et plus complètes, tout en augmentant le trafic vers les éditeurs.
- Il est possible d’exécuter plusieurs recherches en parallèle pour trouver simultanément des informations pertinentes dans plusieurs sources et améliorer la précision.
API Live multimodale :
- Possibilité de créer des applications multimodales en temps réel à partir d’entrées audio et vidéo en streaming issues d’une caméra ou d’un écran.
- Prise en charge de schémas conversationnels naturels, comme les interruptions et la détection d’activité vocale.
- Possibilité d’intégrer plusieurs outils pour traiter des cas d’usage complexes avec un seul appel API.

Progrès de l’assistance au code par l’IA

L’assistance au code par l’IA évolue rapidement, passant de la simple recherche de code à des assistants basés sur l’IA intégrés au workflow des développeurs.
Les agents de codage exploitant Gemini 2.0 peuvent effectuer des tâches à la place du développeur.
2.0 Flash, équipé d’un outil d’exécution de code, a atteint un taux de réussite de 51,8 % sur SWE-bench Verified, qui évalue les performances agentiques sur de vraies tâches d’ingénierie logicielle.

Jules : agent de code basé sur l’IA

Un agent de code expérimental basé sur l’IA, conçu pour traiter des tâches de codage en Python et Javascript.
Il s’intègre au workflow GitHub, fonctionne de manière asynchrone et prend en charge la correction de bugs ainsi que d’autres tâches chronophages.
Jules élabore un plan complet en plusieurs étapes pour résoudre les problèmes, modifie efficacement plusieurs fichiers et prépare des pull requests pour appliquer directement les corrections sur GitHub.

Les avantages de Jules :

Productivité accrue : le codage asynchrone permet d’assigner à Jules des problèmes et des tâches de développement pour gagner en efficacité.
Suivi de l’avancement : des mises à jour en temps réel permettent de rester informé et de prioriser les tâches qui nécessitent de l’attention.
Contrôle du développeur : il est possible de relire le plan généré par Jules, de fournir un retour ou de demander des ajustements. Le code rédigé par Jules peut être revu puis fusionné dans le projet.
Le service est actuellement proposé à un groupe restreint de testeurs de confiance, avant une ouverture à d’autres développeurs au début de 2025.

Agent de data science dans Colab

labs.google/code propose un agent de data science expérimental permettant d’envoyer un jeu de données et d’obtenir des insights en quelques minutes.
Colab intègre les mêmes capacités agentiques en s’appuyant sur Gemini 2.0.
En décrivant l’objectif de l’analyse en langage naturel, un notebook est généré automatiquement, ce qui accélère la recherche et l’analyse de données.
Un accès anticipé est proposé via un programme de testeurs de confiance, avec un déploiement plus large auprès des utilisateurs de Colab prévu au premier semestre 2025.

Support aux développeurs

Les modèles Gemini 2.0 aident les développeurs à créer plus rapidement et plus facilement des applications d’IA puissantes.
Gemini 2.0 sera intégré à des plateformes comme Android Studio, Chrome DevTools et Firebase.
Gemini 2.0 Flash sera disponible dans Gemini Code Assist pour offrir des fonctions d’assistance au codage améliorées dans des IDE populaires tels que Visual Studio Code, IntelliJ et PyCharm.

1 commentaires

lemonmint 2024-12-12

Il semble être déjà disponible dans Google AI Studio et Vertex AI.

Les performances du modèle et la latence de la voix live de bout en bout sont impressionnantes.