Annonce du modèle Gemini 1.5 Flash
- Un nouveau modèle multimodal, aussi puissant que Gemini 1.5 Pro, mais optimisé pour des tâches ciblées, fréquentes et à faible latence
- Mieux adapté à la génération de réponses rapides
- Les capacités de traduction, de raisonnement et de codage de Gemini 1.5 ont également été améliorées
- La fenêtre de contexte de Gemini 1.5 Pro (la quantité d’informations qu’il peut absorber) a doublé, passant de 1 million à 2 millions de tokens
Project Astra : la vision par Google d’un futur à la Star Trek pour l’IA
- Un assistant IA multimodal qui vise à voir et comprendre via la caméra d’un appareil, se souvenir de l’emplacement des objets et effectuer des tâches à la place de l’utilisateur
- Il a servi à la plupart des démos les plus impressionnantes de cette I/O
- L’objectif est d’aller au-delà de la simple conversation pour devenir un véritable agent IA capable d’agir concrètement pour l’utilisateur
Veo : la génération vidéo façon Sora chez Google
- Un nouveau modèle d’IA générative de Google, conçu en réponse à Sora d’OpenAI, capable de produire des vidéos en 1080p à partir de prompts textuels, d’images ou de vidéos
- Il peut créer des vidéos dans divers styles, comme des prises de vue aériennes ou des time-lapses, avec possibilité d’ajustement via des prompts supplémentaires
- Il est déjà proposé à certains créateurs pour la production de vidéos YouTube, et Google le présente aussi comme un outil exploitable pour le cinéma
Intégration de Gemini à Workspace
- Gemini 1.5 Pro, le modèle de nouvelle génération, est intégré à la barre latérale de Docs, Sheets, Slides, Drive et Gmail
- Son déploiement est prévu le mois prochain pour les abonnés payants, avec un rôle d’assistant généraliste dans Workspace
- Il peut récupérer des informations à partir de tout le contenu présent dans Drive
- Il peut par exemple rédiger un e-mail en s’appuyant sur les informations du document actuellement consulté, ou rappeler à l’utilisateur de répondre plus tard à un e-mail en cours de lecture
Extension des capacités de Google Lens
- La recherche devient possible non seulement à partir d’images, mais aussi de vidéos
- Une nouvelle fonction permet de filmer une vidéo tout en posant une question, puis l’IA de Google va chercher sur le web des réponses pertinentes
Gemini exploite Google Photos
- La fonctionnalité "Ask Photos", prévue pour cet été, analysera la bibliothèque Google Photos de l’utilisateur pour répondre à ses questions
- Elle ira au-delà de la simple recherche de photos de chiens ou de chats et pourra répondre à des questions plus complexes, comme demander le numéro de plaque d’immatriculation de sa voiture, comme l’a montré Sundar Pichai
Gems : création de chatbots personnalisés dans Gemini
- Comme les GPT d’OpenAI, Gems permettra aux utilisateurs de donner des consignes à Gemini afin de personnaliser son style de réponse et ses domaines d’expertise
- Par exemple, il sera bientôt possible d’avoir un coach de course positif et persévérant qui fournit chaque jour de la motivation et un plan d’entraînement (pour les abonnés à Gemini Advanced)
Amélioration des capacités conversationnelles de Gemini
- La nouvelle fonction Gemini Live vise à rendre les échanges vocaux avec Gemini plus naturels
- La voix du chatbot gagne en personnalité, et l’utilisateur peut l’interrompre en cours de conversation ou lui demander d’utiliser en direct la caméra du smartphone pour recevoir des informations
- Gemini s’intègre à Google Calendar, Tasks et Keep pour mettre à jour ou récupérer des informations, en s’appuyant sur ses capacités multimodales, par exemple pour ajouter à son agenda personnel les détails d’un flyer
Circle to Search aide à résoudre les problèmes de maths
- Il est désormais possible d’entourer un problème de maths sur un téléphone ou une tablette Android pour obtenir de l’aide
- L’IA de Google ne donnera pas directement la réponse afin de ne pas encourager la triche aux devoirs, mais décomposera le problème étape par étape pour le rendre plus facile à terminer
Refonte IA de la recherche Google
- Les "AI Overviews" (anciennement appelés "Search Generative Experience") arrivent cette semaine dans tout le territoire américain
- Un modèle Gemini désormais "spécialisé" concevra les pages de résultats de recherche et les remplira de réponses résumées issues du web, à la manière d’outils de recherche IA comme Perplexity ou Arc Search
Détection des arnaques par l’IA sur Android
- Google explique que l’IA Gemini Nano embarquée sur l’appareil pourra aider à éviter les appels frauduleux en détectant des signaux d’alerte comme les schémas de conversation typiques des escrocs et en affichant des avertissements en temps réel
- Davantage de détails sur cette fonctionnalité seront communiqués plus tard dans l’année
Des appareils Android plus intelligents grâce à l’IA
- Google indique que Gemini permettra bientôt aux utilisateurs de poser des questions sur une vidéo affichée à l’écran, avec des réponses basées sur les sous-titres automatiques
- Pour les utilisateurs payants de Gemini Advanced, il pourra aussi absorber des PDF et en extraire des informations
- Ces mises à jour multimodales et d’autres évolutions de Gemini sur Android seront déployées dans les prochains mois
Un assistant IA arrive dans Google Chrome
- Google a annoncé l’ajout de Gemini Nano, une version légère, à Chrome sur desktop
- L’assistant intégré utilisera l’IA embarquée sur l’appareil pour aider directement dans Google Chrome à générer du texte pour des publications sur les réseaux sociaux, des avis produits, etc.
Mise à niveau du tatouage numérique IA SynthID
- Google a annoncé l’extension des capacités de SynthID
- Un tatouage numérique sera inséré dans les contenus générés par le nouveau générateur vidéo Veo, et il sera désormais aussi possible de détecter les vidéos générées par IA
6 commentaires
Il suffit largement que le chatbot soit proposé gratuitement, et comme je n’utilise pas les fonctionnalités liées aux images, à la vidéo ou à l’audio, je suis content de les voir intégrées aux produits existants.
Les avancées de l’IA Project Astra de Google et de la génération vidéo
Les modèles Gemini de Google sont largement utilisés par plus de 1,5 million de développeurs pour déboguer du code, obtenir des insights et créer des applications d’IA. Project Astra introduit un agent d’IA capable de traiter efficacement les informations d’entrée vidéo et audio, ainsi qu’un nouveau modèle avancé de génération vidéo, Vo. Vo peut produire des vidéos 1080p de haute qualité à partir de prompts textuels, d’images et de vidéos, offrant un niveau inédit de contrôle créatif. Développée par DeepMind de Google, cette technologie vise à concrétiser des idées auparavant impossibles à réaliser.
Le TPU de 6e génération de Google et une refonte innovante de l’IA
Google prévoit de lancer fin 2024 Trillium, son TPU de 6e génération, avec des performances de calcul par puce multipliées par 4,7, qui sera proposé aux clients cloud. L’entreprise introduit également de nouveaux CPU et GPU, dont les processeurs Axion et les GPU Envidia Blackwell, afin de prendre en charge divers workloads, ces derniers devant être disponibles au début de 2025. Google lance aussi Gemini, une expérience de recherche entièrement repensée et propulsée par l’IA, qui a fortement amélioré la satisfaction des utilisateurs et sera d’abord déployée aux États-Unis. Ce nouveau modèle de recherche permet des requêtes plus complexes et la recherche à partir de photos, tout en fournissant des résultats structurés pour une expérience utilisateur améliorée.
Les nouvelles fonctionnalités d’IA de Google et les innovations à venir
Google introduit une nouvelle page de résultats de recherche organisée par l’IA, en commençant par la nourriture et les recettes avant de s’étendre à d’autres catégories. L’IA peut utiliser des éléments contextuels comme la saison pour fournir une vue d’ensemble de la cause d’un problème et des étapes de résolution. L’IA de Google, Gemini, proposera bientôt une expérience en direct avec des experts personnels personnalisés appelés « gemmes » et s’intégrera à Project Astra pour les capacités de compréhension vidéo.
Présentation de Gemini, le nouvel assistant IA pour Android
Gemini est un nouvel assistant IA pour Android qui offre une expérience d’IA on-device tout en donnant la priorité à la confidentialité des données. Il est conçu pour fournir des suggestions contextuelles, comme aider aux études et proposer des instructions étape par étape pour résoudre des problèmes complexes. Gemini peut également aider à accomplir des tâches comme retrouver des images ou répondre à des questions précises, tout en s’intégrant de manière fluide au workflow de l’utilisateur.
L’impact de Gemini de Google sur l’usage du smartphone
Gemini apporte des fonctionnalités d’IA aux utilisateurs de smartphones, en permettant un accès facile aux informations contenues dans les documents et en fournissant des réponses claires à des questions précises. Le modèle foundation on-device améliore l’expérience sur smartphone grâce à des réponses plus rapides, tout en faisant de la confidentialité des utilisateurs une priorité. Le futur modèle Gemini Nano élargira encore les possibilités en permettant au téléphone de comprendre le monde à travers le texte, la vision, les sons et la langue parlée.
Corely, l’essentiel des vidéos YouTube en 10 secondes ! - https://corely.ai/content/google-io-2024-everything-revealed
Gemini Flash
Google DeepMind Veo
https://killedbygoogle.com
Je me demande quand Gemini entrera dans cette liste. Si ça ne rapporte pas d’argent, Google a l’habitude d’abandonner sans états d’âme, donc j’ai du mal à m’y attacher.
Sans l’annonce de GPT-4o, ça aurait été tout à fait correct, mais la présentation a vraiment perdu de son impact. Du point de vue de Google, ils doivent vraiment en vouloir à OpenAI.
OpenAI a lancé le pierre-feuille-ciseaux que Google avait montré en démo il y a longtemps, mais Google est encore loin du compte... J’ai donc regardé cette présentation en me demandant aussi vers quand tout ce qui a été annoncé cette fois sera réellement mis en œuvre lol