Gemini, l’IA multimodale

(deepmind.google)

2 points par GN⁺ 2023-12-07 | 1 commentaires | Partager sur WhatsApp

L’arrivée de l’ère Gemini

Gemini est construit sur des capacités multimodales couvrant le texte, l’image, la vidéo, l’audio et le code.
La première version de Gemini est présentée comme le modèle d’IA le plus performant à ce jour.
Il s’agit du premier modèle à dépasser des experts humains, avec d’excellentes performances sur le MMLU, qui évalue les connaissances et les capacités de résolution de problèmes des modèles d’IA.

Benchmark des capacités textuelles

Gemini Ultra affiche de hautes performances sur divers benchmarks, notamment le MMLU généraliste, Big-Bench Hard qui nécessite un raisonnement complexe, et DROP qui évalue la compréhension de lecture.
Il obtient aussi d’excellents résultats en raisonnement de sens commun au quotidien, en résolution de problèmes mathématiques et en génération de code Python.
Les performances sur d’autres méthodologies peuvent être consultées en détail dans le rapport technique.

Benchmark des capacités multimodales

Dans les domaines de l’image, de la vidéo et de l’audio également, Gemini dépasse l’état de l’art précédent.
Gemini Ultra montre de hautes performances pour résoudre divers problèmes académiques de niveau universitaire, en compréhension d’images naturelles et en compréhension de documents.
Dans le domaine audio, Gemini Pro devance les modèles concurrents en traduction automatique de la parole et en reconnaissance vocale.

Utilisation de Gemini Pro dans Bard

En essayant Gemini Pro dans Bard, il est possible de découvrir de nouvelles façons de créer, planifier et faire du brainstorming.

Avis de GN⁺

Le point le plus important de cet article est que le modèle d’IA Gemini dispose de capacités multimodales lui permettant de comprendre et de traiter diverses formes de données, comme le texte, l’image, la vidéo, l’audio et le code, tout en montrant des performances supérieures à celles d’experts humains sur plusieurs benchmarks.
Cette avancée illustre les progrès de la technologie IA et constitue une nouvelle intéressante, car elle devrait fortement élargir les possibilités d’utilisation de l’IA dans des domaines variés comme la création, la planification et l’apprentissage.

1 commentaires

GN⁺ 2023-12-07

Avis Hacker News

Article de blog connexe : lien vers un article de blog sur Gemini, la nouvelle technologie d’IA de Google, ainsi qu’un lien vers la discussion sur Hacker News. Gemini Ultra n’est pas encore lancé et il faudra encore attendre quelques mois.
Bard avec Gemini Pro n’est pas disponible en Europe et n’est pas multimodal. Il n’existe pas de statistiques publiques sur Gemini Pro, mais des informations sont dissimulées dans la documentation technique.
Avis selon lequel il s’agit d’un battage médiatique excessif, dans la mesure où aucun produit concurrent de GPT-4 n’a été lancé aujourd’hui. Il aurait été préférable de lancer un produit disponible dans la plupart des pays et accompagné des statistiques mises en avant dans la communication.
Performances impressionnantes de Gemini AI : à une question sur une fonctionnalité impossible en TypeScript, il répond correctement que c’est impossible et fournit un lien vers l’issue GitHub correspondante. GPT-4, lorsqu’il n’est pas en mode navigation web, génère mal les liens. Il reconnaît aussi plus vite que GPT-4 Pixi.js v8, encore en bêta, et en décrit correctement les principales fonctionnalités.
Explication pour ceux qui sont perdus parmi les versions de Gemini : celle qui est surtout discutée est Gemini Ultra, qui est présenté comme supérieur à GPT-4. Celle accessible via Bard est Gemini Pro.
Comparaison des performances en benchmark entre Gemini Ultra, Gemini Pro et GPT-4 d’après le rapport technique. Des comparaisons de scores sur différents jeux de données sont fournies.
Lien vers la vidéo de démonstration de Gemini AI.
Observation sur les principales déclarations de Sundar Pichai dans la vidéo : cela donne l’impression que Google veut souligner qu’il fait de l’IA depuis longtemps. Comme le modèle de pointe actuellement public a été créé par OpenAI, cette insistance paraît quelque peu déplacée. Avis selon lequel il vaudrait mieux montrer concrètement les résultats.
Informations indiquant qu’il est possible d’intégrer les modèles Gemini dans des applications via Google AI Studio et Google Cloud Vertex AI. Cela semble devoir être disponible à partir du 13 décembre.
Préoccupation concernant la difficulté de déterminer, dans les benchmarks, si les données de test faisaient partie des données d’entraînement. Exemple donné : GPT-4 commet des erreurs sur des problèmes de mathématiques tout en obtenant un score élevé sur GSM8k.
Divers avis sur le fait de dépasser GPT-4 de justesse. Expression de l’espoir qu’une concurrence plus intense profitera à tout le monde. Mécontentement face aux annonces anticipées et remarque selon laquelle il faut attendre la disponibilité réelle.
Lien vers une discussion sur le modèle Gemini sur Codeforces (plateforme de programmation compétitive). Expression de doutes sur l’affirmation selon laquelle il aurait résolu un problème de niveau 3200 sans fuite de données.
Forte attente autour de Gemini Nano. Dans un fil sur le Pixel 8, certains estimaient que l’utilisation d’une API web était provisoire et pourrait à terme être remplacée par un modèle embarqué sur l’appareil ; cela pourrait en être le début.

Gemini, l’IA multimodale

L’arrivée de l’ère Gemini

Benchmark des capacités textuelles

Benchmark des capacités multimodales

Utilisation de Gemini Pro dans Bard

Avis de GN⁺

À lire aussi

1 commentaires

Avis Hacker News