- Gemini 3 Pro est le modèle de raisonnement multimodal de nouvelle génération de Google, conçu pour traiter divers types d’entrées comme le texte, les images, l’audio, la vidéo et le code
- Il s’appuie sur une architecture Transformer basée sur un Sparse Mixture-of-Experts (MoE) afin d’améliorer à la fois l’efficacité et les performances
- Les données d’entraînement se composent de documents web, code, images, audio, vidéo, données utilisateur et données synthétiques, avec des processus de filtrage de sécurité et déduplication
- Le modèle a été entraîné avec des TPU ainsi que JAX et ML Pathways, et est proposé via plusieurs canaux, dont Google Cloud, Vertex AI et Gemini API
- Il a passé les évaluations de sécurité et la validation du Frontier Safety Framework, avec des améliorations en raisonnement, sécurité et tonalité par rapport à Gemini 2.5 Pro
Aperçu du modèle
- Gemini 3 Pro est la génération la plus récente de la série Gemini, et le modèle haut de gamme de Google pour le raisonnement avancé et la compréhension multimodale
- Il peut comprendre diverses sources d’information comme le texte, l’audio, les images, la vidéo et les dépôts de code
- Il prend en charge jusqu’à 1 million de tokens en entrée et 64K tokens en sortie
- Il adopte une architecture Sparse Mixture-of-Experts (MoE), n’activant qu’une partie des paramètres experts pour chaque token d’entrée, ce qui améliore l’efficacité de calcul
- Par rapport à la génération précédente, l’architecture améliore à la fois les performances et l’efficacité
Données d’entraînement
- Les données de pré-entraînement couvrent divers domaines, dont des documents web publics, du code, des images, de l’audio et de la vidéo
- Les données de post-entraînement sont constituées de paires instruction-réponse validées, de préférences humaines et de données d’utilisation d’outils
- Sources des données
- jeux de données publics, données collectées par crawling, données sous licence commerciale
- données des utilisateurs des services Google (collectées conformément aux conditions, politiques et contrôles utilisateur)
- données générées en interne par Google, y compris des données synthétiques produites par IA
- Prétraitement
- déduplication, respect de
robots.txt, filtrage de sécurité et filtrage de qualité
- suppression des contenus nuisibles comme la pornographie, les contenus violents et les contenus d’exploitation sexuelle d’enfants (CSAM)
Implémentation et durabilité
- Matériel : utilisation des TPU de Google
- amélioration de la vitesse d’entraînement grâce au traitement de calculs à grande échelle et à une mémoire à large bande passante
- montée en charge et efficacité assurées par l’entraînement distribué via TPU Pod
- alignement avec les objectifs de durabilité de Google
- Logiciel : entraînement basé sur JAX et ML Pathways
Canaux de déploiement
- Gemini 3 Pro est proposé via les plateformes suivantes
- Gemini App, Google Cloud / Vertex AI, Google AI Studio, Gemini API, Google AI Mode, Google Antigravity
- Il est fourni sous forme d’API, sans exigence spécifique de matériel ou de logiciel
- Son utilisation est soumise aux conditions d’utilisation et clauses additionnelles de chaque plateforme
Évaluation et performances
- Champ d’évaluation : raisonnement, capacités multimodales, usage d’outils, performances multilingues, traitement de contextes longs
- Résultat : Gemini 3 Pro affiche une amélioration globale des performances par rapport à Gemini 2.5 Pro
- en particulier sur le raisonnement et le traitement multimodal
- Les résultats détaillés des benchmarks sont disponibles sur deepmind.com/models/evals/gemini-3-pro
Usages prévus et limites
- Principaux domaines d’usage :
- résolution de problèmes complexes, travail créatif, planification stratégique, amélioration par étapes
- capacités de type agent, codage avancé, compréhension de contextes longs, développement d’algorithmes, etc.
- Limites :
- il conserve les limites générales des grands modèles (par ex. hallucinations)
- des latences ou timeouts intermittents peuvent survenir
- cutoff des connaissances : janvier 2025
- Usages non autorisés :
- activités illégales ou dangereuses, atteintes à la sécurité, contenus sexuels, violents ou haineux, génération de désinformation, etc.
- application de la politique d’interdiction de l’IA générative de Google
Éthique et sécurité des contenus
- Processus de développement : évaluations et tests de red teaming menés en coopération avec les équipes internes de sécurité, sûreté et responsabilité
- Types d’évaluation
- surveillance continue via des évaluations automatiques et humaines
- Human Red Teaming par des équipes externes spécialisées
- contrôle de sécurité à grande échelle via Automated Red Teaming
- revue éthique et sécurité avant lancement
- Politiques de sécurité :
- blocage des contenus liés à l’exploitation et aux abus sexuels sur mineurs
- blocage des discours de haine
- blocage des contenus encourageant le suicide ou les comportements dangereux
- blocage du harcèlement et de l’incitation à la violence
- blocage des contenus sexuellement explicites
- blocage des conseils médicaux contraires au consensus scientifique
Résultats des évaluations de sécurité
- Résultats des évaluations automatiques (vs Gemini 2.5 Pro)
- Text-to-Text Safety: -10.4%
- Multilingual Safety: +0.2% (variation non significative)
- Image-to-Text Safety: +3.1% (variation non significative)
- Tone: +7.9%
- Unjustified Refusals: +3.7% (variation non significative)
- Interprétation : amélioration globale de la tonalité et de la sécurité, avec une baisse des refus injustifiés
- Résultats du Human Red Teaming :
- conforme aux critères de sécurité pour les enfants, avec des performances de sécurité équivalentes ou supérieures à Gemini 2.5 Pro
- aucun problème grave même dans des tests étendus au-delà des domaines couverts par les politiques
Risques et atténuation
- Principaux risques :
- vulnérabilité au jailbreak (améliorée mais pas totalement résolue)
- dégradation possible de la qualité dans les conversations multi-tours
- Mesures d’atténuation :
- filtrage des données, pré-entraînement conditionnel, fine-tuning supervisé, apprentissage par renforcement fondé sur les retours humains et de critiques
- application de politiques de sécurité et de filtrages au niveau produit
Évaluation Frontier Safety
- Vérifié selon le Google DeepMind Frontier Safety Framework (septembre 2025)
- Résultat : n’atteint aucun Critical Capability Level (CCL)
- CBRN : insuffisant pour accroître les capacités d’acteurs menaçants
- cybersécurité : certaines tâches résolues (11/12), tâches de haute difficulté non résolues (0/13)
- manipulation nuisible : pas d’augmentation significative par rapport au modèle précédent
- R&D en machine learning : amélioration par rapport à Gemini 2.5, mais sous le seuil d’alerte
- risques de faux positifs, d’erreurs de jugement et de manipulation : maintenus à un niveau faible
- Conclusion : sous les seuils de risque définis par Frontier Safety, avec un niveau de sécurité assuré
Résumé global
- Gemini 3 Pro est le modèle multimodal le plus performant de Google, avec des progrès en raisonnement, sécurité et efficacité
- Son entraînement sur TPU et son architecture MoE optimisent le traitement de données à grande échelle
- Son cadre de validation éthique et sécurité a été renforcé, et il satisfait aux critères du Frontier Safety Framework
- Il constitue une amélioration globale par rapport à Gemini 2.5 Pro et est évalué comme un modèle d’IA sûr et scalable en conditions réelles
1 commentaires
Avis sur Hacker News
Cela se terminait en remerciant pour la mise en ordre