Carte du modèle Gemini 3 Pro

(pixeldrain.com)

2 points par GN⁺ 2025-11-19 | 1 commentaires | Partager sur WhatsApp

Gemini 3 Pro est le modèle de raisonnement multimodal de nouvelle génération de Google, conçu pour traiter divers types d’entrées comme le texte, les images, l’audio, la vidéo et le code
Il s’appuie sur une architecture Transformer basée sur un Sparse Mixture-of-Experts (MoE) afin d’améliorer à la fois l’efficacité et les performances
Les données d’entraînement se composent de documents web, code, images, audio, vidéo, données utilisateur et données synthétiques, avec des processus de filtrage de sécurité et déduplication
Le modèle a été entraîné avec des TPU ainsi que JAX et ML Pathways, et est proposé via plusieurs canaux, dont Google Cloud, Vertex AI et Gemini API
Il a passé les évaluations de sécurité et la validation du Frontier Safety Framework, avec des améliorations en raisonnement, sécurité et tonalité par rapport à Gemini 2.5 Pro

Aperçu du modèle

Gemini 3 Pro est la génération la plus récente de la série Gemini, et le modèle haut de gamme de Google pour le raisonnement avancé et la compréhension multimodale
- Il peut comprendre diverses sources d’information comme le texte, l’audio, les images, la vidéo et les dépôts de code
- Il prend en charge jusqu’à 1 million de tokens en entrée et 64K tokens en sortie
Il adopte une architecture Sparse Mixture-of-Experts (MoE), n’activant qu’une partie des paramètres experts pour chaque token d’entrée, ce qui améliore l’efficacité de calcul
Par rapport à la génération précédente, l’architecture améliore à la fois les performances et l’efficacité

Données d’entraînement

Les données de pré-entraînement couvrent divers domaines, dont des documents web publics, du code, des images, de l’audio et de la vidéo
Les données de post-entraînement sont constituées de paires instruction-réponse validées, de préférences humaines et de données d’utilisation d’outils
Sources des données
- jeux de données publics, données collectées par crawling, données sous licence commerciale
- données des utilisateurs des services Google (collectées conformément aux conditions, politiques et contrôles utilisateur)
- données générées en interne par Google, y compris des données synthétiques produites par IA
Prétraitement
- déduplication, respect de robots.txt, filtrage de sécurité et filtrage de qualité
- suppression des contenus nuisibles comme la pornographie, les contenus violents et les contenus d’exploitation sexuelle d’enfants (CSAM)

Implémentation et durabilité

Matériel : utilisation des TPU de Google
- amélioration de la vitesse d’entraînement grâce au traitement de calculs à grande échelle et à une mémoire à large bande passante
- montée en charge et efficacité assurées par l’entraînement distribué via TPU Pod
- alignement avec les objectifs de durabilité de Google
Logiciel : entraînement basé sur JAX et ML Pathways

Canaux de déploiement

Gemini 3 Pro est proposé via les plateformes suivantes
- Gemini App, Google Cloud / Vertex AI, Google AI Studio, Gemini API, Google AI Mode, Google Antigravity
Il est fourni sous forme d’API, sans exigence spécifique de matériel ou de logiciel
Son utilisation est soumise aux conditions d’utilisation et clauses additionnelles de chaque plateforme

Évaluation et performances

Champ d’évaluation : raisonnement, capacités multimodales, usage d’outils, performances multilingues, traitement de contextes longs
Résultat : Gemini 3 Pro affiche une amélioration globale des performances par rapport à Gemini 2.5 Pro
- en particulier sur le raisonnement et le traitement multimodal
Les résultats détaillés des benchmarks sont disponibles sur deepmind.com/models/evals/gemini-3-pro

Usages prévus et limites

Principaux domaines d’usage :
- résolution de problèmes complexes, travail créatif, planification stratégique, amélioration par étapes
- capacités de type agent, codage avancé, compréhension de contextes longs, développement d’algorithmes, etc.
Limites :
- il conserve les limites générales des grands modèles (par ex. hallucinations)
- des latences ou timeouts intermittents peuvent survenir
- cutoff des connaissances : janvier 2025
Usages non autorisés :
- activités illégales ou dangereuses, atteintes à la sécurité, contenus sexuels, violents ou haineux, génération de désinformation, etc.
- application de la politique d’interdiction de l’IA générative de Google

Éthique et sécurité des contenus

Processus de développement : évaluations et tests de red teaming menés en coopération avec les équipes internes de sécurité, sûreté et responsabilité
Types d’évaluation
- surveillance continue via des évaluations automatiques et humaines
- Human Red Teaming par des équipes externes spécialisées
- contrôle de sécurité à grande échelle via Automated Red Teaming
- revue éthique et sécurité avant lancement
Politiques de sécurité :
1. blocage des contenus liés à l’exploitation et aux abus sexuels sur mineurs
2. blocage des discours de haine
3. blocage des contenus encourageant le suicide ou les comportements dangereux
4. blocage du harcèlement et de l’incitation à la violence
5. blocage des contenus sexuellement explicites
6. blocage des conseils médicaux contraires au consensus scientifique

Résultats des évaluations de sécurité

Résultats des évaluations automatiques (vs Gemini 2.5 Pro)
- Text-to-Text Safety: -10.4%
- Multilingual Safety: +0.2% (variation non significative)
- Image-to-Text Safety: +3.1% (variation non significative)
- Tone: +7.9%
- Unjustified Refusals: +3.7% (variation non significative)
Interprétation : amélioration globale de la tonalité et de la sécurité, avec une baisse des refus injustifiés
Résultats du Human Red Teaming :
- conforme aux critères de sécurité pour les enfants, avec des performances de sécurité équivalentes ou supérieures à Gemini 2.5 Pro
- aucun problème grave même dans des tests étendus au-delà des domaines couverts par les politiques

Risques et atténuation

Principaux risques :
- vulnérabilité au jailbreak (améliorée mais pas totalement résolue)
- dégradation possible de la qualité dans les conversations multi-tours
Mesures d’atténuation :
- filtrage des données, pré-entraînement conditionnel, fine-tuning supervisé, apprentissage par renforcement fondé sur les retours humains et de critiques
- application de politiques de sécurité et de filtrages au niveau produit

Évaluation Frontier Safety

Vérifié selon le Google DeepMind Frontier Safety Framework (septembre 2025)
Résultat : n’atteint aucun Critical Capability Level (CCL)
- CBRN : insuffisant pour accroître les capacités d’acteurs menaçants
- cybersécurité : certaines tâches résolues (11/12), tâches de haute difficulté non résolues (0/13)
- manipulation nuisible : pas d’augmentation significative par rapport au modèle précédent
- R&D en machine learning : amélioration par rapport à Gemini 2.5, mais sous le seuil d’alerte
- risques de faux positifs, d’erreurs de jugement et de manipulation : maintenus à un niveau faible
Conclusion : sous les seuils de risque définis par Frontier Safety, avec un niveau de sécurité assuré

Résumé global

Gemini 3 Pro est le modèle multimodal le plus performant de Google, avec des progrès en raisonnement, sécurité et efficacité
Son entraînement sur TPU et son architecture MoE optimisent le traitement de données à grande échelle
Son cadre de validation éthique et sécurité a été renforcé, et il satisfait aux critères du Frontier Safety Framework
Il constitue une amélioration globale par rapport à Gemini 2.5 Pro et est évalué comme un modèle d’IA sûr et scalable en conditions réelles

1 commentaires

GN⁺ 2025-11-19

Avis sur Hacker News

Le commentaire original a été déplacé vers ce fil
Cela se terminait en remerciant pour la mise en ordre

Carte du modèle Gemini 3 Pro

Aperçu du modèle

Données d’entraînement

Implémentation et durabilité

Canaux de déploiement

Évaluation et performances

Usages prévus et limites

Éthique et sécurité des contenus

Résultats des évaluations de sécurité

Risques et atténuation

Évaluation Frontier Safety

Résumé global

À lire aussi

1 commentaires

Avis sur Hacker News