2 points par GN⁺ 2025-11-19 | 1 commentaires | Partager sur WhatsApp
  • Gemini 3 Pro est le modèle de raisonnement multimodal de nouvelle génération de Google, conçu pour traiter divers types d’entrées comme le texte, les images, l’audio, la vidéo et le code
  • Il s’appuie sur une architecture Transformer basée sur un Sparse Mixture-of-Experts (MoE) afin d’améliorer à la fois l’efficacité et les performances
  • Les données d’entraînement se composent de documents web, code, images, audio, vidéo, données utilisateur et données synthétiques, avec des processus de filtrage de sécurité et déduplication
  • Le modèle a été entraîné avec des TPU ainsi que JAX et ML Pathways, et est proposé via plusieurs canaux, dont Google Cloud, Vertex AI et Gemini API
  • Il a passé les évaluations de sécurité et la validation du Frontier Safety Framework, avec des améliorations en raisonnement, sécurité et tonalité par rapport à Gemini 2.5 Pro

Aperçu du modèle

  • Gemini 3 Pro est la génération la plus récente de la série Gemini, et le modèle haut de gamme de Google pour le raisonnement avancé et la compréhension multimodale
    • Il peut comprendre diverses sources d’information comme le texte, l’audio, les images, la vidéo et les dépôts de code
    • Il prend en charge jusqu’à 1 million de tokens en entrée et 64K tokens en sortie
  • Il adopte une architecture Sparse Mixture-of-Experts (MoE), n’activant qu’une partie des paramètres experts pour chaque token d’entrée, ce qui améliore l’efficacité de calcul
  • Par rapport à la génération précédente, l’architecture améliore à la fois les performances et l’efficacité

Données d’entraînement

  • Les données de pré-entraînement couvrent divers domaines, dont des documents web publics, du code, des images, de l’audio et de la vidéo
  • Les données de post-entraînement sont constituées de paires instruction-réponse validées, de préférences humaines et de données d’utilisation d’outils
  • Sources des données
    • jeux de données publics, données collectées par crawling, données sous licence commerciale
    • données des utilisateurs des services Google (collectées conformément aux conditions, politiques et contrôles utilisateur)
    • données générées en interne par Google, y compris des données synthétiques produites par IA
  • Prétraitement
    • déduplication, respect de robots.txt, filtrage de sécurité et filtrage de qualité
    • suppression des contenus nuisibles comme la pornographie, les contenus violents et les contenus d’exploitation sexuelle d’enfants (CSAM)

Implémentation et durabilité

  • Matériel : utilisation des TPU de Google
    • amélioration de la vitesse d’entraînement grâce au traitement de calculs à grande échelle et à une mémoire à large bande passante
    • montée en charge et efficacité assurées par l’entraînement distribué via TPU Pod
    • alignement avec les objectifs de durabilité de Google
  • Logiciel : entraînement basé sur JAX et ML Pathways

Canaux de déploiement

  • Gemini 3 Pro est proposé via les plateformes suivantes
    • Gemini App, Google Cloud / Vertex AI, Google AI Studio, Gemini API, Google AI Mode, Google Antigravity
  • Il est fourni sous forme d’API, sans exigence spécifique de matériel ou de logiciel
  • Son utilisation est soumise aux conditions d’utilisation et clauses additionnelles de chaque plateforme

Évaluation et performances

  • Champ d’évaluation : raisonnement, capacités multimodales, usage d’outils, performances multilingues, traitement de contextes longs
  • Résultat : Gemini 3 Pro affiche une amélioration globale des performances par rapport à Gemini 2.5 Pro
    • en particulier sur le raisonnement et le traitement multimodal
  • Les résultats détaillés des benchmarks sont disponibles sur deepmind.com/models/evals/gemini-3-pro

Usages prévus et limites

  • Principaux domaines d’usage :
    • résolution de problèmes complexes, travail créatif, planification stratégique, amélioration par étapes
    • capacités de type agent, codage avancé, compréhension de contextes longs, développement d’algorithmes, etc.
  • Limites :
    • il conserve les limites générales des grands modèles (par ex. hallucinations)
    • des latences ou timeouts intermittents peuvent survenir
    • cutoff des connaissances : janvier 2025
  • Usages non autorisés :
    • activités illégales ou dangereuses, atteintes à la sécurité, contenus sexuels, violents ou haineux, génération de désinformation, etc.
    • application de la politique d’interdiction de l’IA générative de Google

Éthique et sécurité des contenus

  • Processus de développement : évaluations et tests de red teaming menés en coopération avec les équipes internes de sécurité, sûreté et responsabilité
  • Types d’évaluation
    • surveillance continue via des évaluations automatiques et humaines
    • Human Red Teaming par des équipes externes spécialisées
    • contrôle de sécurité à grande échelle via Automated Red Teaming
    • revue éthique et sécurité avant lancement
  • Politiques de sécurité :
    1. blocage des contenus liés à l’exploitation et aux abus sexuels sur mineurs
    2. blocage des discours de haine
    3. blocage des contenus encourageant le suicide ou les comportements dangereux
    4. blocage du harcèlement et de l’incitation à la violence
    5. blocage des contenus sexuellement explicites
    6. blocage des conseils médicaux contraires au consensus scientifique

Résultats des évaluations de sécurité

  • Résultats des évaluations automatiques (vs Gemini 2.5 Pro)
    • Text-to-Text Safety: -10.4%
    • Multilingual Safety: +0.2% (variation non significative)
    • Image-to-Text Safety: +3.1% (variation non significative)
    • Tone: +7.9%
    • Unjustified Refusals: +3.7% (variation non significative)
  • Interprétation : amélioration globale de la tonalité et de la sécurité, avec une baisse des refus injustifiés
  • Résultats du Human Red Teaming :
    • conforme aux critères de sécurité pour les enfants, avec des performances de sécurité équivalentes ou supérieures à Gemini 2.5 Pro
    • aucun problème grave même dans des tests étendus au-delà des domaines couverts par les politiques

Risques et atténuation

  • Principaux risques :
    • vulnérabilité au jailbreak (améliorée mais pas totalement résolue)
    • dégradation possible de la qualité dans les conversations multi-tours
  • Mesures d’atténuation :
    • filtrage des données, pré-entraînement conditionnel, fine-tuning supervisé, apprentissage par renforcement fondé sur les retours humains et de critiques
    • application de politiques de sécurité et de filtrages au niveau produit

Évaluation Frontier Safety

  • Vérifié selon le Google DeepMind Frontier Safety Framework (septembre 2025)
  • Résultat : n’atteint aucun Critical Capability Level (CCL)
    • CBRN : insuffisant pour accroître les capacités d’acteurs menaçants
    • cybersécurité : certaines tâches résolues (11/12), tâches de haute difficulté non résolues (0/13)
    • manipulation nuisible : pas d’augmentation significative par rapport au modèle précédent
    • R&D en machine learning : amélioration par rapport à Gemini 2.5, mais sous le seuil d’alerte
    • risques de faux positifs, d’erreurs de jugement et de manipulation : maintenus à un niveau faible
  • Conclusion : sous les seuils de risque définis par Frontier Safety, avec un niveau de sécurité assuré

Résumé global

  • Gemini 3 Pro est le modèle multimodal le plus performant de Google, avec des progrès en raisonnement, sécurité et efficacité
  • Son entraînement sur TPU et son architecture MoE optimisent le traitement de données à grande échelle
  • Son cadre de validation éthique et sécurité a été renforcé, et il satisfait aux critères du Frontier Safety Framework
  • Il constitue une amélioration globale par rapport à Gemini 2.5 Pro et est évalué comme un modèle d’IA sûr et scalable en conditions réelles

1 commentaires

 
GN⁺ 2025-11-19
Avis sur Hacker News
  • Le commentaire original a été déplacé vers ce fil
    Cela se terminait en remerciant pour la mise en ordre