Google dévoile Gemma 3 270M, un modèle compact pour une IA ultra-efficace
(developers.googleblog.com)- Gemma 3 270M est un modèle léger de 270 millions de paramètres, doté de solides capacités de suivi d’instructions et de structuration de texte
- Grâce à un grand vocabulaire de 256k tokens, il gère bien les tokens rares et a été conçu comme un modèle à affiner pour des domaines et langues spécifiques
- Sur le SoC du Pixel 9 Pro, le modèle quantifié en INT4 ne consomme que 0,75 % de batterie pour 25 conversations, illustrant une excellente efficacité énergétique
- Il convient à une stratégie consistant à exploiter de nombreux petits modèles spécialisés plutôt qu’un grand modèle généraliste afin d’optimiser vitesse, coût et précision
- Optimisé pour les exécutions on-device, les itérations rapides et l’exploitation à faible coût dans des tâches fixes, il permet de créer divers types d’applications IA
Aperçu de Gemma 3 270M
- Nouveau petit modèle spécialisé pour le fine-tuning dévoilé par Google après Gemma 3 et Gemma 3 QAT
- Parmi ses 270M de paramètres, 170 millions sont alloués aux embeddings et 100 millions aux blocs Transformer
- Son large vocabulaire de 256k tokens permet de traiter des tokens rares ou spéciaux
- Disponible en versions préentraînée (pretrained) et ajustée pour les instructions (instruction-tuned)
Principales caractéristiques
- Architecture compacte mais puissante : idéale pour le fine-tuning adapté à un domaine ou une langue spécifique
- Efficacité énergétique extrême : sur le SoC du Pixel 9 Pro, le modèle INT4 n’utilise que 0,75 % de batterie pour 25 conversations
- Capacité de suivi d’instructions : optimisé pour des tâches ciblées plutôt que pour la conversation généraliste, tout en pouvant suivre des instructions dès l’état initial
- Prise en charge de la quantification (QAT) : minimise la perte de performance en précision INT4, adaptée aux environnements contraints en ressources
La philosophie du « bon outil au bon endroit »
- Met l’accent sur une approche centrée sur l’efficacité dans la conception de l’IA
- Les petits modèles permettent des réponses rapides et une exploitation à faible coût
- Ils offrent de hautes performances lorsqu’ils sont spécialisés sur des tâches bien définies comme la classification de texte ou l’extraction de données
Cas d’usage concrets
- Adaptive ML a affiné le modèle Gemma 3 4B pour la modération de contenu multilingue de SK Telecom et a obtenu des performances supérieures à celles de grands modèles propriétaires
- Le modèle 270M étend cette approche à une échelle plus réduite, permettant de produire en masse des « modèles experts » pour différents groupes de tâches spécialisées
- L’application web Bedtime Story Generator de Hugging Face permet, grâce à Gemma 3 270M, de générer du contenu en temps réel hors ligne ou directement dans le navigateur web
Scénarios d’usage adaptés
- Traitement clair et volumineux de tâches : idéal pour des tâches métier spécifiques comme l’analyse de sentiments, l’extraction d’entités, le routage de requêtes, la transformation de texte, la création de contenu ou les contrôles de conformité
- Économie et vitesse maximales : fonctionne à très faible coût sur une infrastructure légère ou on-device, avec des réponses immédiates
- Développement et déploiement rapides : grâce à sa petite taille, les expériences de fine-tuning ainsi que l’optimisation et les tests peuvent être réalisés en quelques heures
- Protection de la vie privée : traitement embarqué sur l’appareil sans envoi vers le cloud, avantageux pour les informations sensibles
- Exploitation de modèles spécialisés sur mesure : possibilité de créer et déployer simultanément plusieurs modèles selon les objectifs, sans forte contrainte budgétaire
Fine-tuning et déploiement
- Le modèle peut être téléchargé depuis Hugging Face, Ollama, Kaggle, LM Studio, Docker, etc.
- Compatible avec divers outils d’inférence comme Vertex AI, llama.cpp, Gemma.cpp, LiteRT, Keras et MLX
- Des guides complets de fine-tuning sont proposés avec Hugging Face, UnSloth et JAX
- Déploiement flexible, de l’environnement local jusqu’à Google Cloud Run
Conclusion
- Gemma 3 270M est un modèle de base petit mais puissant qui accélère la création de solutions IA optimisées pour des tâches spécifiques
- Un choix idéal pour les développeurs qui recherchent à la fois faible coût, haute efficacité et déploiement rapide
3 commentaires
S’ils en faisaient un fichier
.task, je pourrais l’essayer à fond sur un smartphone Android..Il y avait un fichier
.task(non web) créé par quelqu’un, alors je l’ai essayé sur mobile, et il répond bien de façon concise et rapide.Mais j’ai l’impression que
qwen3:0.6b(même si, bien sûr, il est sans doute plus lourd) s’en sort mieux.Avis Hacker News
J’ai contribué à créer ces modèles avec une excellente équipe, et comme ils sont téléchargeables dans tout l’écosystème des modèles open, je recommande à tout le monde de les essayer. Nous les avons conçus pour offrir de solides performances au regard de leur taille, tout en permettant à chacun de les fine-tuner facilement selon son cas d’usage. Leur petite taille permet de les exécuter sur des matériels variés, et le coût du fine-tuning est très faible. Vous pouvez même les fine-tuner en moins de 5 minutes gratuitement sur Colab. Pour choisir la bonne taille de Gemma, vous pouvez aussi consulter la vidéo que j’ai enregistrée moi-même, qui présente les versions de 1b à 27b ainsi que la version 270m ajoutée récemment : lien YouTube. Je travaille comme chercheur chez Google, mais tous les avis exprimés ici sont strictement personnels. Je partagerai autant que possible en me concentrant sur les questions techniques
Je trouve les modèles Gemma 3 vraiment excellents. La génération en norvégien est correcte et le suivi d’instructions est bon dans la plupart des cas. En revanche, il semble y avoir un problème lié à la censure : sur des sujets sérieux en particulier, le modèle agit de manière trop conservatrice par rapport aux consignes. Par exemple, si on lui demande de classifier des messages de dialogue dans un jeu où les joueurs peuvent s’entretuer, pour distinguer une menace réelle d’une menace dans le jeu, ça ne fonctionne pas bien. Même si on lui dit de classer comme relevant du jeu quand le caractère in-game de la menace n’est pas clair, il tend à privilégier la sécurité. Il va même parfois jusqu’à afficher une ligne d’aide. J’imagine que cela vient de l’entraînement à la sécurité, mais je me demande si vous en connaissez la raison
Ça me rappelle un super ingénieur Google que j’avais rencontré à BSidesSF. Il avait répondu à mes questions avec beaucoup de sérieux, et en cliquant sur la vidéo j’ai vu que c’était vous ! C’était un moment très inspirant, merci
Je me demande si vous pourriez partager des cas réels de versions fine-tunées. Une simple description serait déjà bien, mais un démo ou même des poids de modèle téléchargeables seraient encore mieux, idéalement en format GGUF
C’est vraiment impressionnant. Il est rare de voir un modèle autour de 270M paramètres aussi efficace. Les choix d’architecture sont aussi nouveaux qu’intéressants. Je me demande si vous pourriez partager davantage d’informations sur l’entraînement. Les paramètres d’embedding représentent 170M, donc j’aimerais savoir comment vous avez réussi à stabiliser la matrice d’embedding pendant l’entraînement sans effondrement des embeddings. Je serais aussi curieux de savoir s’il existe des documents sur les expérimentations internes ou les compromis de performance autour de cette répartition des paramètres (170m/100m). Merci pour toute la série de modèles
Travail vraiment impressionnant. Ce modèle semble très bon pour des tâches ponctuelles comme le résumé ou l’autocomplétion. C’est aussi excellent d’avoir publié dès le lancement une version entraînée avec quantization-aware training, ce qui a permis de réduire encore la taille du modèle
La conversation avec le modèle 270M-F16 m’a marqué. Quand je lui ai demandé « quelle est la deuxième plus haute montagne de la Terre ? », il a continué à répondre « Everest ». À « et la première ? », il a répondu « Everest » aussi. « Et la troisième ? », « la quatrième ? » : toujours « Everest ». Quand je lui ai dit « tu as déjà dit que l’Everest était la plus haute », il a répondu « exact, joie ». Même en continuant à demander la deuxième plus haute montagne, il répétait seulement « Everest ». Ce n’est que lorsque j’ai demandé « la liste des montagnes classées de 1 à 5 » qu’il a changé sa réponse pour : 1. Everest, 2. K2, 3. Sahel, 4. Fuji, 5. McKinley. Et même quand je lui ai dit « donc la deuxième plus haute montagne, c’est K2 ? », il continuait à répondre « Everest ». Ces petits modèles sont formidables, mais on a vraiment l’impression de parler à un tout-petit
Ce modèle a environ 270M de paramètres, soit à peu près un tiers d’un 1B. En substance, il ne fait guère plus qu’un peu de multiplication de matrices, donc on ne peut pas attendre de lui beaucoup de connaissances, de grammaire ou de cohérence. Les modèles sous 1B sont des modèles spécialisés, optimisés pour des usages précis. Par exemple, ils conviennent bien à la transformation de texte d’entrée en une forme exploitable par un programme, comme l’extraction d’informations d’avis clients vers un objet JSON. Pour obtenir de bons résultats, il faut les fine-tuner de manière très ciblée sur les données attendues. Au final, si un modèle de 270MB peut produire le résultat voulu après fine-tuning, il n’y a aucune raison d’utiliser à la place un gros modèle généraliste de 32GB
Pour compléter, nous n’avions de toute façon pas pour objectif une fidélité factuelle parfaite. Quelle que soit la taille du modèle, ces poids sont déjà figés. Ce que je recommanderais, c’est soit de le connecter à un système RAG pour s’appuyer sur des connaissances externes, soit de le fine-tuner directement avec les seuls faits que vous voulez lui faire retenir. Il assimile aussi très vite de nouvelles connaissances
Utiliser le modèle 270M pour tester des connaissances encyclopédiques, c’est un peu comme regarder un JPG très compressé et dire « la qualité d’image est mauvaise »
En voyant le prompt, on dirait que vous essayez d’évaluer ses connaissances, mais ce modèle n’est pas fait pour ça. Comme indiqué dans le billet de blog, il « offre d’excellentes performances en précision, vitesse et coût pour des tâches comme la classification de texte ou l’extraction de données »
À la demande « fais-moi un itinéraire de 2 jours à Paris », il répond avec un programme de voyage détaillé heure par heure : sites emblématiques de Paris, monuments, visite de musées, découverte de diverses spécialités culinaires, promenade dans le Marais et le Quartier latin, visite du musée d’Orsay, etc. Il donne aussi des conseils de préparation très complets
Ce modèle est vraiment amusant. Avec une taille minuscule d’environ 241MB, il est extrêmement rapide tout en inventant librement presque n’importe quoi. Par exemple, à la demande « génère un SVG d’un pélican à vélo », le modèle a écrit un poème à la place (par exemple : « ceci est un chat, avec de grandes ailes et une queue heureuse », « la lumière du vélo brille vivement », « prêt pour l’aventure », etc.). J’ai publié plusieurs essais dans ce Gist. J’espère voir arriver des modèles fine-tunés capables de produire des résultats utiles sur des tâches bien ciblées
J’ai beaucoup ri devant cet essai. Il a généré une sorte de poème ou de chanson, puis a expliqué comment chaque ligne se reflétait dans le SVG, avant de conclure par « ce code SVG transmet la scène de manière claire et visuelle »
J’ai vu que vous utilisiez les ggufs d’ollama. Par défaut, on récupère le modèle quantifié Q4_0, mais on peut obtenir de meilleurs résultats avec
gemma3:270m-it-bf16ou avec les ggufs d’unsloth :hf.co/unsloth/gemma-3-270m-it-GGUF:16Il produit parfois beaucoup de tokens inutiles, mais il en produit vraiment une quantité énorme
Un téléchargement de 241MB, ça représente plus de 170 disquettes
À la question « quand Jules César est-il né ? », il a répondu « Jules César est né à Rome ». Magnifique :D (ce n’est pas pour le rabaisser, mais pour dire qu’il demandera davantage de travail de dressage)
Je pense qu’Apple devrait aussi faire ce genre de modèle. Si son objectif n’est pas de remplacer les accords de recherche par des accords IA, alors c’est vraiment étrange qu’Apple soit aussi peu visible sur le sujet. Tim Cook a parlé d’« une opportunité que nous devons saisir », mais à voir les évolutions récentes, on a l’impression qu’ils ont perdu leur direction. Bravo à Google
C’est ce qu’on lit dans tous les fils HN sur les LLM : ils seraient encore stupides et inutiles. Je ne suis pas d’accord avec cette idée, mais il est vrai qu’à ce jour, aucune entreprise n’a encore trouvé d’usage de l’IA dont la valeur d’investissement à long terme soit clairement démontrée. Apple a toujours eu l’habitude d’entrer tard sur un marché — MP3, smartphones, montres connectées — puis d’écraser la concurrence avec un produit innovant
Des modèles de niveau GPT2 sont déjà utilisés pour l’autocomplétion d’Apple plus de détails ici
Si « ce genre » de modèle désigne les SLM (small language models), alors Apple mène déjà des recherches sur le sujet depuis longtemps
Apple s’y met aussi. Il existe une documentation officielle : Foundation Models Doc. Avec la dernière bêta installée, on peut appeler directement l’API. En plus, Apple prend officiellement en charge le fine-tuning des modèles déployés sur presque tous ses appareils : documentation associée
Apple ne publiera pas ce genre de modèle. Comme on peut le voir dans d’autres commentaires, les performances sont insuffisantes pour l’instant. Il est vraiment difficile de trouver un modèle capable de générer des tokens à une vitesse acceptable en usage réel, sans faire chauffer l’appareil ni sortir des absurdités en permanence (j’en ai testé plusieurs moi-même). Apple n’a jamais aimé sortir des produits inachevés ou peu aboutis, et préfère retarder un lancement
J’utilise DistilBERT pour classifier des articles WordPress. J’ai plus de 100 000 données, et après fine-tuning je peux produire des rapports sans problème. Même avec une distribution déséquilibrée, on peut corriger une partie du problème avec quelques astuces. Je compte remplacer ça par ce modèle et comparer les performances, et je partagerai les résultats s’il y a du changement
Je me demande s’il existe des cas concrets où des utilisateurs ont réellement fine-tuné un modèle aussi petit pour le déployer en production
J’ai déjà utilisé un petit modèle comme reranker pour un système RAG. Après la génération de candidats (recherche vectorielle + BM25), la logique métier et les filtres ACL, le tiny model décidait si les morceaux de texte restants étaient réellement pertinents pour la requête, afin de les filtrer. Ça a bien été déployé en production, mais le module a fini par être retiré à cause de l’augmentation de la taille de contexte des modèles, ainsi que de problèmes de coût et de qualité. Cela dit, ça a bel et bien tourné en exploitation pendant un temps
Dans notre entreprise, on scale en faisant d’abord un tri avec un petit modèle, puis en vérifiant avec ChatGPT quand le niveau de confiance est élevé. Nous comptons aussi appliquer cette méthode à la détection de langue. Les modèles ML open source existants ont des faiblesses sur les langues mélangées, la longueur des phrases ou certains domaines spécifiques (par exemple lorsqu’ils ont été entraînés uniquement sur des traductions bibliques)
Je ne sais pas trop à quoi l’utiliser, mais ça semble convenir pour de la génération de tags. Des encodeurs de cette taille peuvent même parfois largement surpasser de plus gros modèles sur certaines tâches précises
Si je me souviens bien, Android — surtout sur Pixel — utilise des modèles Gemma fine-tunés pour des assistants on-device et autres usages similaires
Pour les commentaires sur 9gag.com
En ce moment, la compétition sur l’optimisation des modèles est intense, et je me demandais jusqu’où on peut réduire le nombre de paramètres en retirant les informations de langue ou de domaine jugées inutiles. Par exemple, si un modèle ne supportait que l’anglais, est-ce qu’on pourrait enlever le chinois ou les langues européennes et lui permettre d’accomplir davantage de tâches avec le même budget de paramètres ?
C’est précisément la question qui nous a le plus occupés en construisant ce modèle. Il y a un compromis selon le nombre de tâches que l’on vise et le niveau de performance attendu sur chacune. Il faut choisir d’autres données, d’autres stratégies d’entraînement, puis mesurer les performances. En pratique, je recommande d’entraîner le modèle sur votre propre ensemble de tâches pour évaluer ces compromis. Ce type d’expérimentation permet de ressentir concrètement comment les capacités d’un LLM évoluent
En réalité, ce n’est pas aussi simple. La transfer learning est une bonne piste à regarder
Je n’aurais jamais imaginé faire tourner sur mon iPhone un LLM annoncé en 2025, en BF16 pleine précision. Sur un iPhone 16 Pro, j’obtiens environ 80 tokens par seconde
Pour compléter l’article, le score IFEval exact de Gemma 3 270M est de 51.2. Qwen 3 se situe à (0.6, 59.2) sur le nuage de points
Je précise aussi que le choix du prompt a un impact énorme sur les performances de ce modèle. Le NER et le POS tagging étaient plutôt décevants. En revanche, la traduction de langues non indo-européennes vers l’anglais, comme le thaï ou l’indonésien, a fonctionné de manière étonnamment bonne