Deux puces pour l’ère des agents : les TPU de 8e génération de Google

(blog.google)

6 points par GN⁺ 2026-04-23 | 1 commentaires | Partager sur WhatsApp

Google a présenté deux TPU de 8e génération, synthèse de plus de dix ans de développement des TPU, avec une architecture spécialisée pour chacun : le TPU 8t dédié à l’entraînement des grands modèles et le TPU 8i dédié à l’inférence haute vitesse
Le TPU 8t permet à un seul superpod de monter jusqu’à 9 600 puces et 121 ExaFlops, avec une puissance de calcul par pod environ 3 fois supérieure à celle de la génération précédente
Le TPU 8i a été repensé pour l’inférence agentique en mettant l’accent sur l’optimisation de la bande passante mémoire et de la latence ; grâce à l’augmentation de la SRAM on-chip, à l’hôte CPU Axion et aux améliorations réseau pour les MoE, il atteint une amélioration de 80 % du rapport performance/coût
Les deux puces fonctionnent avec l’hôte CPU Axion basé sur ARM conçu par Google, avec jusqu’à 2 fois plus de performances par watt que la génération précédente
Il s’agit d’une stratégie d’infrastructure qui sépare et optimise l’entraînement et l’inférence pour l’ère où les agents IA raisonnent, planifient et exécutent en continu ; disponibilité générale prévue au second semestre de cette année, dans le cadre de Google AI Hypercomputer

Vue d’ensemble des TPU de 8e génération

Annonce au Google Cloud Next des Tensor Processor Unit (TPU) de 8e génération, déclinés en deux architectures : le TPU 8t pour l’entraînement et le TPU 8i pour l’inférence
Conçus pour faire tourner des supercalculateurs sur mesure, ils couvrent l’entraînement de modèles de pointe, le développement d’agents et les charges d’inférence à grande échelle
Google exploite depuis des années des modèles foundation majeurs, dont Gemini, sur TPU ; cette 8e génération apporte simultanément échelle, efficacité et performances pour l’entraînement, le serving et les charges agentiques
À l’ère des agents IA, les modèles doivent raisonner sur des problèmes, exécuter des workflows en plusieurs étapes et apprendre de leurs propres actions dans une boucle continue, ce qui impose de nouvelles exigences à l’infrastructure
Conçus en collaboration avec Google DeepMind pour gérer les charges IA les plus exigeantes et s’adapter à l’évolution des architectures de modèles

Plus de dix ans de philosophie de conception

Les TPU ont défini des standards pour les composants de supercalcul ML, comme les opérations numériques personnalisées, le refroidissement liquide et les interconnexions sur mesure ; la 8e génération représente l’aboutissement de plus de dix ans de développement
Principe central de conception : co-design du silicium avec le matériel, le réseau et le logiciel (y compris les architectures de modèles et les exigences applicatives), afin d’obtenir des progrès marqués à la fois en efficacité énergétique et en performances absolues
Citadel Securities est cité comme exemple d’organisation de premier plan ayant choisi les TPU pour ses charges IA

Pourquoi séparer entraînement et inférence

Les cycles de développement matériel étant bien plus longs que ceux du logiciel, chaque génération de TPU doit anticiper les technologies et la demande au moment de sa mise sur le marché
Google avait anticipé depuis plusieurs années la hausse de la demande en inférence liée au déploiement en production des modèles d’IA de pointe
Avec l’essor des agents IA, les exigences de l’entraînement et du serving divergent ; Google estime donc que des puces spécialisées distinctes profitent davantage à l’écosystème
Le TPU 8t est optimisé pour l’entraînement à grande échelle, avec davantage de débit de calcul et de bande passante scale-up
Le TPU 8i est optimisé pour les charges d’inférence sensibles à la latence, avec plus de bande passante mémoire, car au sein des interactions entre agents, même de petites inefficacités s’amplifient à grande échelle
Les deux puces peuvent exécuter des charges variées, mais cette spécialisation apporte des gains d’efficacité significatifs

TPU 8t : une machine de puissance pour l’entraînement

L’objectif est de ramener le cycle de développement des modèles de pointe de plusieurs mois à quelques semaines
Combine un débit de calcul de très haut niveau, de la mémoire partagée et de la bande passante inter-puces, avec un équilibre entre efficacité énergétique optimale et temps de calcul réellement productif
Puissance de calcul par pod environ 3 fois supérieure à celle de la génération précédente
Passage à l’échelle massif (Massive Scale)
- Un seul superpod TPU 8t peut monter jusqu’à 9 600 puces et 2 pétaoctets de HBM partagée
- Bande passante inter-puces multipliée par 2 par rapport à la génération précédente
- 121 ExaFlops de puissance de calcul, permettant aux modèles les plus complexes d’exploiter un unique grand pool mémoire
Utilisation maximale (Maximum Utilization)
- Intégration d’un accès au stockage 10 fois plus rapide
- Avec TPUDirect, les données sont injectées directement vers les TPU afin d’assurer l’utilisation maximale de bout en bout du système
Scalabilité quasi linéaire (Near-Linear Scaling)
- Le nouveau Virgo Network, combiné aux logiciels JAX et Pathways, permet une montée en charge quasi linéaire jusqu’à 1 million de puces dans un cluster logique unique
Fiabilité et disponibilité
- Objectif de goodput (temps de calcul productif utile) supérieur à 97 %
- Intègre des fonctions complètes de RAS (Reliability, Availability, Serviceability)
  - Télémétrie en temps réel sur des dizaines de milliers de puces
  - Détection automatique des liens ICI défectueux et reroutage sans interruption des tâches
  - OCS (Optical Circuit Switching) pour reconfigurer le matériel autour des incidents sans intervention humaine
- À l’échelle de l’entraînement frontier, les pannes matérielles, la latence réseau et les redémarrages de checkpoints sont du temps hors entraînement ; un écart de 1 point de pourcentage peut représenter plusieurs jours de calcul

TPU 8i : moteur d’inférence

À l’ère agentique, les utilisateurs attendent de pouvoir poser une question, déléguer une tâche et recevoir un résultat ; la puce est donc optimisée pour des flux complexes où plusieurs agents spécialisés collaborent en swarming
Pour éliminer l’« effet salle d’attente », la pile a été repensée autour de quatre innovations clés
Briser le mur de la mémoire (Breaking the Memory Wall)
- Équipé de 288GB de HBM et de 384MB de SRAM on-chip (3 fois plus que la génération précédente)
- Permet de conserver sur la puce l’ensemble du working set actif du modèle et d’éviter que le processeur reste inactif
Efficacité portée par Axion
- Double le nombre d’hôtes CPU physiques par serveur et adopte le CPU Axion basé sur ARM conçu par Google
- Optimise les performances du système global grâce à l’isolation NUMA (Non-Uniform Memory Architecture)
Montée en charge des modèles MoE
- Pour les derniers modèles Mixture of Expert (MoE), la bande passante ICI est doublée à 19.2 Tb/s
- La nouvelle architecture Boardfly réduit le diamètre réseau maximal de plus de 50 %, pour fonctionner comme une unité cohérente à faible latence
Élimination de la latence (Eliminating Lag)
- Le nouveau CAE (Collectives Acceleration Engine) on-chip décharge les opérations globales et réduit la latence sur puce jusqu’à 5 fois
Rapport performance/coût
- 80 % de performances en plus par dollar par rapport à la génération précédente, soit presque 2 fois plus de volume client servi à coût identique

Co-design avec Gemini, ouvert à tous

Les TPU de 8e génération constituent la dernière expression d’une philosophie de co-design dans laquelle chaque spécification est pensée pour répondre aux plus grands défis de l’IA
Topologie Boardfly : conçue pour répondre aux besoins de communication des meilleurs modèles d’inférence actuels
Capacité SRAM du TPU 8i : calibrée sur l’empreinte du cache KV des modèles d’inférence à l’échelle production
Objectif de bande passante du Virgo Network : dérivé des besoins de parallélisation de l’entraînement de modèles aux paramètres en milliers de milliards
Les deux puces fonctionnent, pour la première fois, avec l’hôte CPU Axion basé sur ARM conçu par Google, ce qui permet d’optimiser non seulement la puce, mais l’ensemble du système
Frameworks et accessibilité
- Support natif de JAX, MaxText, PyTorch, SGLang, vLLM
- Accès bare metal permettant un accès direct au matériel sans surcoût de virtualisation
- Contributions open source : implémentation de référence MaxText, Tunix pour l’apprentissage par renforcement, entre autres, afin de couvrir le chemin critique du développement au déploiement en production

Une conception axée sur l’efficacité énergétique à grande échelle

Dans les datacenters actuels, l’approvisionnement en puces n’est plus la seule contrainte : l’énergie est devenue la ressource limitante
L’efficacité est optimisée sur l’ensemble de la pile, avec une gestion intégrée de l’énergie ajustant dynamiquement la consommation selon la demande en temps réel
Les TPU 8t et TPU 8i offrent tous deux jusqu’à 2 fois plus de performances par watt que la génération précédente (Ironwood)
L’efficacité n’est pas seulement une métrique au niveau de la puce, mais un engagement au niveau système allant du silicium au datacenter
- Les connexions réseau sont intégrées sur la même puce que le calcul, ce qui réduit fortement le coût énergétique des déplacements de données dans les pods TPU
- Les datacenters ont eux aussi été co-conçus avec les TPU, avec une puissance de calcul 6 fois supérieure par unité d’énergie par rapport à il y a cinq ans
Les deux puces s’appuient sur une technologie de refroidissement liquide de 4e génération, indispensable pour maintenir une densité de performance impossible à atteindre en refroidissement par air
Le contrôle de l’ensemble de la pile, de l’hôte Axion à l’accélérateur, permet une optimisation de l’efficacité énergétique au niveau système impossible avec une conception séparée de l’hôte et de la puce

Une infrastructure pour l’ère agentique

Chaque grand changement dans l’informatique nécessite une innovation d’infrastructure, et l’ère agentique ne fait pas exception
L’infrastructure doit évoluer pour répondre aux besoins d’agents autonomes exécutant en continu des boucles de raisonnement, planification, exécution et apprentissage
Les TPU 8t et TPU 8i constituent la réponse de Google à ce défi : deux architectures spécialisées qui redéfinissent la construction des meilleurs modèles d’IA, l’orchestration parfaite de swarms d’agents et la gestion des tâches d’inférence les plus complexes
Les deux puces seront disponibles en disponibilité générale au second semestre de cette année
Elles seront proposées dans le cadre de Google AI Hypercomputer
- Une pile intégrée combinant matériel orienté usage (calcul, stockage, réseau), logiciels open (frameworks, moteurs d’inférence) et modèles de consommation flexibles (orchestration, gestion de cluster, modèles de livraison)

1 commentaires

GN⁺ 2026-04-23

Avis Hacker News

J’ai eu l’impression que Gemini 3 montrait déjà jusqu’où on peut aller avec un apprentissage centré sur l’efficacité. J’estime que Pro et Flash semblent probablement 5 à 10 fois plus petits que des modèles du niveau d’Opus ou de GPT-5 Les appels d’outils cassent souvent et, sur les tâches agentiques, ça reste globalement faible, donc le raisonnement et l’exécution semblent encore manquer de finition. Malgré ça, si on ne regarde que la résolution de problèmes pure sans outils ni recherche, mon impression est qu’il rivalise avec Opus et GPT, tout en paraissant bien plus petit J’ai l’impression que le jour où Google arrêtera le prototypage en phase preview pour sortir un vrai modèle finalisé, ils surprendront tout le monde avec un modèle qui dépassera le SOTA actuel d’environ une génération. Jusqu’ici, les modèles sortis m’ont donné l’impression d’être des prototypes poussés à la hâte en disponibilité générale pour les montrer aux investisseurs et les intégrer à la gamme comme preuve de concept
- Je suis sceptique sur cette estimation de 5 à 10 fois. Surtout pour Pro ; je pense plutôt qu’il est possible que Google fasse tourner un plus gros modèle de façon moins chère et plus rapide grâce à son hardware Gemini 3 Pro m’a paru être, globalement, le modèle le plus proche d’une intelligence humaine. Il est particulièrement fort dans les humanités, et sa capacité à produire du texte naturel dans de nombreuses langues humaines est à mon avis pratiquement numéro 1. Plus on va vers des langues de niche, plus cet écart semble s’accentuer, et pour moi cela suggère plutôt un modèle plus grand qu’un petit modèle Il est clairement faible en maths et sur les tâches agentiques, et l’app Gemini elle-même semble en retard au point de ne pas être très différente des débuts de ChatGPT il y a 3 ans, ce qui dégrade la performance perçue
- Je suis d’accord là-dessus aussi. Gemini-cli m’a vraiment semblé lamentable comparé à CC ou Codex Cela dit, je pense que la priorité de Google est de créer la meilleure IA pour renforcer ou remplacer la recherche traditionnelle. C’est leur cœur de métier, et leur position pour la monétisation est bien meilleure que celle de n’importe qui d’autre. À mon avis, ils disposent déjà d’un énorme avantage de distribution en matière de base d’utilisateurs et de volume de requêtes J’aimerais qu’ils augmentent aussi la priorité de Gemini-cli et poussent plus fort la concurrence dans ce domaine
- Si je me souviens bien, quand Gemini 3 Pro est sorti pour la première fois, il était considéré comme quasiment au même niveau que la version de Claude de l’époque. Mais le Gemini 3 actuel donne maintenant une impression assez datée Entre-temps, beaucoup de modèles chinois sont arrivés et Claude a été mis à jour plusieurs fois, donc aujourd’hui Google semble un peu en stagnation dans ce domaine. Cela dit, je pense aussi qu’ils pourraient bientôt surprendre avec une forte amélioration
- Je trouve que la dénomination preview chez Google est assez arbitraire. C’est une façon d’éviter des engagements sur la disponibilité ou la pérennité, et ça m’a semblé être une tactique RP permettant de dire qu’en cas d’échec, c’était juste de la qualité bêta
- Je me suis toujours demandé ce que je ratais avec Gemini. Pour moi, au mieux, ça ressemble à un modèle de second rang Pour la collecte d’informations, ça va à peu près, mais pour les tâches agentiques c’est presque inutile, et ça m’a toujours semblé agir comme s’il était ivre. Chez Antigravity, quand les crédits Claude sont épuisés, on a juste l’impression que la journée est finie Le discours selon lequel il utiliserait bien moins de tokens m’a fait rire, parce que dans mon expérience il tournait souvent dans une boucle de la mort sans même réussir à résoudre le problème
Pour faire de la grande IA aujourd’hui, j’ai l’impression qu’il faut en pratique soit acheter chez NVidia, soit louer chez Google. Et Google peut concevoir ses puces, ses moteurs et ses systèmes à l’échelle de l’ensemble du datacenter, ce qui lui permet d’optimiser des éléments qu’un vendeur de puces ne peut pas centraliser Donc j’estime que plus on monte en échelle, plus les systèmes Google seront toujours plus rentables. Pour info, je suis long sur GOOG, notamment pour cette raison
- Moi aussi j’aimerais miser sur Google, et je l’aurais probablement fait si l’expérience Gemini CLI était ne serait-ce qu’au niveau de Codex ou Claude Même avec un excellent hardware, si l’agent de code phare boucle en cherchant le token de fin de tour, sa valeur diminue fortement
- Je me demandais si Amazon ne fabriquait pas aussi quelque chose de similaire à ses propres puces de type TPU
- Ça m’a plutôt rappelé la formule : ne construisez pas votre château sur le royaume d’un autre Au final, acheter chez NVidia semble être le seul choix réaliste, et même là je ne pense pas que ce soit optimal
- Je suis plutôt à l’opposé de cette hypothèse, pour deux raisons : d’abord, Google a semblé limiter artificiellement sa production Ensuite, comme TSMC privilégie ceux qui peuvent payer le plus de capacité, je pense que les premiers slots d’un nouveau procédé iront à Nvidia En plus, GCP a des marges opérationnelles plus élevées que Hetzner ou lambdalabs, et il existe en pratique des locations GPU moins chères ; étudiants et petits chercheurs resteront donc probablement du côté GPU
- Personnellement, j’aurais probablement misé sur Google si sa direction avait été un peu plus inspirante Apple sous Cook était déjà plus tiède que du temps de Jobs, mais Google m’a donné l’impression d’être tombé d’une falaise. Si OpenAI n’avait pas sorti ChatGPT, ils auraient peut-être encore laissé cette technologie dormir dans des expériences internes. Aujourd’hui, on dirait au contraire que cela sert de moteur à l’ensemble de la R&D sur les puces
Pendant que d’autres entreprises captaient l’attention du cycle médiatique, Google semblait tranquillement suivre une trajectoire où il devenait plus fort, tout en accumulant des parts de marché côté grand public Sans doute grâce à son intégration verticale de l’IA depuis le départ, ils semblaient n’avoir presque aucun problème d’infrastructure ; à une époque l’entreprise paraissait finie, et maintenant on dirait qu’elle grossit dans toutes les directions comme une marée montante
- Cela dit, le subreddit Google Antigravity a l’air d’un chaos total https://www.reddit.com/r/GoogleAntigravityIDE/
- Je pense que d’ici 1 à 2 ans, le moment viendra où Google et Apple finiront par y gagner tous les deux Ils ne jouent pas à cette course de vitesse consistant à sortir tous les mois des produits encore bruts pour doubler leur valorisation ; j’espère qu’ils ont le temps d’observer, de réfléchir, puis de sortir de vrais produits très aboutis
- Je trouve que les derniers modèles open de Google sont assez compétitifs par rapport aux autres modèles open Il y a notamment de l’innovation sur les petits formats comme 2 à 4 Go, et j’ai l’impression que cela aide à réduire l’écart pour se rapprocher d’un raisonnement de qualité réaliste sur téléphone ou des appareils encore plus petits
- Une fois l’exagération retirée, OpenAI et Anthropic donnent l’impression de s’asperger mutuellement d’argent pour faire un feu de joie plus grand
- Je ne pense pas que l’adoption de l’IA soit une question aussi existentielle pour Google que pour OpenAI ou Anthropic En plus, quoi que dise Google, il lui est plus difficile de créer le hype que les deux autres, et au final cela sonne facilement comme de la communication corporate
En utilisant Gemini, ChatGPT et Claude tous les trois, j’ai constaté que Gemini utilisait de façon constante beaucoup moins de tokens que les deux autres Au final, si Gemini stagne à son niveau actuel, c’est peut-être simplement à cause d’un budget de réflexion plus faible Google a probablement le plus de compute et la structure de coûts la plus basse ; du coup je me demande pourquoi ils ne poussent pas aussi fort le compute d’inférence que les deux autres. Je ne sais pas si c’est à cause de la charge des autres services ou d’une stratégie centrée sur l’entraînement, mais je trouve ça assez intéressant
- J’ai utilisé Gemini Pro pendant quelques mois avec un abonnement Google One autour de 20 dollars, et j’ai eu l’impression qu’il lançait de manière constante moins de recherches web pour vérifier les informations que ChatGPT 5.4 Pro J’aurais aussi voulu comparer sur le code, mais l’extension Gemini pour VSCode ne fonctionnait pas, donc je n’ai pas pu Il y avait aussi beaucoup de bugs sur Android et sur l’app web, y compris un problème où l’historique des conversations disparaissait quand on passait d’un fil à l’autre, donc je pense résilier mon abonnement Google One ce mois-ci
- Je ne vois pas vraiment quel est l’avantage concurrentiel qui ferait choisir Gemini plutôt que Claude ou ChatGPT J’ai l’impression que la qualité de sortie n’est presque jamais au niveau des deux autres
- J’espère que la plateforme agentique enterprise annoncée aujourd’hui pourrait devenir le puits gravitationnel dans lequel les Fortune 500 placeront leurs charges de travail d’inférence
- Je suis à moitié convaincu que l’une des raisons principales pour lesquelles GLM-5 est meilleur que GLM-4.7, c’est qu’il est plus agressif dans l’usage des tokens Avec la 4.7, il était trop difficile de lui faire lire le code source suffisamment longtemps, alors que, une fois qu’il le faisait, il était assez compétent La frugalité est une qualité, mais elle peut aussi signifier ne pas réfléchir assez, ne pas considérer assez d’éléments, ou ne pas lire suffisamment le code source. Au final, l’arbitrage entre économiser les tokens et en utiliser beaucoup reste un domaine où personne n’a encore de certitude
L’idée qu’un superpod TPU 8t puisse monter jusqu’à 9 600 puces et 2 Po de mémoire partagée à haute bande passante était impressionnante Je ne suis pas expert du domaine, mais au moins à mes yeux cela ressemblait à un assez gros avantage concurrentiel pour Google
- Je pense aussi que c’est vrai. Mais sans percée du côté de la séparation entre instructions et données, je ne crois pas qu’on arrivera à créer une AGI
L’affirmation selon laquelle le TPU 8t et le TPU 8i offrent jusqu’à 2 fois plus de performance par watt que la génération précédente était assez impressionnante C’était d’autant plus intéressant que la génération précédente est récente au point d’être un produit de 2025. Le fait que le hardware d’entraînement et celui d’inférence soient séparés a aussi attiré mon attention, et je me demandais si les entreprises utilisant du hardware NV faisaient elles aussi cette séparation ou si c’était plus généraliste
- Le fait que l’entraînement soit compute-bound et l’inférence memory-bound est bien connu, mais d’après ce que je sais, les déploiements Nvidia ne sont généralement pas spécialisés dans l’un ou l’autre Beaucoup de clouds et de néoclouds ne possèdent pas les workloads eux-mêmes, donc la polyvalence compte, et une fois qu’on a investi dans des H200 coûteux et dans le réseau, il faut pouvoir les vendre à des clients variés Cela dit, avec des accélérateurs spécialisés pour l’inférence comme le Grok LPU de Vera Rubin ou Cerebras, je pense que la tendance à la spécialisation a déjà commencé
- Je ne peux pas l’affirmer pour NVIDIA, mais AWS dispose bien de ses propres puces d’entraînement et puces d’inférence séparées Cela dit, selon certaines rumeurs, les puces d’inférence sont trop faibles, si bien que certaines entreprises font aussi tourner l’inférence sur les puces d’entraînement
- Le hardware spécialisé offre en général des performances plus rapides, donc plus un domaine mûrit, plus on observe une tendance où des systèmes complexes et coûteux descendent vers des puces banales à 1 dollar, bon marché et omniprésentes C’est pour cela que j’ai l’impression que Google comprend bien mieux sa propre stack que les entreprises construites au-dessus de NVidia. Google possède tout, du clavier jusqu’au silicium, et semble avoir assez itéré pour savoir séparer les fonctionnalités qui se disputent les ressources
- Les puces d’entraînement peuvent malgré tout être assez utiles pour une inférence massive lente mais à haut débit Je pense que cette approche va devenir assez courante pour les usages peu sensibles au temps de réponse
- Le simple fait que Vera Rubin intègre des puces Groq pour l’inférence rapide montre qu’il y a une vraie tendance Avec une demande énergétique aussi forte, il paraît naturel de poursuivre toutes les optimisations possibles
J’utilise Gemini avec Junie de JetBrains, et même si Junie n’est pas aussi bon que Claude Code, il me semble largement devant les outils Google actuels Avec cette combinaison, j’obtiens de manière assez bon marché des résultats cohérents
- Même dans le contexte de l’IDE JetBrains et de ses outils, vous diriez que Junie est au niveau des produits concurrents ?
Parmi les grands fournisseurs d’inférence, j’ai l’impression que Google fait partie de ceux dont la politique de retrait des modèles est la plus pénible Ils suppriment un modèle exactement un an après son lancement et forcent le passage à la génération suivante ; comme ils utilisent leur propre silicium, je pensais justement qu’ils seraient plus stables, mais c’est l’inverse. Le rate limiting est aussi bien plus strict que chez OpenAI, donc je me demande si cela vient des TPU ou si c’est juste une décision politique étrange
- L’attitude de Google, qui met fin trop facilement aux anciennes versions de Gemini, était assez frustrante Mon interprétation, c’est que comme la plupart des outils n’utilisent que les modèles les plus récents, un nouveau modèle capte très vite plus de 90 % du volume total, puis une analyse coût-bénéfice à la Google s’applique, et l’ancien est éteint sans état d’âme La récente prolongation de la date d’EOL de Gemini 2.5 m’a au contraire surpris, et Google n’a jamais vraiment été une entreprise obsédée par ses clients
- Flash 2 n’est même pas encore en EOL avant juin, mais j’ai eu des 429 tout le week-end, avec un taux d’erreur de 90 % Je suis donc finalement passé à GPT 5.4 nano
S’il doit y avoir un gagnant final de l’IA, j’ai du mal à imaginer autre chose que Google, qui possède l’ensemble de la stack, ou Apple, qui pourrait déployer le plus grand nombre de sites edge compatibles IA
- À mon avis, le gagnant pourrait aussi être un wrapper de modèles locaux très bon sur des tâches précises Une solution conçue pour vraiment bien faire des choses comme la recherche, plutôt qu’un flatteur anthropomorphisé cherchant à plaire aux humains, me semble plus probable
- Je pense aussi qu’il y a une vraie possibilité que Google continue à se rater côté produit Leur force de distribution énorme peut leur permettre de tenir malgré tout, mais si un meilleur produit apparaît, ils peuvent encore subir une transition disruptive façon IE vers Chrome
Cette page présentait l’architecture plus en détail. https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive

Deux puces pour l’ère des agents : les TPU de 8e génération de Google

Vue d’ensemble des TPU de 8e génération

Plus de dix ans de philosophie de conception

Pourquoi séparer entraînement et inférence

TPU 8t : une machine de puissance pour l’entraînement

Passage à l’échelle massif (Massive Scale)

Utilisation maximale (Maximum Utilization)

Scalabilité quasi linéaire (Near-Linear Scaling)

Fiabilité et disponibilité

TPU 8i : moteur d’inférence

Briser le mur de la mémoire (Breaking the Memory Wall)

Efficacité portée par Axion

Montée en charge des modèles MoE

Élimination de la latence (Eliminating Lag)

Rapport performance/coût

Co-design avec Gemini, ouvert à tous

Frameworks et accessibilité

Une conception axée sur l’efficacité énergétique à grande échelle

Une infrastructure pour l’ère agentique

À lire aussi

1 commentaires

Avis Hacker News