Vitesse, évolutivité, fiabilité : 25 ans d’évolution du networking des data centers de Google
(cloud.google.com)- Le réseau de Google ne s’est pas construit du jour au lendemain : il a évolué vers l’architecture réseau de data center Jupiter de 5e génération grâce à 25 années d’innovations d’ingénierie et d’étapes marquantes
- Aujourd’hui, le réseau Jupiter peut monter jusqu’à 13 pétabits/s de bande passante bidirectionnelle. Cela correspond à un niveau permettant aux 8 milliards d’habitants de la planète de passer simultanément des appels vidéo (@1.5Mb/s)
Principes clés
- N’importe quoi, n’importe où : le réseau de data center de Google permet de placer des tâches à grande échelle sur n’importe lequel des plus de 100 000 serveurs au sein du même fabric réseau. Une telle échelle améliore les performances applicatives pour les workloads internes et externes, et élimine la fragmentation interne
- Latence faible et prévisible : en provisionnant une marge de bande passante, en maintenant une disponibilité réseau de 99.999 %, et en gérant la congestion de manière proactive via la coopération entre hôtes terminaux et fabric, Google privilégie des performances constantes et la minimisation de la latence en queue
- Défini par logiciel et centré système : pour la flexibilité et l’agilité, Google exploite le software-defined networking (SDN) afin de valider des dizaines de nouvelles fonctionnalités toutes les deux semaines sur le réseau mondial, puis de les déployer à l’échelle globale
- Évolution progressive et topologie dynamique : l’évolution progressive permet de moderniser le réseau dans le détail sans interruption générale, tandis que la topologie dynamique aide à s’adapter en continu à l’évolution des besoins des workloads. La combinaison de la commutation de circuits optiques et du SDN prend en charge les mises à niveau physiques ainsi qu’un réseau hétérogène en évolution permanente, capable de faire coexister plusieurs générations de matériel au sein d’un seul fabric
- Traffic engineering et QoS orientée application : l’optimisation des flux de trafic et la garantie de la qualité de service aident à adapter le réseau aux exigences propres à chaque application
- Le réseau Jupiter SDN développé en interne par Google offre une fiabilité plus de 50 fois supérieure à celle de la génération précédente
Historique de l’évolution
2015 - Jupiter, premier réseau au pétabit
- Google a montré que le réseau de data center Jupiter pouvait atteindre une bande passante totale de 1.3 Pb/s en s’appuyant sur des switch ASIC du commerce, une topologie Clos et le software-defined networking (SDN)
- À l’époque, le débit de transfert de données d’un seul data center Google dépassait le débit total estimé du trafic IP de l’Internet mondial
2022 - Prise en charge de 6 pétabits/s
- Google a annoncé que le réseau Jupiter pouvait dépasser 6 Pb/s grâce à l’intégration poussée de la commutation de circuits optiques (OCS), du multiplexage en longueur d’onde (WDM) et du contrôleur SDN Orion hautement scalable
- Ces technologies ont permis diverses avancées, notamment une construction progressive du réseau, de meilleures performances, une réduction des coûts, une baisse de la consommation électrique, une gestion dynamique du trafic et des mises à niveau fluides
2023 - Réseau à 13 pétabits/s
- Google a encore amélioré Jupiter pour prendre en charge une vitesse de lien native de 400 Gb/s dans le cœur du réseau
- Le composant de base du réseau Jupiter (appelé bloc d’agrégation) se compose désormais de 512 ports, prenant en charge une bande passante bidirectionnelle non bloquante de 400 Gb/s pour les hôtes terminaux comme pour le reste du data center
- Le réseau prend en charge 64 de ces blocs, pour une bande passante bidirectionnelle totale de 64*204.8 Tb/s = 13.1 Pb/s
- Cette technologie alimente les data centers de production de Google depuis plus d’un an, et soutient les avancées rapides de l’intelligence artificielle, du machine learning, de la recherche web et d’autres applications intensives en données
Depuis 2024 - Le networking extrême à l’ère de l’IA
- Google a déjà défini l’orientation de son infrastructure réseau de nouvelle génération pour supporter l’IA
- L’entreprise travaille sur les exigences d’infrastructure réseau pour la prochaine génération de VM A3 Ultra basées sur GPU, avec le networking NVIDIA ConnectX-7
- Cela permet de prendre en charge 3.2 Tbps non bloquants par serveur pour le trafic inter-GPU via RoCE(RDMA over converged ethernet)
- Des travaux sont également en cours sur de futurs produits basés sur NVIDIA GB200 NVL72
Au cours des prochaines années, Google prévoit de soutenir des applications et services transformateurs grâce à des progrès significatifs de la bande passante par port et à l’échelle du réseau, à un renforcement de l’intégration des hôtes terminaux, à l’ingénierie de topologie en temps réel, à une intégration plus profonde avec la pile compute/storage et à une amélioration de l’équilibrage de charge côté hôte
Aucun commentaire pour le moment.