2 points par GN⁺ 2025-06-13 | 1 commentaires | Partager sur WhatsApp
  • Une panne de service s’est produite sur Google Cloud Platform
  • Des erreurs persistent sur le service Vertex AI Online Prediction
  • La vérification de l’état des services personnalisés est devenue difficile
  • Des anomalies de service affectant des utilisateurs de plusieurs régions ont été signalées
  • La nécessité d’un retour à la normale et d’une identification précise de la cause a été soulevée

Aperçu de la panne

  • Une indisponibilité de service a été signalée sur Google Cloud Platform
  • En particulier, la survenue d’erreurs persistantes a été confirmée sur des fonctionnalités comme Vertex AI Online Prediction

Portée de l’impact et situation actuelle

  • Le problème affecte également la vérification de l’état de services tels que Personalized Service Health
  • Des utilisateurs de différentes régions rencontrent des difficultés d’accès ou d’utilisation des services

Conclusion et perspectives

  • La nécessité d’un rétablissement du service et d’une analyse de la cause de la panne est mise en avant
  • Une communication complémentaire sur les mesures de rétablissement et les actions concrètes est attendue

1 commentaires

 
GN⁺ 2025-06-13
Avis sur Hacker News
  • Explication de la panne de Chemist, un service central interne à Google ; Chemist fournit diverses vérifications de politiques concernant l’état des projets, leur activation, les abus éventuels, la facturation, les restrictions de localisation, les VPC Service Controls, SuperQuota, etc. Cela permet de comprendre l’apparition de nombreux messages d’erreur comme « visibility check (of the API) failed » ou « cannot load policy ». Un lien vers la documentation détaillée sur les vérifications de politiques est partagé. EDIT : Google a annoncé une panne de Google Cloud due à un « Identity and Access Management Service Issue »
    • J’utilise Expo pour le relais des notifications, et je me demande si FCM a aussi été affecté par cette panne de Google
    • De nombreux services internet sont tombés simultanément ; ce n’est pas uniquement un problème de GCP. On suppose que le service Chemist a été particulièrement touché depuis l’extérieur, ce qui a propagé la panne jusqu’au réseau interne de GCP
  • De nombreuses erreurs sont apparues en utilisant Claude Sonnet 4 (Cursor) et Gemini Pro ; lamentation sur le retour à décembre 2024, où il faudrait réécrire 100 % du code à la main comme un homme des cavernes
    • J’ai eu exactement le même problème dans AI Studio, avec le message « échec de la génération de contenu en raison d’un dépassement du quota utilisateur »
    • J’étais en train de tester l’upload de fichiers sur Cloud Storage, mais c’est sans doute le bon moment pour aller se promener
    • Des erreurs similaires se produisent aussi dans le mode Auto Agent de Cursor
    • Blague : développeur avant le 12 juin 2025 : « L’IA ? Juste une machine à hallucinations, elle ne me remplacera jamais ! » / développeur pendant la panne du 12 juin 2025 : « Sans IA, ça veut dire que je suis un esclave ? »
    • Astuce : le mode Auto reste utilisable
  • Cloudflare est également en panne. La page Cloudflare status signale des incidents intermittents sur divers services (Access, WARP, Durable Objects basés sur SQL, Workers KV, Realtime, Workers AI, Stream, ainsi qu’une partie du tableau de bord Cloudflare) et continue de mettre à jour l’évaluation de l’impact. La discussion Hacker News associée est partagée
    • Si Cloudflare dépend de GCP, alors cette panne est vraiment énorme
    • Avis selon lequel le lien fonctionnait anormalement, avec mention d’un moment où il était brièvement vide
  • À 18:43 UTC, presque tous les services semblaient en panne ; partage du lien downdetector
    • Même les graphiques de ce service semblent peut-être collecter leurs données sur GCP. Pendant un appel avec un représentant de Google, quelqu’un a dit qu’AWS était aussi en panne ; je reconnais avoir spéculé sans vérifier en parlant d’une possible « attaque BGP »
    • Question : « Tous les services sont-ils des services Google ? »
    • Quelqu’un dit ne pas avoir imaginé qu’une panne de Google pourrait aussi affecter AWS ou Microsoft 365
    • Affirmation selon laquelle, dans un incident de cette ampleur, Downdetector devient une source d’informations fausses à 100 %
    • Blague selon laquelle leur logique de détection tourne peut-être elle aussi sur Google Cloud
  • Toutes les pages de statut affichaient du vert, alors que de nombreux signalements de panne remontaient en pratique ; partage du moniteur de panne Google Cloud
    • Doute sur l’utilité même des pages de statut : plus de 100 000 utilisateurs rapportaient ne pas pouvoir utiliser Google Meet ; si les grandes entreprises ne reflètent pas la situation réelle sur leurs pages de statut, elles n’ont plus de raison d’exister. Partage supplémentaire de Google Apps Status et de la page de statut GCP. EDIT : dans la minute suivant la publication, la page de statut GCP a été mise à jour et a fait apparaître des pannes sur de nombreux services, dont Cloud Data Fusion, Cloud Memorystore et Cloud Shell
    • Lien vers l’annonce officielle de l’incident
    • Lien indiquant les mises à jour en cours sur l’impact pour console, dataproc, GCS, IAM, Identity Platform, etc.
    • Dans notre entreprise aussi, avec plusieurs centaines de personnes en télétravail, plus de 90 % des tentatives de connexion à Google Meetings se sont soldées par des erreurs 504
  • La panne de Cloudflare vient elle aussi d’être mise à jour : des services essentiels comme Workers KV sont hors ligne à cause d’une panne chez un prestataire tiers, ce qui affecte directement la diffusion d’informations sur les produits Cloudflare qui en dépendent
  • Firebase Auth est également tombé, affectant de nombreuses apps ; sur les communautés Discord et Slack aussi, beaucoup d’utilisateurs rapportent avoir vécu le problème en même temps. Déception exprimée face à l’absence totale de message sur la page de statut pendant près de 30 minutes. Firebase Status
    • La page de statut vient enfin d’être mise à jour ; c’est peut-être lié au fait que la panne interne ralentissait aussi la remontée des informations
  • La panne a également mis à terre les messages RCS, révélant très clairement la fragilité de la conception technique ou de l’infrastructure
    • Réaction : au fond, RCS n’est-il pas juste de la messagerie instantanée ? Donc la panne n’a rien de surprenant
    • Voilà donc pourquoi je n’ai pas reçu aujourd’hui les photos du chien de mes parents
    • Surprise d’avoir enfin trouvé la cause de l’échec de mes discussions RCS tout à l’heure
    • Blague disant qu’il aurait fallu utiliser Erlang
  • Recherche d’un bon tableau de bord pour vérifier une anomalie de routage BGP ; consultation de Cloudflare Radar Routing, mais comme il n’affiche pas les fuites de routes réelles, demande d’autres recommandations
    • Réaction d’une personne qui découvre Cloudflare Radar et trouve le service excellent, tout en supposant qu’avec la panne actuelle, certains tableaux de bord risquent eux aussi de mal fonctionner ; recommandations de RIPE Atlas, du rapport global IHR, de IHR Network, de BGP He.net et du tableau de bord IODA
    • L’outil que j’utilise de base est bgp.tools, mais je me demande pourquoi tu penses que cette panne est liée à BGP
    • Je débute moi aussi, mais j’aimerais savoir si de gros sauts soudains dans la section « Announced IP Address Space » sont quelque chose de normal
    • Soupçon d’une attaque BGP
  • Commentaire humoristique : heureusement que Hacker News fonctionne sur un unique serveur bare metal, sans dépendre de toute cette infrastructure complexe