1 points par GN⁺ 2025-12-15 | 1 commentaires | Partager sur WhatsApp
  • Une hausse du taux d’erreur sur plusieurs modèles a été signalée sur la plateforme Claude
  • Les utilisateurs peuvent s’abonner aux notifications d’incident et de résolution par e-mail ou par SMS
  • Les notifications par SMS peuvent être configurées avec des numéros de différents pays via une liste mondiale d’indicatifs internationaux
  • Les abonnés peuvent recevoir les mises à jour par SMS après une vérification par OTP (mot de passe à usage unique)
  • Il s’agit d’un exemple du dispositif de supervision des incidents des services Claude opérés par Anthropic

Avis d’incident du service Claude

  • La page d’état de Claude indique un taux d’erreur élevé sur plusieurs modèles
    • Affiché avec la mention « Elevated errors across many models »
    • Aucune explication précise n’est donnée sur la cause ou l’étendue de l’impact

Mode d’abonnement aux alertes

  • Les utilisateurs peuvent recevoir des mises à jour sur les incidents par e-mail ou par SMS
    • L’e-mail envoie une notification à chaque mise à jour de l’incident
    • Les SMS sont envoyés lorsque Claude crée ou résout un incident

Procédure d’inscription aux alertes SMS

  • Pour recevoir des alertes par SMS, il faut suivre la procédure sélection de l’indicatif pays → saisie du numéro de mobile → vérification OTP
    • Le numéro doit être validé en saisissant un OTP (mot de passe à usage unique)
    • Une fois vérifié, il est possible de recevoir les mises à jour par SMS

Liste des pays pris en charge

  • La page comprend une liste d’indicatifs internationaux couvrant la plupart des pays du monde
    • Exemples : États-Unis (+1), Corée du Sud (+82), Japon (+81), Royaume-Uni (+44), Allemagne (+49), etc.
    • Les utilisateurs de chaque pays peuvent recevoir des alertes par SMS selon la même procédure

Signification du suivi de l’état du service

  • La page d’état de Claude sert de point d’accès public à la situation des incidents en temps réel des services Anthropic
    • Elle offre aux utilisateurs une fonction transparente de notification des incidents et de partage de l’avancement du rétablissement
    • Elle permet aux développeurs et aux clients entreprises de vérifier immédiatement la disponibilité du service

1 commentaires

 
GN⁺ 2025-12-15
Réactions sur Hacker News
  • J’ai trouvé impressionnant qu’ils aient mis à jour la page de statut dès que le problème est survenu
    J’utilisais Claude Code, j’ai vu une erreur API, puis j’ai vérifié la page de statut et l’incident y était bien indiqué
    À mon avis, ce genre de transparence devrait être la norme pour tous les services

    • Le réflexe de rendre l’incident public dès que l’impact utilisateur commence m’est resté de mon passage en SRE chez Google et Anthropic
      Le fait que j’utilisais justement Claude à ce moment-là m’a permis de comprendre immédiatement la gravité de la panne
    • J’ai moi aussi vérifié la page de statut deux minutes après avoir rencontré le problème, et elle était déjà à jour
    • J’étais en train de déboguer une erreur 529, donc cette panne m’a laissé un moment dans la confusion
    • Même situation pour moi, et dès que j’ai vu la page de statut, j’ai tout de suite cliqué sur s’abonner aux mises à jour
      On dirait que les utilisateurs de Claude travaillent dur même le dimanche soir
  • Je fais partie des ingénieurs de réponse à incident sur ce cas
    À 14:43 PT / 22:43 UTC, nous avions atténué le problème. Désolé pour la gêne occasionnée

    • Je suis aussi ingénieur dans cette équipe, et la cause était une erreur de configuration du routage réseau
      Des annonces de routes dupliquées ont envoyé le trafic destiné à certains backends d’inférence dans un black hole
      La détection a pris environ 75 minutes, et certaines voies d’atténuation n’ont pas fonctionné comme prévu
      Les routes incorrectes ont été supprimées et le service a été rétabli
      À l’avenir, nous allons renforcer le synthetic monitoring et la visibilité sur les changements d’infrastructure pour détecter ce type de problème plus rapidement
    • Je me demande si vous prévoyez de publier un rapport d’analyse d’incident comme Cloudflare
      Cette transparence m’a fait davantage confiance à Cloudflare
    • C’était gênant que ça ne fonctionne pas précisément au moment où j’avais absolument besoin de demander quelque chose à Claude
    • Bonne fin de week-end à vous
    • Par simple curiosité de développeur, j’aimerais mieux comprendre comment ce genre de problème peut survenir dans un environnement de déploiement à grande échelle
  • J’imagine une dystopie steampunk dans 50 ans
    « L’hébergement des LLM s’est arrêté, la production mondiale s’est figée et les marchés se sont effondrés. Sam, tu m’entends ? »
    Rien que d’y penser, ça me fait rire

    • L’idée que tout le monde utilise les mêmes trois fournisseurs centralisés d’inférence est aussi irréaliste que si tout le monde dépendait aujourd’hui de us-east-1 et de Cloudflare
    • Ce ne serait pas très différent d’une panne d’Internet ou de Cloudflare
    • Je me souviens que Karpathy a appelé ce genre de panne un « intelligence brownout »
      Vidéo associée : YouTube Shorts
    • Ça évoque une phrase du genre : « Seul un codeur solitaire, doué pour la manipulation symbolique, se tient encore entre l’humanité et les ténèbres »
    • On pourrait bientôt entendre la blague : « On a créé le problème en vibe coding, et maintenant que le LLM est en panne, on ne peut même plus le corriger à la vibe »
  • J’ai reçu ce message dans le chat Claude.ai

    "You have reached the messages quota for your account. It will reset in 2 hours, or you can upgrade now"
    

    Soit le timing était incroyablement parfait, soit les responsables de la monétisation méritent une prime

    • Il semble probable que la gestion des erreurs n’ait pas été correctement implémentée
      Le backend ne renvoie peut-être pas les erreurs 429/402, ou la gateway les traite mal et renvoie un mauvais message
    • J’ai vu le même message moi aussi, et j’ai simplement cru à un problème de timing
  • Si jamais ils arrêtent Opus 4.5, je vais pleurer

    • On voyait déjà des gens demander plus de crédits API comme des addicts
    • Tout le monde semble assez satisfait du prix
  • Juste avant la panne, Opus s’est mis à produire des réponses anormalement longues
    Même à une question simple, il répondait comme s’il recrachait toute la base de code, et sur une simple question concernant un schéma de base de données, la compression s’est déclenchée deux fois

  • canivibe.ai — selon le service utilisé, on pourra peut-être ajuster sa vibe

    • Le site est sympa, mais les embeds passent mal dans les applis de chat comme Discord
    • 89 % de disponibilité, c’est un chiffre un peu digne d’une blague
    • Le nom « Vibedetector » lui irait parfaitement
  • Je me demande si ce n’était pas en fait une panne AWS cette fois

  • D’après la page de statut, cela semble maintenant rétabli
    J’ai vu un agent rester bloqué dans la même boucle d’erreurs, puis cette fois produire correctement le résultat
    Je me demande s’ils n’ont pas ajouté une règle pour détecter automatiquement ce type d’incident, et j’ai trouvé la réponse assez inspirante