1 points par GN⁺ 2024-08-21 | 1 commentaires | Partager sur WhatsApp

Autopsie d’un effondrement mental à 2 h du matin

  • La prise de conscience de 2 h du matin

    • À 2 h du matin, il ressentait un stress extrême et se trouvait au bord de l’effondrement mental
    • La raison : tous les appels HTTP POST de jumpcomedy.com échouaient
    • Des changements récents avaient été déployés, mais rien ne semblait pouvoir provoquer ce problème
    • En local, tout fonctionnait normalement, mais impossible de trouver la cause du problème
  • Un état d’isolement

    • Pour la première fois en 25 ans de carrière, il s’est retrouvé dans une situation où il ne pouvait demander de l’aide à personne
    • Les plaintes des clients s’accumulaient, et aucun support n’était disponible pour résoudre la situation
    • Il avait l’impression de décevoir les personnes qui lui faisaient confiance et comptaient sur lui
  • Auto-accusation et désespoir

    • Il se demandait s’il devait fermer l’entreprise ou envoyer un e-mail d’excuses à ses clients
    • Incapable de trouver la cause du problème, il s’en voulait profondément
  • L’entrée en scène d’Eminem

    • Il a essayé de se calmer avec des paroles d’Eminem, mais cela n’a eu aucun effet
    • Il a tenté différentes approches, sans parvenir à identifier la cause du problème
  • Le réconfort de sa femme

    • Sa femme lui a apporté du thé pour le réconforter, mais cela n’a pas aidé à résoudre le problème
    • Les e-mails des clients continuaient de s’accumuler
  • L’alternance entre espoir et désespoir

    • Il a espéré qu’une mise à jour de Chrome soit en cause, mais le même problème se produisait aussi dans d’autres navigateurs
    • Il a essayé plusieurs pistes, mais le problème restait entier
  • Le problème avec PostHog

    • En ajoutant la clé API de PostHog, le problème a aussi pu être reproduit en local
    • En supprimant PostHog, le problème a été résolu
    • Il a ressenti de la colère et des regrets envers PostHog, mais s’est finalement satisfait d’avoir trouvé la solution

Récapitulatif GN⁺

  • Ce texte montre bien le stress extrême et le sentiment d’isolement qu’un développeur peut traverser
  • L’alternance entre désespoir et espoir dans le processus de résolution est décrite de façon très vivante
  • Il rappelle que des outils comme PostHog peuvent eux aussi être à l’origine de problèmes
  • Parmi les outils offrant des fonctions similaires, Mixpanel ou Amplitude sont recommandés

1 commentaires

 
GN⁺ 2024-08-21
Avis Hacker News
  • Partage d’expérience sur l’apprentissage de la résolution de problèmes en travaillant comme SRE

    • Il est important de réfléchir pendant 5 à 10 minutes avant de résoudre un problème
    • La peur entrave le raisonnement rationnel
    • Se laver le visage et les mains avec de l’eau très froide peut aider
    • Après quelques expériences, on gagne en confiance
  • Explication de la différence entre un effondrement mental et une crise d’angoisse

    • Une crise d’angoisse est une situation incontrôlable
    • Le Xanax peut aider
    • Il faut comprendre qu’on ne peut pas travailler lorsqu’une crise d’angoisse survient
  • Une ligne de code de PostHog a provoqué le problème

    • Mise en avant du principe « If you ship it, you own it »
    • Il ne faut pas inclure d’éléments non essentiels dans les chemins critiques
  • Le bug provenait d’un window.fetch monkey-patché

    • Les bibliothèques qui patchent des fonctions globales doivent être testées de manière approfondie
  • Partage d’un problème survenu dans une app iOS/MacOS

    • Une release a cassé plus de 350 000 installations
    • Le processus de review de l’App Store a retardé la résolution du problème
  • Importance soulignée du nommage des variables

    • Recommandation d’utiliser un nom plus précis comme urlOrRequestInfo au lieu de url
  • Dans le processus de résolution de problèmes techniques, la dimension humaine est aussi importante

    • Une histoire que de petits développeurs ou entrepreneurs peuvent partager
  • Explication des différences d’approche dans la résolution de problèmes

    • Les ingénieurs SRE/DevOps se concentrent sur les différences entre systèmes
    • Différence avec les programmeurs qui regardent d’abord le code et les logs
  • Il est important de vérifier si tout peut être annulé

    • Il faut pouvoir revenir en arrière, dépendances comprises
  • La pression n’accélère pas la résolution des problèmes

    • Il est important de rester calme
    • La plupart des gens ont probablement vécu une situation similaire