Par

Omar López

9 sept. 2022

Rapport post-mortem de l'incident du 23 juin 2022

Post Mortem de l'incident du 23 juin 2022

Le jeudi 23 juin, il y a eu une panne majeure pour cal.com. La raison en étant une certaine confusion autour d'un script pour cloner la base de données de production, l'anonymiser et la télécharger pour un usage en développement.

Ce jour-là, nous essayions de tester un nouveau service appelé snaplet.dev qui nous permet de télécharger notre base de données de production, d'anonymiser toutes les données privées et de l'utiliser localement afin que nous puissions avoir une base de données semblable à la production pour trouver des cas de données rares et les corriger.

La configuration est assez simple, vous vous connectez à votre base de données de production, la téléchargez, l'anonymisez et la restaurez dans votre base de données locale.

Le problème ici est que tout s'est passé localement dans ce cas. J'ai donc téléchargé les données, les ai anonymisées, et quand il était temps de restaurer, j'aurais dû mettre à jour le DATABASE_URL avec celui de ma base locale mais j'ai oublié de le faire.

Le résultat de cela a été que j'ai téléchargé des données de production, les ai anonymisées et les ai téléchargées à nouveau en production au lieu de ma base de données locale. Me retrouvant avec des données fictives dans la base de données de production.

Comme beaucoup d'entre vous l'ont peut-être expérimenté, cela a conduit à des comportements inattendus comme des réservations manquantes, des e-mails et des noms d'utilisateur incorrects.

Étant donné que mes connaissances pour accéder aux sauvegardes de production étaient limitées, j'étais les mains liées jusqu'à ce que Bailey Pumfleet me donne les informations nécessaires pour accéder aux sauvegardes et j'ai pu restaurer une version antérieure fonctionnelle. Bien que cela ait pris presque 7 heures de panne avant que ce soit correctement réparé.

En tant que récemment promu Lead pour l'équipe d'ingénierie, je n'ai aucune excuse pour cela. J'aurais dû mieux savoir et je peux garantir et m'assurer que cela ne se reproduira plus.

Un grand merci à tous les utilisateurs, clients, coéquipiers et dirigeants pour la patience et la confiance qui m'ont été accordées et si l'occasion se présente, je veillerai à ce que cette expérience soit transformée en apprentissages précieux et nous rende plus résilients à l'avenir.

Nous avons entièrement restauré les opérations et de nouveaux contrôles sont en place pour prévenir cela à l'avenir.

Reconnaissant encore comme toujours,

Zomars