Post Mortem del incidente del 23 de junio de 2022
El jueves 23 de junio, hubo una gran interrupción en cal.com. La razón fue cierta confusión en torno a un script para clonar la base de datos de producción, anonimizarla y descargarla para uso en desarrollo.
En este día, intentábamos probar un nuevo servicio llamado snaplet.dev que nos permite descargar nuestra base de datos de producción, anonimizar todos los datos privados y usarlos localmente para poder tener una base de datos similar a la de producción para encontrar casos de datos raros y solucionarlos.
La configuración es bastante sencilla, te conectas a tu base de datos de producción, la descargas, la anonimizas y la restauras en tu base de datos local.
El problema aquí es que todo sucedió localmente en este caso. Así que he descargado los datos, los he anonimizados, y cuando llegó el momento de restaurar, debería haber actualizado el DATABASE_URL
a mi local, pero me olvidé de hacerlo.
El resultado de esto fue que descargué datos de producción, los anonimizé y los volví a subir a producción en lugar de a mi base de datos local. Terminando con datos simulados en la base de datos de producción.
Como muchos de ustedes podrían haber experimentado, esto terminó teniendo un comportamiento inesperado como reservas faltantes, correos electrónicos y nombres de usuario incorrectos.
Dado que mi conocimiento para acceder a las copias de seguridad de producción era limitado, estaba con las manos atadas hasta que Bailey Pumfleet me dio el conocimiento para acceder a las copias de seguridad y pude restaurar a una versión anterior que funcionaba. Aunque esto terminó tomando casi 7 horas de interrupción hasta que se solucionó correctamente.
Como un recién ascendido líder del equipo de ingeniería, no tengo excusas para esto. Debí haberlo sabido mejor y puedo asegurar y garantizar que esto no volverá a suceder.
Un gran agradecimiento a todos los usuarios, clientes, compañeros de equipo y líderes por la paciencia y confianza que se ha depositado en mí y si se me da la oportunidad, me aseguraré de que esta experiencia se convierta en aprendizajes valiosos y nos haga más resilientes en el futuro.
Hemos restaurado completamente las operaciones y hay nuevos controles en marcha para prevenir esto en el futuro.
Siempre agradecido,
Zomars