Soluções

Empresa

Modelos

Desenvolvedor

Recursos

Preços

Por

Omar López

09/09/2022

Post Mortem do incidente de 23 de junho de 2022

Post Mortem do Incidente de 23 de Junho de 2022

Na quinta-feira, 23 de junho, houve uma grande interrupção no cal.com. O motivo foi alguma confusão em torno de um script para clonar o banco de dados de produção, anonimizar e fazer o download para uso em desenvolvimento.

Neste dia, estávamos a tentar testar um novo serviço chamado snaplet.dev que nos permite fazer o download do nosso banco de dados de produção, anonimizar todos os dados privados e usá-lo localmente, de forma a termos um banco de dados semelhante ao de produção para encontrar casos raros de dados e corrigi-los.

A configuração é bastante simples, você conecta ao seu banco de dados de produção, faz o download, anonimiza e restaura ao seu banco de dados local.

O problema aqui é que tudo aconteceu localmente neste caso. Então eu fiz o download dos dados, anonimizei e, quando foi a hora de restaurar, eu deveria ter atualizado o DATABASE_URL para o meu local, mas esqueci-me de fazer isso.

O resultado disto foi que eu baixei dados de produção, anonimizei-os e os carreguei novamente na produção, em vez de no meu banco de dados local. Acabando com dados simulados no banco de dados de produção.

Como muitos de vocês podem ter experienciado, isso acabou por ter um comportamento inesperado, como reservas em falta, emails e nomes de utilizador incorretos.

Como o meu conhecimento para acessar os backups de produção era limitado, fiquei com as mãos atadas até que Bailey Pumfleet me deu o conhecimento para realmente acessar os backups e consegui restaurar para uma versão anterior em funcionamento. Embora isso tenha demorado quase 7 horas de interrupção até estar corretamente corrigido.

Como um recém-promovido Líder da equipe de engenharia, não tenho desculpas para isso. Eu deveria ter sabido melhor e posso garantir que isso não acontecerá novamente.

Um grande obrigado a todos os usuários, clientes, colegas de equipe e líderes pela paciência e confiança que foram depositadas em mim, e se me for dada a oportunidade, vou assegurar que esta experiência se transforme em aprendizados valiosos e nos torne mais resilientes no futuro.

Restauramos totalmente as operações e novas verificações estão em vigor para prevenir isto no futuro.

Agradecido novamente como sempre,

Zomars