Soluzioni

Impresa

Modelli

Sviluppatore

Risorse

Prezzo

Da

Omar López

9 set 2022

Post Mortem Incidente del 23 giugno 2022

Post Mortem Incidente del 23 Giugno 2022

Giovedì 23 Giugno c'è stata una grande interruzione per cal.com. Il motivo era una certa confusione attorno a uno script per clonare il DB di produzione, anonimizzarlo e scaricarlo per uso di sviluppo.

In questo giorno, stiamo cercando di testare un nuovo servizio chiamato snaplet.dev che ci consente di scaricare il nostro database di produzione, anonimizzare tutti i dati privati e utilizzarlo localmente in modo da avere un database simile a quello di produzione per trovare casi rari di dati e risolverli.

La configurazione è abbastanza semplice, ci si collega al proprio DB di produzione, lo si scarica, lo si anonimizza e si ripristina nel proprio DB locale.

Il problema qui è che tutto è successo localmente in questo caso. Così ho scaricato i dati, li ho anonimizzati e quando è stato il momento di ripristinare avrei dovuto aggiornare il DATABASE_URL con quello locale ma me ne sono dimenticato.

Il risultato di questo è stato che ho scaricato dati di produzione, li ho anonimizzati e poi li ho ricaricati di nuovo in produzione invece di nel mio database locale. Finendo così con dati fittizi nel DB di produzione.

Come molti di voi potrebbero aver esperito, questo ha portato a comportamenti inaspettati come prenotazioni mancanti, email e nomi utente errati.

Poiché le mie conoscenze per accedere ai backup di produzione erano limitate, ero con le mani legate fino a quando Bailey Pumfleet mi ha dato le conoscenze necessarie per accedere ai backup e sono stato in grado di ripristinare una versione funzionante precedente. Sebbene questo sia durato quasi 7 ore di interruzione fino a quando non è stato sistemato correttamente.

Come neolaureato Lead per il team di ingegneria, non ho scuse per questo. Avrei dovuto sapere meglio e posso assicurare e garantire che questo non accadrà di nuovo.

Un grande grazie a tutti gli utenti, clienti, compagni di squadra e leader per la pazienza e la fiducia che è stata riposta in me e, se mi verrà data l'opportunità, mi assicurerò che questa esperienza si trasformi in insegnamenti preziosi e ci renda più resilienti in futuro.

Abbiamo ripristinato completamente le operazioni e nuovi controlli sono in atto per prevenire questo in futuro.

Grato ancora come sempre,

Zomars