Durch

Omar López

09.09.2022

Post Mortem 23. Juni 2022 Vorfall

Post Mortem Vorfall am 23. Juni 2022

Am Donnerstag, den 23. Juni, gab es einen größeren Ausfall bei cal.com. Der Grund war gewisse Verwirrung über ein Skript zum Klonen der Produktionsdatenbank, das Anonymisieren der Daten und das Herunterladen zur Entwicklung.

An diesem Tag versuchten wir, einen neuen Dienst namens snaplet.dev zu testen, der es uns ermöglicht, unsere Produktionsdatenbank herunterzuladen, alle privaten Daten zu anonymisieren und sie lokal zu verwenden, damit wir eine produktionsähnliche Datenbank haben, um seltene Datenfälle zu finden und diese zu beheben.

Die Einrichtung ist ziemlich einfach: Sie verbinden sich mit Ihrer Produktionsdatenbank, laden sie herunter, anonymisieren sie und stellen sie in Ihrer lokalen Datenbank wieder her.

Das Problem hier war, dass alles lokal in diesem Fall geschah. Ich hatte die Daten heruntergeladen, anonymisiert und als es an der Zeit war, sie wiederherzustellen, hätte ich die DATABASE_URL auf meine lokale ändern müssen, aber ich habe vergessen, dies zu tun.

Das Ergebnis war, dass ich Produktionsdaten heruntergeladen, anonymisiert und sie wieder in die Produktion hochgeladen habe, statt in meine lokale Datenbank. So hatte ich am Ende gefälschte Daten in der Produktionsdatenbank.

Wie viele von Ihnen vielleicht erlebt haben, führte dies zu unerwartetem Verhalten wie fehlenden Buchungen, falschen E-Mails und Benutzernamen.

Da mein Wissen über den Zugriff auf die Produktionsbackups begrenzt war, hatte ich die Hände gebunden, bis Bailey Pumfleet mir das Wissen vermittelte, um tatsächlich auf die Backups zuzugreifen und eine vorherige funktionierende Version wiederherzustellen. Obwohl dies letztendlich fast 7 Stunden Ausfallzeit in Anspruch nahm, bis es richtig behoben war.

Als neu beförderter Teamleiter für das Engineering-Team habe ich keine Ausreden dafür. Ich hätte es besser wissen müssen, und ich kann sicherstellen, dass dies nicht noch einmal passieren wird.

Ein großes Dankeschön an alle Benutzer, Kunden, Teamkollegen und Führungskräfte für die Geduld und das Vertrauen, das in mich gesetzt wurde. Wenn ich die Chance bekomme, werde ich sicherstellen, dass diese Erfahrung in wertvolle Erkenntnisse umgewandelt wird und wir in Zukunft widerstandsfähiger werden.

Wir haben den Betrieb vollständig wiederhergestellt und neue Kontrollen sind implementiert, um dies in Zukunft zu verhindern.

Immer dankbar,

Zomars