Post Mortem: Ausfall eines unserer Backuphosts

Posted by boni on Friday, March 11, 2016

Am Mittwochabend des 9. März meldete unser Monitoring, dass einer unserer Backupserver nicht mehr zu erreichen ist. Nachdem auch Loginversuche über die Remote-Management-Karte (IPMI) nicht möglich waren, blieb uns nur der Weg des Neustarts des Systems. Auf diesem Backupserver befanden sich zum Zeitpunkt des Ausfalls die Dateisystem-Backups von 11 Uberspace-Hosts.

Nach dem Reboot haben wir festgestellt, dass eine der vier Backuppartitionen Fehler aufwies, weshalb die Partition dann wieder ausgehängt wurde um eine Überprüfung des Dateisystems durchzuführen. Gesagt, getan.

Was wir dann auf der Konsole sahen ließ uns schon ahnen, dass das Dateisystem nicht nur ein paar kleine Fehler aufweist, die eine Reparatur des Dateisystems wieder gerade rücken kann. Wir haben uns dennoch dazu entschieden, das Dateisystem überprüfen zu lassen, obwohl der Vorgang auf Grund der Partitionsgröße von 6TB knapp einen Tag gedauert hat.

In der Nacht vom 10. März war die Überprüfung abgeschlossen und die Partition wurde wieder eingehängt. Leider mit dem Ergebnis, dass alle Daten sich unter /lost+found befanden - die Partition war quasi leer und die Daten nicht mehr zu retten.

Backups müssen im Zweifel konsistent sein, also haben wir uns gegen weitere Versuche entschieden, die Daten der Backups automatisiert wiederherzustellen, da wir diese nicht auf ihre Konsistenz überprüfen können. Wir haben die nicht mehr verwertbaren Daten nun verworfen, das Dateisystem neu angelegt und erstellen fortan wieder neue Backups. Dieser Vorgang wird das gesamte Wochenende andauern.

Die Backups folgender Hosts sind also leider nicht mehr verfügbar:

  • vulpecula
  • bootes
  • horologium
  • sirius
  • achernar
  • rigel
  • aldebaran
  • menkar
  • acamar
  • fomalhaut
  • hamal

Wir behalten insbesondere diese Backups im Auge und setzen alles daran, dass diese möglichst schnell wieder zur Verfügung stehen.

Wir überlegen ausserdem, ob wir in Zukunft Backups über mehrere Standorte hinweg redundant vorhalten werden, um einen derartigen Ausfall zu vermeiden.