Die Sache mit dem Strom

Posted by boni on Thursday, September 20, 2018

Die Stromversorgung in Rechenzentren ist stabil - das ist unsere Erfahrung, die wir in den letzten 15 Jahren machen durften. Am Freitag den 14. September gegen 12:50 Uhr erlebten wir dann einen für uns bis dato unbekannten Zwischenfall, der uns bewies, dass es mehr gibt als Strom an/Strom aus.

Wenn das lokale Versorgungsunternehmen doch mal Schwierigkeiten mit der Stromversorgung hat, stehen redundante Dieselgeneratoren zur Stelle, die den Standort permanent mit Strom versorgen können. Dies geht natürlich nur, wenn der Tankwagen täglich Nachschub an Diesel liefert :) Bei einem plötzlichen Ausfall der Stromversorgung kommen als Puffer riesige Batteriepools zum Einsatz, die das Rechenzentrum so lange mit Strom versorgen, bis die Generatoren dies übernehmen. Eigentlich eine einfach und sichere Sache die auch in regelmäßigen Intervallen getestet wird um sicherzustellen das Spiel Stromversorger -> Batterien -> Dieselgeneratoren reibungslos funktioniert.

Am Freitag den 14 Sep. um 12:49 wurde ein Alarm bezüglich eines Ausfalls von mehreren DRBD-Devices an unser Operations-Team abgesetzt. Sekunden später trudelten weitere dieser Alarme von unterschiedlichen Hosts ein. Es handelte sich um VM-Hosts - für den Betrieb von virtuellen Maschinen - die in unterschiedlichen Racks stehen und an unterschiedlichen Stromfeeds angeschlossen sind. Der erste Gedanke: “Okay, es scheint ein etwas größeres Problem zu sein”. Das war es dann auch, als sich herausstellte, dass insgesamt vier VM-Hosts mit insgesamt dreizehn virtuellen Maschinen betroffen waren.

Was nun? Alle physikalischen Hosts (aka. Bleche) sind im BIOS so konfiguriert das sie bei Stromzufuhr direkt booten. Somit dauerte es nur ein paar Minuten, wenn überhaupt, bis die vier VH-Hosts wieder online und erreichbar waren. Also einloggen; schauen dass das DRBD mit dem VH-Hosts-Partner synchron ist; und dann fix die virtuellen Maschinen starten. Parallel informieren die lieben Kollegen via Twitter unsere User was gerade passiert ist. So, alle Systeme laufen wieder, das Monitoring erstrahlt in sattem Grün.

Alles gut - sollte man meinen. Aber wieso fallen vier Systeme parallel zur gleichen Zeit aus, obwohl sie an unterschiedlichen Stromfeeds hängen und über diese Feeds auch noch andere Hosts mit Strom versorgt werden, die nicht ausgefallen sind? Also kurz die gängigsten Logfiles durchforstet (Hardwareschaden, Hack, Versehentlicher Reboot, etc.). Aber nichts dergleichen. Es sah wirklich so aus, als ob jemand vor Ort mal kurz am “Stecker” gezogen und ihn gleich wieder eingesteckt hat. Gedanke: “Was zum Geier…”.

Auf Nachfrage beim Rechenzentrum stellte sich heraus, dass an diesem Tag um die Mittagszeit Wartungsarbeiten an den USV-Anlagen stattfanden. Jedoch teilte man uns auch mit, dass bei keinem anderen Kunden Probleme dieser Art aufgetreten sind. Naja, vielleicht haben sich diese nur nicht gemeldet. Also hat man sich direkt mit dem Dienstleister in Verbindung gesetzt, der sich um die elektrische Versorgung kümmert und hier dann die entscheidende Information erhalten:

Bei einer Wartung eines USV-Modules kam es beim Starten des Moduls zu einem Fehler. Die Ausgangsspannung dieses Moduls wurde nicht sauber mit der Ausgangsspannung der anderen USV-Modulen synchronisiert, wodurch es kurzfristig (im Millisekundenbereich) zu einer erhöhten Ausgangsspannung kam. Auch hat sich dieses Modul nicht mehr per SNMP ansprechen lassen sodas auch keine weiteren Informationen auslesbar waren. Man riet dem Betreiber jetzt dieses Modul als defekt anzusehen, es außer Betrieb zu nehmen und dann durch ein neues auszutauschen.

Da diese Wartungsarbeiten zeitlich ziemlich genau mit den Ausfällen der vier VM-Hosts deckt gehen wir davon aus, dass dieses auch der Grund ist und keine anderen Probleme auf unsere Seite vorliegen. Also erst einmal durchatmen!

Das Modul wurde inzwischen außer Betrieb genommen und der Austausch gegen ein neues Modul ist in Kürze geplant.

Ja, so ist das … die Sache mit dem Strom.