Burst Case – 1,5 TB Daten unwiderruflich verloren


Es ist mittlerweile etwas mehr als ein Jahr her, alle Beteiligten werden diesen Tage lange Zeit nicht vergessen. Bei einem Kunden ist eine Webfarm in Betrieb, die auf virtuellen Server und einem HP SAN basiert. Das SAN hat insgesamt Netto 5 Tb (Terrabyte) Datenkapazität, Brutto, RAID 6 6 TB. Im Juni 2010 ging bei Wartungsarbeiten am SAN rund 1,5 TB Daten verloren, es existierte keine Datensicherung, und der Schaden auf dem LUN war mit herkömmlichen Mitteln nicht zu beheben.

Was war geschehen?

Ein Techniker hatte bei Wartungsarbeiten eine VMWare LUN mit einer Windows LUN verwechselt, was dazu führte dass beim Formatieren der Windows LUN nicht das Windows LUN formatiert wurde sondern die VMWare LUN mit ca. 20 Virtuellen Servern und insgesamt 1,5 TB Daten. Der folgenschwere Fehler wurde nicht gleich bemerkt, da die ESX Server immer noch Problemlos auf Ihr LUN und auf die Partitionen zugreifen konnten. Erst als die ersten Daten von der Windows Maschine auf die VMWare LUN geschrieben wurde, vielen alle ESX Gastsystem prompt aus. An dieser Stelle wurde ich als Experte hinzugezogen und versuchte zunächst mit normalen Boardmitteln und dem HP Support sowie dem VMWare Support den Fehler zu finden und zu beheben. Da zunächst kein Zusammenhang mit den Wartungsarbeiten hergestellt werden konnte tappten wir einige Zeit im Dunklen. Im Fokus lag zunächst die Wiederherstellung des LUN’s um damit die Ausgefallenen Systeme wieder zum Leben zu erwecken. Allerdings ich mit herkömmlichen Boardmitteln, sowie HP und VMWare nicht in der Lage den Fehler zu beheben. Das bedeutete dass die Daten unwiderruflich verloren waren. Dies stellte für den Kunden ein sehr großes Problem dar, da der Ausfall gerade in einer für den Kunden äußerst ungünstigen Zeit erfolgte.

Kroll Ontrack als Datenretter

Nach der erfolglosen Fehlerbehebung blieb einzig und allein nur noch die Inanspruchnahme eines professionellen Datenretters wie Kroll Ontrack. Die Kosten für die Wiederherstellung der Daten wurde inkl. der Kosten für die Diagnose im Express Service auf einen mitteleren 4 stelligen Eurobetrag angesetzt. Noch am Tag des Ausfalls begann Kroll Ontrack mit dem Remote Data Recovery™ (RDR®). Die erste Diagnose dauerte etwa 24 Stunden an, und es zeigte sich das ware Ausmass der Beschädigungen. Das VMWare Filesystem (vfs) konnte nicht mehr gerettet werden da zuviel Schaden angerichtet wurde. So blieb den Daten-Rettern von Kroll Ontrack nur noch die Möglichkeit nach den Virtuellen Disks der VMWare Maschinen zu suchen. Dabei wurde nach den EXT3 Partitionen sich sich innerhalb des VFS Filesystems befanden gesucht. Ich hatte die Aufgabe Kroll Ontrack zu jeder Tages- und Nachtzeit für evtl. Fragen zur Verfügung zu stehen, und bildete auch eine Schnittstelle zwischen dem Kunden und seinen Mitarbeitern, und zwischen Kroll Ontrack.

Für die Datenrettung musste Kroll Ontrack Tools entwickeln die in der Lage waren die EXT3 Volumes aus dem VFS Volume zu extrahieren. Dafür gab es nur eine einzige Person bei Kroll Ontrack und laut Aussagen von Kroll Ontrack die einzige Person auf dieser Welt, die dazu in der Lage war. Dieser war in einer Zweigstelle in den USA tätig, was dazu führte das der Großteil der arbeiten in der lokalen Ortszeit von USA ausgeführt wurden. Ich hatte einen Nacht lang die Gelegenheit dem Profi bei der Datenrettung zuzusehen. Das was ich da beobachten konnte war Hardcore Datenrettung, größer hätte die Herausforderung für den Profi nicht sein können denke ich. Für mich hatte es den Anschein als wäre es ein menschgewordener Computer, der in der Lage war Kolonen von Hexadezimalzahlen wie ein Buch zu lesen und im Kopf auf Korrektheit zu prüfen. Gekippte Bit’s hatte er schnell als solches erkannt und behoben. Ich ging zuerst davon aus dass es sich um eine Art Try and Error Verfahren handelt, aber weit gefehlt der Mann wusste genau was er tat. Und so konnte Kroll Ontrack den Dateninhalt von den 20 virtuellen Maschinen zu 75% wieder so herstellen dass ich laufende System daraus herstellen konnte. Übrig blieben ein paar nicht ganz so wichtige Maschinen die nicht gerettet werden könnten, und leider auch gut 50% der Daten einer der wichtigsten Server. Diese musste durch den Kunden und den Mitarbeiter wiederhergestellt werden.

Fazit

Kroll Ontrack bietet einen sehr guten Service und Profi-Know How der obersten Güte. Aber was mich die ganze Misere gelehrt hat ist folgendes: Egal in welcher Umgebung und im welchen Aufbau man seine Daten hält, trotz RAID Arrays, hochverfügbaren SAN’s und alle anderen erdenklichen Sicherungseinrichtungen, man ist nie vor solchen Horror Szenarien sicher. Eine einfache, funktionsfähige Datensicherung auf ein unabhängiges System sollte das mindeste sein. Viele Kunden sehen den Nutzen aber leider erst dann wenn sie ein solches Horror Szenario durchlebt haben. Aber muss wirklich erst das Kind in den Brunnen fallen? Immerhin bei den hier genannten Szenario wäre beinahe ca. 150 Arbeitsplätze auf dem Spiel gestanden. Der Schaden beim Kunden belief sich auf einen mittleren 6 stelligen Betrag. Die Kosten für das darauffolgende Sicherungskonzept das eine Sicherung auf drei unabhängige Systeme ermöglichte kostete insgesamt samt Hardware und Dienstleistung, einen kleinen 4 stelligen Eurobetrag.

[adrotate group=“1″]

Schreibe einen Kommentar