Es begann an einem Samstagabend, als meine Frau fragte, warum unser DVR plötzlich aufhörte, eine Sendung abzuspielen, die sie gerade sah. Ich sagte ihr, dass es wahrscheinlich nur eine Panne war, aber ich würde es mir ansehen. Ich gehe in das Familienzimmer, um nachzuschauen, und der Fehler besagt im Grunde, dass die zugrunde liegende Festplatte nicht mehr verfügbar ist. Nicht gut! Dies war der Beginn meiner dreitägigen Horrorgeschichte…
Ein bisschen Hintergrund
Mein DVR ist eigentlich nur eine spezielle Software (SageTV für Neugierige), die auf einem PC läuft. Die Software ist sehr flexibel und ermöglicht es Ihnen, die verschiedenen Aspekte der Software voneinander zu trennen. Ich habe eine separate Maschine für die zentrale Steuerung, Planung und Aufzeichnung, separate Maschinen für die Wiedergabe und der Star dieser Geschichte ist eine separate Maschine für die Speicherung. Für die Speicherung verwende ich einen Linux-Dateiserver und verwende LVM (Logical Volume Manager), um viele separate, nicht identische Laufwerke zu einem großen (derzeit ~ 6 TB) logischen Laufwerk zusammenzufassen, das vom Betriebssystem erkannt wird. Da es unpraktisch ist, mehrere TB Daten zu sichern, und da es sich bei diesen Daten um „nur“ TV-Sendungen handelt, war es für mich immer wichtig, mich nicht darum zu kümmern. Bis zu den jüngsten Ereignissen war diese Philosophie nicht durch ein reales Ereignis getestet worden.
Versuch, die Daten wiederherzustellen
Sobald ich den Fehler auf dem DVR sehe, schaue ich sofort auf den Speicherserver. Das Dateisystem ist unglaublich träge und reagiert nur langsam. Daher frage ich LVM nach dem Status der physischen Laufwerke, die dem logischen Datenträger zugrunde liegen. Nach einer langen Verzögerung wird angezeigt, dass ein 750-GB-Laufwerk fehlt. Oh, oh! Ich starte den Server neu und erstaunlicherweise kommt das Laufwerk zurück. Ich gebe einen pvmove-Befehl aus, um automatisch alle Daten von diesem Laufwerk zu migrieren, aber es schlägt fehl, wenn weniger als 2% abgeschlossen sind.
Angesichts eines Laufwerks, das beim Lesen seiner Daten sehr unkooperativ ist, aber zumindest im BIOS angezeigt wird, greife ich zu meinem bevorzugten Laufwerkswiederherstellungsprogramm, Spinrite. Obwohl Spinrite normalerweise von Wechseldatenträgern bootet, habe ich vor Jahren in meinem Haus einen Netzwerkstart für verschiedene Dienstprogramme eingerichtet, damit ich mich nicht darum kümmern musste, den Überblick über Datenträger zu behalten. Normalerweise verbinde ich mich einfach mit meinem Netzwerk, wähle Booten vom Netzwerk und ich habe eine Vielzahl von Tools zur Verfügung, um viele Probleme zu beheben. Das Problem ist, dass die Maschine, die all diese magischen Aufgaben erledigt, dieselbe Maschine ist, die derzeit nicht verfügbar ist. Keine große Sache, ich sage, ich werde nur von einer Spinrite-CD booten. Außer vor ein paar Jahren hat das optische Laufwerk auf meinem Dateiserver den Geist aufgegeben. Als das passierte, entschied ich, da ich in diesem Gerät keine optischen Medien verwendete, musste ich es nicht ersetzen. Keine Sorge, sagte ich mir, ich nehme einfach das optische Laufwerk aus meinem Hauptcomputer. Ich schalte meinen Hauptcomputer aus und nehme das optische Laufwerk heraus. Dann suche ich meine Spinrite-Boot-CD. Kann es nicht finden! Wir sind vor ein paar Monaten in ein neues Haus umgezogen, also ist alles ein bisschen durcheinander. Ich denke, ich brenne nur eine neue Kopie, finde aber nicht einmal leere optische Medien! Auf den nächsten Plan, ein bootfähiges Flash-Laufwerk! Nach ein paar Minuten bei Google, um mein Gedächtnis aufzufrischen, habe ich ein bootfähiges Spinrite-Flash-Laufwerk. Ich starte meine Linux-Box davon und starte Spinrite. Der Computer friert ein und scheint abzustürzen. Um Variablen zu eliminieren, verschiebe ich das fehlerhafte Laufwerk vom Einstecken in eine PCI-e-Erweiterungskarte zum direkten Einstecken in die Hauptplatine. Jetzt wird Spinrite problemlos gestartet, aber es dauert eine Weile, bis die damit verbundenen Laufwerke aufgelistet sind. Ich trenne systematisch alle anderen Laufwerke außer dem fehlerhaften, aber die Aufzählung der Laufwerke wird nie abgeschlossen, egal wie lange ich warte. Auf den nächsten Plan! Ich nehme das Laufwerk aus meiner Linux-Box, schließe es an meinen Hauptcomputer an und starte von meinem glänzenden neuen Spinrite-Flash-Laufwerk. Spinrite wird gestartet und erkennt das Laufwerk sofort. Ich fordere es auf, mit der Wiederherstellung der Daten zu beginnen. Ich bin zufrieden, dass ich endlich Fortschritte mache. Ich gehe nach vielleicht 10 Minuten zurück, um es zu überprüfen, und es gibt einen Fehler auf dem Bildschirm, und es scheint, dass das Laufwerk wieder verschwunden ist. Frustriert versuche ich es noch ein paar Mal und fordere Spinrite auf, an verschiedenen Stellen des Laufwerks zu starten, aber jedes Mal das gleiche Ergebnis zu erzielen. Es scheint, das wird mir doch nicht helfen.
In einem Anfall irrationaler Hoffnung stecke ich das Laufwerk wieder in meine Linux-Box und schalte es ein. Zu meinem Erstaunen wird das Laufwerk angezeigt und LVM bringt alles in Gang. Ich versuche weiterhin mein Glück und gebe einen weiteren pvmove-Befehl aus, um zu versuchen, die Daten wieder vom Laufwerk zu entfernen. Schon früh sehe ich Fehlermeldungen, dass das Laufwerk nicht gelesen werden kann. Erstaunlicherweise macht der pvmove jedoch weiterhin Fortschritte und nähert sich immer mehr der 100% -igen Fertigstellung. Eine Mischung aus Verwirrung, Erleichterung und Aufregung überkommt mich. Werde ich unversehrt davonkommen? Leider ist das Letzte, was LVM unternimmt, um einen pvmove sauber zu beenden, ein aktualisiertes Protokoll auf alle Laufwerke zu schreiben, die unter seiner Kontrolle stehen. Dies schlägt natürlich fehl, wenn versucht wird, auf das fehlerhafte Laufwerk zu schreiben, und bricht daher den gesamten Prozess ab. Niederlage erneut aus den Kiefern des Sieges gerissen! Ich kehre zu Google zurück und entdecke, dass es möglich ist zu steuern, wie viele Daten mit dem Befehl pvmove verschoben werden, anstatt ALLE Daten auf einmal zu verschieben. Ich experimentiere damit und habe guten Erfolg beim gleichzeitigen Verschieben eines winzigen Teils meiner Daten. Ich werde gierig und das Laufwerk verschwindet ein paar Mal, kommt aber nach einem Neustart des Computers immer wieder. In der Annahme, dass möglicherweise nur bestimmte Teile des Laufwerks fehlerhaft sind, beginne ich herumzuspringen, anstatt am Anfang des Laufwerks zu arbeiten. Nach einigen Iterationen habe ich alle bis auf 40 GB von 750 GB sicher vom Laufwerk entfernt. Für die restlichen 40 GB konnte es nicht verschoben werden, egal was ich versuchte. Es war jetzt Sonntagabend und ich war erschöpft, also beschloss ich, am nächsten Tag ins Bett zu gehen und dieses Problem mehr anzugehen.
Am nächsten Tag, nach etwas Schlaf und der ersten Hälfte meines Arbeitstages, entscheide ich mich, einfach in die Kugel zu beißen, weil mir die letzten 40 GB aufgezeichneter TV-Sendungen egal waren, und das Laufwerk aus meiner LVM-Konfiguration zu entfernen . Ich habe das schon oft gemacht, also läuft es ganz reibungslos. Als Nächstes in der Bereinigungsliste wird das Loch in der Mitte des Dateisystems repariert. Ich rechne damit, dass nur 40 GB anstatt 750 GB fehlen, das kann doch nicht so schlimm sein, oder? Falsch! Nach der Reparatur hatte ich 900 GB zusätzlichen freien Speicherplatz im Vergleich zu vor Beginn der Tortur, so dass es ziemlich weh tat. Na ja, sage ich mir, es war sowieso nur Fernsehen. Mein DVR ist nach seiner dreitägigen Pause endlich wieder funktionsfähig, und ich kann endlich aufhören, bei jedem freien Gehirnzyklus darüber nachzudenken.
gewonnene Erkenntnisse
Was habe ich daraus gelernt? Ich hätte besser machen sollen, was wirklich wichtig ist. Dies geschah vor ein paar Wochen, und in dieser Zeit habe ich noch nicht einmal einen der verschwundenen TV-Inhalte verpasst. Ich bedaure es jedoch, dass ich, vor allem aber meine Familie, drei Tage lang nicht in der Lage war, den Fernseher zu benutzen und mich für diese drei Tage in einen Krisenmodus mit hohem Stress zu versetzen. Wenn ich die Wiederherstellung meiner Daten zu Beginn aufgegeben hätte, wäre die Funktion in etwa einer Stunde und nicht in drei Tagen wiederhergestellt worden. Ich weiß nur zu gut, dass unsere Daten die meiste Zeit kostbar sind, aber in dieser Situation war dies nicht der Fall.
Zweitens, wenn Ihre Daten wirklich wertvoll sind und in 99% der Fälle wirklich, müssen Sie sie schützen! Sichern Sie Ihre Daten, es gibt keine Ausreden. Für meine Daten, die unersetzlich sind, wie Tausende von Bildern meines Sohnes, die ich auf meinem Computer habe, stelle ich sicher, dass sie an nicht weniger als drei Orten gesichert werden, von denen einer ein Cloud-Backup-Anbieter ist. Was den DVR-Speicher angeht, halte ich es immer noch nicht für sinnvoll, ihn in der Cloud zu sichern. Angesichts der heutigen Laufwerkspreise kann ich es nicht rechtfertigen, ihn nicht durch RAID schützen zu lassen, und genau das bin ich werde tun. Als ich meinen Speichercluster vor Jahren zum ersten Mal eingerichtet habe, habe ich 10 oder mehr Laufwerke benötigt, um an einen Pool mit mehreren TB zu gelangen. Ich habe gerade die Preise überprüft, und Sie können jetzt ein 3-TB-Laufwerk für deutlich weniger als 100 US-Dollar kaufen. Ich habe einfach keine Entschuldigung dafür, meine Daten ungeschützt zu lassen, und wenn mir ein solcher Datenverlust erneut passiert, bin ich wirklich selbst schuld.






