Das Ende der Flaschenhälse

Big DataCloudData & StorageIAASSicherheitStorage

Gegen die Datenflut gibt es kein Mittel. Wohl aber gibt es Technologien, die es einfacher machen, damit umzugehen. Deduplizierung lässt die Informationen intakt, reduziert aber das Datenvolumen erheblich.

Genug Speicherplatz gibt es eigentlich nicht, kaum hat man einen neuen Speicherbereich ausgewiesen oder angeschafft, wird er auch schon gefüllt – meist mit unstrukturierten Daten wie E-Mails, die laut Enterprise Storage Forum ein jährliches Wachstum von rund 25 Prozent vorlegen. Eine einfache Rechnung zeigt, vor welcher Herausforderung die Unternehmen tatsächlich stehen: Bei einer Datenvorhaltung von einem Jahr für wöchentliche Backups und zehn Tagen für inkrementelle Backups würde ein einziges Terabyte Daten während seiner Lebensdauer eine Speicherkapazität von ca. 53 TB verschlingen. Die Verwaltung und Lagerung dieser Daten kosten nicht nur Arbeitszeit, sondern auch Strom, Kühlung und Platz.

Doch das Problem geht noch weiter. Administratoren in Unternehmen mit mehreren Niederlassungen können ein Lied davon singen: Die Probleme beginnen meist in der lokalen Speicherung auf Band. Wer ist dafür verantwortlich – kann der das? Wo bzw. wie sollten die Bänder gelagert werden? Und aus Sicherheits- und Kostengründen sollten die Daten auf jeden Fall zentral gespeichert werden. Doch wie kommen die Daten für Disaster Recovery zum Rechenzentrum oder zu einer weiteren Lokation? In mehr als der Hälfte aller Fälle werden die Medien über die Straße transportiert – nicht immer der schnellste oder sicherste Weg. So liest man immer wieder von verloren gegangenen Bändern oder auch von ungleichen Datenständen und verzögerter Sicherung. Kein Wunder also, dass Unternehmen und Anbieter nach neuen Wegen der zentralen Datensicherung suchen.

Remote Replikation wird im Zuge der wachsenden Anforderungen an Compliance immer wichtiger. Rund sieben Prozent aller Unternehmen schicken das Backup sofort über WAN zum Rechenzentrum, zwölf Prozent replizieren das lokale Backup aus Sicherheitsgründen über WAN zum Rechenzentrum (Enterprise Strategy Group).

Die Übertragung der Daten über eine Standard WAN-Leitung jedoch dauert. Und: Die Datenflut kann durchaus die ohnehin kontinuierlich schrumpfenden Backup-Fenster überfordern. 1 TByte über eine normale 2-MBit/s-WAN-Verbindung zu schicken, kann bis zu 50 Stunden dauern. Immer öfter sind aber Multi-Terabyte-Volumina zu sichern. Das kann leicht einmal das WAN für die regulären Aufgaben außer Gefecht setzen.


Der erste Schritt: Tiered Storage und VTLs

Tiered Storage Umgebungen sind inzwischen bei Unternehmen sehr verbreitet. Der Ansatz leuchtet ein: Daten entsprechend ihrer Wichtigkeit und der Notwendigkeit schnellen Zugriffs innerhalb einer ausdifferenzierten Speicherkette zu verschieben. In diesen mehrstufigen Umgebungen rückt Tape immer weiter nach hinten und dient in erster Linie als Archivierungsmedium. Backup wird so lange wie möglich in disk-basierten Nearline-Systemen vorgehalten. Ihr wesentlicher Vorteil: RAID-Zuverlässigkeit, schneller Random-Zugriff und damit auch schnelles, gezieltes Restore.

Fungiert dieses Disk-basierte System als Virtuelle Tape Library (VTL), so lässt es sich in bestehende Backup-Umgebungen und -Prozesse integrieren, ohne diese komplett zu restrukturieren und die Backup-Software anzupassen. Doch trotz kostengünstiger SATA-Platten kostet diese Ergänzung der Speicherkette – ein Faktor, der viele Unternehmen noch zögern lässt. Es ist daher ein überzeugendes Argument für jede Technologie, wenn sie die optimale Nutzung von Speicherplatz verspricht. Im Falle der VTLs bedeutet das, dass das Backup dann über einen längeren Zeitraum auf Disk vorgehalten werden kann – mit allen entsprechenden Vorteilen. So verfügen VTLs typischerweise über Kompressionstechnologie. Doch es geht noch besser.


Die Lösung: Deduplikation

Statt Daten nur zu komprimieren, sorgt Deduplikation für einen weiteren Schritt in Richtung Effizienz. Hier werden die Dubletten entfernt – also Dopplungen bei Dateien und Datenblöcken. Die tatsächliche Datenmenge schrumpft erheblich: je nach Art der Daten, Deduplikationsmethode und Anbieter um den Faktor 20 bis 50. Ein Beispiel in Zahlen: Die Datenmenge in einem Unternehmen wächst durchschnittlich um 56 Prozent pro Jahr. Hat nun das Unternehmen 65 TB Daten und fährt ein wöchentliches Backup, so würde dieses Backup 56 Speicher-Racks belegen. Mit Deduplikation sind es nur noch zwei Racks. Damit passen wesentlich mehr Daten auf Disk, ein Restore kann auch Daten erfassen, die im Normalfall schon längst auf Tape liegen würden. Je nach Beschaffenheit der zu sichernden Daten kann es mit Deduplizierung durchaus mehrere Monate dauern, bis eine VTL-Appliance voll gelaufen ist und die nächste Ebene der Speicherhierarchie in Aktion treten muss. Ein weiteres Plus: die Hardware- und Betriebskosten sinken signifikant.

Auch für Remote Replikation ist Deduplikation der Königsweg. Da wesentlich weniger Daten übertragen werden müssen, genügt eine normale WAN-Bandbreite für die Übertragung an ein zentrales Rechenzentrum – Schluss also mit den Flaschenhälsen und der WAN-Überlastung.


Varianten der Deduplizierung

Deduplizierung kann den Datenabgleich Hash-basiert oder auf Byte-Level durchführen. Beim Hash-basierten Ansatz laufen die eingehenden Daten durch einen Algorithmus, der einen Hash zur eindeutigen Identifizierung erzeugt. Dieser Hash wird dann mit den bereits in einer Tabelle gespeicherten Hash-Werten verglichen. Werden Redundanzen gefunden, so wird der Doppler durch einen Pointer ersetzt. Der Nachteil dabei: je mehr Daten im Backup landen, desto größer wird die Tabelle mit den Hash-Werten – und das Nachschlagen kostet Performance.

Möglich ist auch, die Daten Objekt für Objekt zu überprüfen, also etwa Word-Dokumente mit anderen Word-Dokumenten zu vergleichen. Hier werden die Backup-Files und Referenzdaten verglichen und erst dann die „verdächtigen“ Dateien in aller Tiefe auf Duplikate untersucht.

Eine weitere Unterscheidung der Deduplikationstechnologien bezieht sich auf den Ort und die Zeit der Deduplizierung. So bearbeiten Inline-Appliances den Datenstrom noch vor dem Speichern auf dem Backup-Medium. Das kostet allerdings ein bisschen Backup-Performance und macht den Prozess komplizierter. Der Zeitverlust wird aber häufig durch die geringeren Volumina kompensiert. Unter Umständen muss die Deduplizierung mit Systemen zum Bandbreitenmanagement kombiniert werden, um durchschlagende Resultate zu erzielen.

Bei Out-of-band Deduplizierung laufen die Daten zunächst sehr schnell ins Backup-Medium und werden erst später dedupliziert. Jetzt muss aber zunächst Speicher für das komplette Volumen bereitgestellt werden, bevor dies in einem zweiten Schritt reduziert wird.

Kleingerastert

Deduplizierung bringt am meisten, wenn die Lösung nicht nur auf Datei-Ebene arbeitet, sondern auf oder sogar unterhalb der Blockebene. Quantum setzt beispielsweise mit seiner DXi-Serie auf eine hardwarebasierte Deduplizierung mit Kompressionsalgorithmen, die das Datenvolumen vor dem Transfer über das WAN noch weiter reduzieren. Hier werden innerhalb der Daten Blocks in variabler Länge untersucht. Ist eines dieser Blocklets identisch mit einem schon gespeicherten, so wird an seiner Stelle ein Pointer gesetzt. Die flexible Größe dieser Blocklets erlaubt es, sich auf die Struktur des jeweiligen Datenbestandes einzustellen. Dadurch sind Reduktionsfaktoren bis zu 1:50, je nach Art der Daten, möglich. Der Nutzen ist umso höher, je öfter Backups gefahren werden, da die Reduktionseffekte kulminieren. Setzt der Kunde auf Remote Replikation, so komprimiert das System die deduplizierten Daten nochmals und repliziert sie automatisch zum Zielort. So werden Transfergeschwindigkeiten von bis zu 800 GByte pro Stunde erreicht.


Deduplizierung im Einsatz

Analysten sehen in Deduplizierung eine der wichtigsten Entwicklungen der letzten Jahre. Viele Unternehmen ziehen sie in Erwägung, um ihr Backup noch effizienter zu gestalten. Es gibt einige Punkte, auf die man bei
der Auswahl der Technologie achten sollte: Neben der Solidität des Anbieters ist es in erster Linie die möglichst große Flexibilität im Verfahren, die wichtig ist. Die Quantum-Lösung bietet beispielsweise die Wahl: ein adaptiver oder Inline Deduplikations-Modus passt den Deduplikationsprozess automatisch an die Datenaufnahmerate an und optimiert so die Leistung und Plattennutzung. Der Post-Processing oder Out-of-band Modus hingegen ermöglicht kürzeste Backup-Fenster und schnellstes Restore. Wichtig ist aber auch, dass keine feste Bindung an bestimmte Betriebssysteme besteht und die Anbindung an vernetzte Infrastrukturen möglich ist. Generell gilt: je mehr Optionen offen bleiben, desto einfacher wird die Einpassung der Lösung in eine bestehende Umgebung.

Frank Herold ist Manager Consulting Central and Eastern Europe beim Hersteller Quantum (beu).