So funktioniert Deduplizierung
Hausputz auf den Arrays

Data & StorageIT-ManagementIT-ProjekteNetzwerk-ManagementNetzwerkeStorage

Seit Jahren sorgen klassische ERP- und SCM-Systeme ebenso wie Web-2.0-Applikationen (Wikis, Blogs) und immer striktere Compliance-Anforderungen für eine exponentiell wachsende Datenmenge. Anwender reagieren darauf meist mit der Anschaffung zusätzlicher Speichersysteme, die hohe Kosten verursachen, aber kaum je ausgelastet werden. Einen Ausweg aus diesem Dilemma weist die Datendeduplikation.

Datenmonstren: Ursachen erkennen

Dass Organisationen ebenso wie Computerprogramme dazu tendieren, schon aus Vorsicht eine Menge Datensätze aufzubewahren, die nach kurzer Zeit niemand mehr braucht, ist hinlänglich bekannt. Bereits dadurch reifte das wöchentliche Voll-Backup für viele Administratoren zum Alptraum.

Strengere gesetzliche Auflagen und Branchenstandards wie etwa die GDPdU oder Basel II haben die Situation noch verschärft: Inzwischen kommen selbst mittelständische Betriebe kaum noch ohne Storage-Kapazitäten im Terabyte-Bereich aus, was große Lücken in die belasteten IT-Budgets reißt.

Stress und hohe Investitionen ließen sich indes in den meisten Fällen bequem vermeiden, da Expertenberichten zufolge zwischen 60 und 90 Prozent der aufbewahrten Daten aus völlig identischen Elementen bestehen. Diese Dubletten belegen wertvollen Festplattenspeicher, sind aber ihrer Natur nach völlig verzichtbar.

Lösungsweg: Überflüssiges streichen

Allein mit bekannten Verfahren zur Reduktion des Speicherbedarfs wie der Kompression lässt sich der Missstand nicht kompensieren.  »Komprimierung bewirkt zwar auch eine Verringerung der zu sichernden Datenmenge, geht aber mit Raten von 2:1 und 3:1 nicht weit genug«, erklärt Detlef Lieb, Senior Product and Program Marketing Manager im Storage-Bereich bei Fujitsu Technology Solutions.

Seine Abteilung setzt seit rund drei Jahren Verfahren zur ao genannten Deduplikation ein. Dabei lassen sich mehrere technische Ansätze unterscheiden (siehe im letzten Abschnitt diese Artikels), denen in allen Fällen die gleiche Logik zugrunde liegt: Eine spezielle Software untersucht Files bzw. Datenblöcke auf wiederkehrende Elemente bzw. Sequenzen, löscht diese und ersetzt sie durch einen Pointer, der zuverlässig auf das zugehörige Original verweist.

Speziell blockorientierte Verfahren dampfen die Datenmenge gehörig ein; vereinzelte Hersteller geben Faktoren von 50:1 und mehr an, was im Klartext bedeuten würde, dass Rechenzentren mit weniger als zwei Prozent der zuvor benötigten Speicherkapazität  auskommen könnten. Konservativere Experten wie Heidi Biggar von der Enterprise Strategy Group (ESG), halten »eine Reduzierung um das 10- bis 20-fache für realistisch«.

Pioniere und Marktführer

Vorreiter der Technik im internationalen Markt war u. a. die Ende 2006 vom Speicher-Primus EMC übernommene Firma Avamar. Mitauslöser der Fusion war seinerzeit die Wahl von Avamars Paketlösung Axion zum »Produkt des Jahres« der Fachzeitschrift Storage.

Derzeitiger Favorit bei Deduplizierungstechniken ist Data Domain – die Bieterschlacht der Anbieter NetApp und EMC um Data Domain zeigte, wie wichtig Deduplizierung ist. Data Domain gehört mittlerweile auch zu EMC .

Mit Axion ist auch Fujitsu Technology Solutions (FTS) mit im Spiel, vertreibt das Unternehmen doch schon seit über einem Jahrzehnt die EMC-Produkte. Das ehemalige »Axion« ist inzwischen zum »Avamar Server« gereift, den FTS hierzulande in einer speziellen Version als »Avamar on PRIMERGY« vermarktet.

Die eigentliche Deduplikationssoftware läuft dabei auf einem dedizierten Standardserver der Fujitsu-Baureihen RX 300 oder TX 300, der mit maximal zwei Dual- bzw. Quad-Core-Prozessoren (Intel Xeon bzw. AMD Opteron) bestückt ist und wahlweise je sechs als RAID 5 konfigurierte 500-GB-SATA- bzw. 300-GB-SAS-Festplatten als zentralen Backup-Speicher mitbringt. Die LAN-Anbindung erfolgt per Gigabit Ethernet bzw. iSCSI.

Außer dieser »Steuereinheit« umfasst die Lösung Software-Agenten, die auf allen anderen Hosts im Unternehmen installiert werden. Sie analysieren die anfallenden Daten und erstellen aus ihnen mit Hilfe eines Hash-Algorithmus einen 20 Byte langen Fingerabdruck, der zunächst mit bereits lokal gespeicherten verglichen wird. »Fehlt« ein solcher Hash, ist dies ein Kennzeichen dafür, dass der entsprechende Block vom Client noch nie gesichert wurde. In diesem Fall wird er zur Abfrage an den zentralen Server geschickt und dort mit einer globalen Datenbank abgeglichen. Tauchen dabei unbekannte Elemente auf, weist dieser den Agenten an, alle zugehörigen, noch nicht erfassten Blöcke zur Sicherung zu schicken. Mit Hilfe von ID-Pointern bildet er danach alle Dateien und Filesysteme der diversen Hosts ab, die bei späteren Zugriffen auf das »Original« verweisen.

Im Ergebnis verursacht der mathematisch komplexe Vorgang weniger Aufwand als eine Komplettsicherung der jeweiligen Datei. Da dieser Vorgang anders als bei konkurrierenden Lösungen vor der eigentlichen Speicherung stattfindet, wird das Datenaufkommen bereits im Verlauf des Backups drastisch reduziert, so dass sowohl inkrementelle als auch vollständige Sicherungsvorgänge selbst bei geringer Bandbreite in wenigen Stunden abzuwickeln sind, was wiederum das Netzwerk entlastet. Damit eignet sich Deduplizierung besonders für Unternehmen, die bei ihren regelmäßigen Backups viele Niederlassungen und Zweigstellen einbinden müssen.

Weitere Vorteile ergäben sich aus der engen Integration Avamars mit EMCs Backup-Software »NetWorker«, vermarktet Fujitsu seine Systeme.

So funktioniert’s: Drei Wege zur Datenreduktion

Anwender, die Deduplikation in ihren Rechenzentren einsetzen möchten, können zwischen drei konzeptionellen Ansätzen und zwei technischen Plattformen wählen.

Datei-Ebene

Die einfachste, aber leider auch gröbste Methode ist die Deduplikation auf Datei-Ebene: Dabei prüft das Programm im Wesentlichen, ob und welche Files – z. B. E-Mail-Anhänge in Form von PDFs oder PowerPoint-Präsentationen – eine Anwendung mehrfach abspeichert. Der Mailserver erhält daraufhin die Anweisung, nur noch eine Kopie des Attachments zu erstellen und die anderen durch Pointer zu ersetzen. Bei einer 10 Megabyte großen Präsentation, die an 20 Adressaten verschickt wird, lassen sich so schon 19o  Megabyte Plattenplatz einsparen.

Bytes und Datenblöcke

Effizienter sind Verfahren auf Byte- oder Blockebene. Dabei wird jede Datei in einzelne Fragmente fester oder variabler Größe zerlegt, und die Software prüft, welche Übereinstimmungen sich auf diesem Level ergeben, um dann wie beschrieben Dubletten auszusondern. Mit dieser Variante lässt sich eine höhere Granularität erzielen; idealtypisch, d. h. bei nur geringen Änderungen an den zu sichernden Dateien, sinkt langfristig mit jedem Backup die Zahl der übertragenen Fragmente, also auch der Zeitbedarf. Da jeweils nur das Original bzw. eine Instanz der Datei vorgehalten wird, kann man auf verlustbehaftete Kompressionsverfahren verzichten, wodurch Qualitätsprobleme bei der Wiederherstellung abnehmen.

Appliances und vorkonfigurierte Server

Zu unterscheiden sind zudem hardwaregestützte Verfahren und reine Software-Lösungen. Letztere sind gewöhnlich kostengünstiger und lassen sich auf unterschiedlichen Hardware-Plattformen (x86 bzw. x64) einsetzen. Nachteile sind ein hoher Implementierungsaufwand sowie mögliche Leistungseinbußen beim Backup. Die bei vielen Anbietern als Appliance erhältlichen Hardwarelösungen sind in der Regel nicht billig, sparen aber kostenspielige Manpower.