Überblick: Was Sie über RAID wissen müssen
RAID steht für “Redundant Array of Independet Disks”, also für den Zusammenschluss einzelner Festplatten zu einer logischen Einheit. Diese logische Einheit ( = Array) bietet für den Anwender den Vorteil, dass sie wie eine einzelne Festplatte ansprechbar ist. Der RAID-Controller beziehungsweise das Betriebssystem sorgen für eine transparente Nutzung. Man muss sich also im Alltag keine Gedanken um die Verwaltung beziehungsweise Speicherung der Dateien machen.
Auf der anderen Seite sorgt ein RAID je nach Level automatisch für Datensicherheit trotz Hardware-Defekt und/oder für eine höhere Performance beim Lesen und Schreiben. Ohne weiteres Zutun des Nutzers werden die Dateien korrekt abgelegt. Je nach RAID-Level geschieht das auf die eine oder andere Art und Weise. Die Unterschiede der einzelnen RAID-Level werden weiter unten erläutert.
Ein RAID ist kein Backup
Wichtig ist zu verstehen, dass ein RAID niemals ein Ersatz für ein Backup ist. Es kommt stattdessen darauf an, Daten trotz Ausfall einer Festplatte weiterhin bereitstellen zu können. Daher kommen RAIDs oft bei Servern oder Netzwerkspeichern (NAS) zum Einsatz, auf denen Dateien liegen, die ständig abrufbereit sein müssen.
Fällt dort eine Festplatte aus, sinkt im schlimmsten Fall der Datendurchsatz, die Inhalte bleiben aber erreichbar. Gegen einen Virenbefall oder einen Bedienungsfehler durch den Nutzer (etwa versehentliches Löschen) kann allerdings auch ein RAID nicht schützen. Hier helfen nach wie vor nur Sicherungskopien.
Hardware-RAID oder Software-RAID?
Die einzelnen Festplatten lassen sich auf unterschiedliche Weise zu einem RAID-Verbund zusammenschließen. Im professionellen Umfeld wird meist ein so genanntes Hardware-RAID aufgebaut. Hier übernimmt ein Controller die Aufgabe, ein RAID einzurichten und zu verwalten. Der Mikrochip auf dem RAID-Controller entlastet den Hauptprozessor des Servers oder PCs, da er alle Berechnungen selbst übernimmt. Das sorgt für eine hohe Performance und für zusätzlichen Schutz vor Fehlern, da es sich um Hardware speziell für diesen Einsatzzweck handelt.
Im Gegensatz zu einem Software-RAID, bei dem das Betriebssystem die Aufgaben des Controllers übernimmt, ist diese Variante natürlich teurer. Hat man bereits Windows, Mac OS oder Linux in Betrieb, spart man sich zusätzliche Kosten, weil die Software ohnehin Konfiguration und Management des RAID übernimmt. Allerdings geht das klar zu Lasten der Performance, weil in diesem Fall der Haupt-CPU zusätzliche Arbeit aufgehalst wird. Außerdem können die gängigen Betriebssysteme nicht alle RAID-Level abbilden.
Zwischen Hard- und Software-RAID liegt das so genannte Host-RAID. Hier übernehmen das Mainboard und die integrierte Firmware die Aufgabe des RAID-Controllers. Die Hauptlast bleibt dennoch beim Prozessor des Computers hängen. Wie beim Hardware-RAID ist auch diese Variante für Betriebssystem und Anwender vollständig transparent.
Weit verbreitete RAID-Level
RAID 0
Bei diesem RAID-Level werden die Dateien blockweise über alle Festplatten (mindestens zwei) verteilt. Diese Methode wird “Striping” genannt, alle beteiligten Festplatten werden als “Stripe Set” bezeichnet. Der Vorteil liegt zum einen in der hohen Performance bei Schreib- und Leseoperationen, da die Dateien auf mehrere HDDs parallel geschrieben werden beziehungsweise von dort gelesen werden. Zum anderen nutzt RAID 0 die volle Kapazität aller Festplatten aus. Der Nachteil ist allerdings die fehlende Redundanz: Fällt eine Festplatte aus, sind alle Dateien verloren.
RAID 1
Ebenfalls mindestens zwei Festplatten sind Voraussetzung für RAID 1, allerdings steht hier nur die Hälfte der Gesamtkapazität für Nutzdaten zur Verfügung. Denn bei diesem RAID-Level werden die Dateien von Festplatte 1 komplette auf Festplatte 2 gespiegelt. “Mirroring” wird diese Methode daher auch genannt, die vergleichsweise teuer ist, da man immer die doppelte Anzahl an Speicherplatz kaufen muss, um die gewünschte Kapazität zu erreichen.
Vorteil ist die echte Redundanz: Eine Festplatte kann ausfallen, ohne dass man einen Datenverlust erleidet. Dabei ist die Schreibgeschwindigkeit nahezu identisch zur Performance der einzelnen Festplatten. Die Lesegeschwindigkeit ist hingegen wesentlich höher, da die Dateien von beiden HDDs parallel gelesen werden können.
RAID 5
Eine beliebte Kombination aus Datensicherheit und Performance ist RAID 5. In diesem Level errechnet ein Algorithmus sogenannte Wiederherstellungsinformationen (Paritätsinformationen), die erheblich weniger Speicherplatz als die Originaldateien einnehmen. Beim Ausfall einer Festplatte kann der Controller beziehungsweise die Software mit Hilfe dieser Informationen und der übrigen Daten die verlorenen Dateien wiederherstellen.
Die Paritätsinformationen verteilt RAID 5 zusammen mit den Nutzdaten auf allen Festplatten des Arrays. Für RAID 5 benötigt man mindestens drei Festplatten. In dieser Konstellation stehen zwei Drittel der Gesamtkapazität zur Verfügung. Je mehr Festplatten zu einem RAID 5 zusammengeschaltet werden, desto höher wird der Speicherplatzanteil, der für Nutzdaten bereitsteht, da immer nur die Kapazität eines Einzellaufwerks für die Wiederherstellungsinformationen benötigt wird.
Bei 20 HDDs sind es beispielsweise schon 95 Prozent. Das macht RAID 5 nicht nur sicher, sondern auch relativ günstig. Die Lesegeschwindigkeit des Arrays ist in jedem Fall höher als die der Einzellaufwerke. Da beim Schreiben allerdings wieder neue Paritätsinformationen errechnet werden müssen, sinkt die Performance unter den Wert der beteiligten HDDs – vor allem bei kleinen Dateien.
RAID 6
Dieses RAID-Level ist RAID 5 sehr ähnlich. Ein Algorithmus errechnet Paritätsinformationen für jeden Block, legt diese aber jeweils auf zwei unterschiedlichen Festplatten des Arrays ab. Die Wiederherstellungsinformationen für jeden Datenblock stehen also gleich in doppelter Ausführung bereit.
Die Folge: Es können sogar zwei Festplatten im RAID-6-Verbund ausfallen, ohne dass Daten verloren gehen. Die Kapazitätsverfügbarkeit liegt je nach Anzahl der HDDs bei 50 bis 99,8 Prozent. Sie steigt mit der Anzahl der Festplatten, die Mindestzahl um ein RAID 6 einzurichten liegt allerdings schon bei vier HDDs.
RAID 10 und RAID 01
RAID-Level 10 beziehungsweise 01 kombiniert die Vorteile von RAID 0 und 1, verknüpft also Performance mit Datensicherheit. Dazu werden Dateien zunächst blockweise verteilt (wie bei RAID 0), die daraus resultierenden Arrays werden wiederum gespiegelt (wie bei RAID 1). Der Unterschied zwischen RAID 10 und 01 ist die Reihenfolge des “Striping” und “Mirroring”: Werden die Daten zuerst verteilt und dann gespiegelt, ist dieser Verbund ein RAID 01. Kommt das Spiegeln vor der Blockverteilung, spricht man von RAID 10.
Letzteres ist aus Sicht der Datensicherheit vorzuziehen. RAID 10 bietet gegenüber RAID 01 eine bessere Ausfallsicherheit und schnellere Rekonstruktion nach einem Plattenausfall. Im Ernstfall ist es für den Controller nämlich einfacher, eine Festplatte im Sub-Array zu spiegeln, anstatt die Blöcke erneut per Striping über das gesamte Sub-Array zu verteilen. Für ein RAID 10 sind mindestens vier Festplatten erforderlich, ein RAID 01 ist auch mit nur drei HDDs möglich. In beiden Fällen stehen 50 Prozent der Gesamtkapazität für Nutzdaten bereit.
JBOD
Beim Thema RAID wird ebenfalls oft das Prinzip “Just a Bunch of Disks” (JBOD) genannt. Viele Netzwerkspeicher oder Betriebssysteme bieten neben den gängigen Leveln auch diese Methode an. Streng genommen handelt es sich dabei allerdings gar nicht um ein RAID-Level, da JBOD weder Redundanz noch Geschwindigkeitsvorteile bietet. Die Festplatten werden lediglich aneinander gehängt und wie ein großes Laufwerk behandelt.
Damit können auch HDDs unterschiedlicher Größe voll ausgenutzt werden, allerdings ist das Array schon beim Ausfall einer Platte nicht mehr brauchbar. Anders als bei RAID 0 bietet JBOD auch keinerlei Leistungsplus, da die Dateien nicht blockweise gleichmäßig verteilt, sondern fortlaufend geschrieben werden. Der Abruf einer Datei erfolgt also in den meisten Fällen von einer Festplatte, ähnlich wie bei einem PC ohne RAID-Verbund. Der kleine Trost bei einem Defekt einer Festplatte: Die Dateien auf den übrigen Laufwerken lassen sich mit großer Wahrscheinlichkeit retten.
Weitere RAID-Level
Die populärsten RAID-Level sind die bereits vorgestellten Level 0, 1, 5 und 10 sowie mit Abstrichen 6. Die tatsächliche Anzahl an verfügbaren RAID-Leveln ist hingegen fast unüberschaubar. Alleine der Wikipedia-Artikel zum Thema RAID listet 35 RAID-Level beziehungsweise Speicherkonzepte auf.
Die große Anzahl basiert zum einen auf den zahlreichen Kombinationen, die sich aus den Basis-RAID-Leveln ergeben, und zum anderen auf Herstellern sowie Entwicklern, die proprietäre Technologien anbieten wie etwa RAIDn von Inostor Corp. oder RAID DP von NetApp. Die beiden letztgenannten Level basieren auf RAID 6 beziehungsweise RAID 4. Sie verfolgen das Ziel, die genannten Methoden sicherer zu machen, indem sie etwa eigene Algorithmen zur Errechnung der Wiederherstellungsinformationen oder ein spezielles Dateisysteme auf den Festplatten verwenden. Dadurch binden sie den Nutzer aber natürlich auch an den Anbieter
Die standardisierten RAID-Level 2, 3 und 4 spielen heutzutage kaum noch eine Rolle. RAID 2 und 3 verteilen die Daten bit- beziehungsweise byte-weise auf den Festplatten. Zusätzlich werden Paritätsinformationen erstellt, die auf einem zusätzlichen Stripe Set (RAID 2) oder einer eigenen Festplatte (RAID 3) gespeichert werde. Aufgrund günstigerer und effektiverer Alternativen werden beide Level kaum noch eingesetzt.
Das gilt ebenso für RAID 4, das analog zu RAID 5 die Nutzdaten blockweise über mehrere Festplatten verteilt, die Wiederherstellungsdaten jedoch auf einer eigenen HDD ablegt. Diese wird bei jedem Schreibvorgang und damit stärker als die übrigen Platten belastet. RAID 5 verteilt die Last hingegen gleichmäßig auf alle RAID-HDDs, da die Paritätsinformationen zusammen mit den Nutzdaten gespeichert werden.
Eigenschaften gängiger RAID-Level im Überblick |
||||||
Merkmal | RAID 0 | RAID 1 | RAID 5 | RAID 6 | RAID 10 | JBOD |
---|---|---|---|---|---|---|
Mindestzahl an Festplatten | 2 | 2 | 3 | 4 | 4 | beliebig |
Ausfallsicherheit (wie viele HDDs dürfen ausfallen?) | 0 | 1 | 1 | 2 | 1 pro Sub-Array | 0 |
Speicherkapazität für Nutzdaten | 100 Prozent | 50 Prozent | 67 bis 99,9 Prozent | 50 bis 99,8 Prozent | 50 Prozent | 100 Prozent |
Datentransferrate im Vergleich zu einem Einzellaufwerk | höher | beim Lesen höher | hängt vom Controller ab | hängt vom Controller ab | beim Lesen höher | gleich |
Rechenaufwand bei Datenwiederherstellung | nicht möglich | gering | hoch | sehr hoch | gering | nicht möglich |
Preis | niedrig | hoch | mittels bis niedrig | hoch bis niedrig | hoch | niedrig |
Beliebte Kombinationen aus verschiedenen RAID-Leveln sind zum Beispiel RAID 50 und 60. Bei diesen Methoden gibt es mehrere RAID-5- bzw. RAID-6-Arrays, die über ein großes RAID-0-Array gestriped werden. Dieses komplexe Gebilde benötigt mindestens sechs (RAID 50) oder acht (RAID 60) Festplatten und zwei RAID-Controller.
Ein RAID 50 bietet einen hohen Datendurchsatz. Dieser ist bei einem RAID 60 etwas geringer, dafür ist hier die Ausfallsicherheit höher. Oft unterstützen RAID-Controller, beispielsweise in NAS, ein Hot-Spare-Laufwerk. Dabei handelt es sich um eine Reservefestplatte die einspringt, sobald eine HDD im RAID ausfällt. Das System stellt auf diesem Laufwerk die fehlenden Dateien automatisch wieder her. Während dieser so genannten Rebuild-Phase ist keine Redundanz vorhanden. Fällt währenddessen ein zweites Laufwerk aus, sind die Dateien verloren (Ausnahme: RAID 6). Daher führen manche RAID-Systeme das Rebuilding schon dann aus, wenn die betroffene HDD noch arbeitet, aber bereits erste Anzeichen eines drohenden Defekts zeigt.