Auswahlkriterien für Hochverfügbarkeits-Server
Arbeitstiere im Dauereinsatz

CloudIT-ManagementIT-ProjekteNetzwerk-ManagementNetzwerkeServer

Server-Ausfälle kann sich heute kein einziges Unternehmen leisten. Dies gilt besonders für kritische Prozesse in Produktion und EDV. Achten Sie bei der Auswahl wichtiger Server und ihrer Komponenten unbedingt auf Hochverfügbarkeit. Nur so können Sie dem EDV-Super-GAU vorbeugen.

Ausfälle vermeiden

Auswahlkriterien für Hochverfügbarkeits-Server

Der Mailserver antwortet stundenlang nicht, die Auftragsverwaltung steht still, Drucker geben keine Lieferscheine aus. Für moderne Unternehmen sind solche Ausfälle Katastrophen, die im schlimmsten Fall die Existenz der ganzen Firma aufs Spiel setzen können. Zumindest bei kritischen Unternehmensprozessen sind heute 24-Stunden-Verfügbarkeit an jedem Tag der Woche unabdingbar. Im Idealfall dürfen Netz oder Netzzugänge nie ausfallen, Server nie stillstehen und Daten nie unerreichbar sein. In der Praxis ist perfekte Verfügbarkeit zwar nie gewährleistet, doch für viele Firmen ist es wichtig, diesem Ideal möglichst nahe zu kommen. Verfügbarkeiten werden gern in Prozentwerten gemessen: Standardkomponenten unter Linux erreichen heute eine Verfügbarkeit von 99,9 Prozent. Das klingt beeindruckend, reicht aber in der Praxis oft nicht. Denn immerhin lassen 99,9 Prozent einen Zugriffsverlust von 8,7 Stunden pro Jahr zu ? sind es acht Stunden in der Geschäftszeit, kann dies zu lang sein. Eine der nächst höheren Stufen der Verfügbarkeit ist eine Ausfallsicherheit von 99,99 Prozent. Dies entspricht einem Systemausfall von etwa 50 Minuten pro Jahr. Auch dies ist für manche Einsatzgebiete noch zu viel. Als magischer Wert gelten »Five-Nine«: 99,999 Prozent Verfügbarkeit ? also weniger als fünf Minuten Ausfall pro Jahr. Ausfallsicherheit gibt es nicht umsonst, sie kostet Geld. Je höher die Sicherheit, umso mehr finanzielle Mittel müssen in die Systeme gestecktwerden. Davon sind nicht alle Unternehmen in gleicher Weise betroffen.Je kritischer aber ein Systemausfall für eine Firma ist, umso eher wird in eine höhere Ausfallsicherheit investiert. Auf der anderen Seite gibt es viele kleinere und mittelständische Unternehmen, für die weniger hohe Anforderungen ausreichen, etwa imBereich Dateiablage, Drucken oder E-Mail. Sie kommen mit einfacheren Mitteln aus und brauchen weniger zu investieren.


Speichersicherheit mit ECC

Auswahlkriterien für Hochverfügbarkeits-Server

Bei der Verfügbarkeit spielen mehrere Komponenten eine Rolle. Basis ist aber die permanente Erreichbarkeit der entsprechenden Server. Wichtige Auswahlkriterien bei der Server-Hardware sind vor allem die Gesamt- Performance, die Skalierbarkeit, die Flexibilität und der Platzbedarf. Vom Server-Design her genügt bei kleineren Unternehmen normalerweise schon ein Towersystem den Anforderungen. Um bei solchen Systemen Ausfälle durch defekten Hauptspeicher zu vermeiden, sollte der Server rudimentäre Sicherheitsmechanismen enthalten. Dazu gehört die Ausstattung mit ECC-Speicher (Error-Correcting Code). ECC-Module haben im Gegensatz zu normalen RAM-Bausteinen zusätzlich Funktionen, die den Datenfluss überprüfen und gegebenenfalls verändern können. Sie sind damit imstande, Fehler zu korrigieren. ECC behebt Ein-Bit-Fehler und erkennt Zwei-Bit-Defekte. Dank der Ein-Bit-Fehlerkorrektur ignoriert der Server einen Ein-Bit- Fehler des Speicherchips auf einem DIMM Arbeitstiere Speichermodul und läuft problemlos weiter. Laut einer IBM-Laborstudie erreicht ein mit ECC ausgestatteter Hauptspeicher eine Zuverlässigkeitsrate von 91 Prozent. Höhere Speicherausfallsicherheit bietet das von IBM eingeführte Chipkill-Verfahren, auch als Advanced ECC bezeichnet. Es kann bis zu Vier-Bit-Fehler korrigieren und Acht-Bit- Fehler erkennen. Bei Fehlerhäufung in einem Speicherchip kann es diesen sogar ausblenden, ohne das System herunterzufahren. Ein Vorteil der Chipkill-Technologie: Es sind keine speziellen Speichermodule notwendig, handelsübliche ECC-DIMMs genügen. Zusätzlich arbeitet das Korrekturverfahren unabhängig vom installierten Betriebssystem und hängt somit nur vom Chipsatz und vom BIOS ab. Das Chipkill-Verfahren erreicht nach der IBM-Studie eine Ausfallsicherheit von 99,94 Prozent. Sollen Speicherintegrität und -ausfallsicherheit noch weiter gesteigert werden, bieten entsprechende Chipsätze und Betriebssysteme zusätzliche Technologien wie Hot Swap, Hot Add, Hot Spare Memory,Memory Mirroring oder ProteXion.


Welcher RAID-Level?

Auswahlkriterien für Hochverfügbarkeits-Server

Die wichtigsteMethode zum Schutz vor Serverausfällen ist, zentrale Komponenten redundant vorzuhalten. Fällt eine davon aus, kann die zweite weiterverwendet werden. Die für den Server-Betrieb entscheidenden Komponenten wie Festplatten, Netzwerkkarten und Netzteile sollten deshalb durch Redundanzen und eine Hotplug-Fähigkeit gegen Ausfälle gesichert sein. Im Ernstfall kann das defekte Teil schnell ausgetauscht werden, ohne dass hierfür der Rechner heruntergefahren werden muss. Bei internen Festplatten ist der RAIDLevel entscheidend für die Verfügbarkeit. Hier werden Daten über Plattenspiegelung redundant auf physisch unterschiedlichen Platten gespeichert. Fällt eine Festplatte aus, so hat dies keinen Einfluss auf die Verfügbarkeit des Gesamtsystems: Der Festplattenspiegel fängt diesen Fehler auf. RAID 1 ist der einfachsteWeg, eine hohe Verfügbarkeit sicherzustellen. Bei dem als Mirroring bezeichneten Verfahren erfolgen Schreibzugriffe parallel auf zwei Laufwerke. Die Daten sind damit zu 100 Prozent redundant vorhanden und bei Ausfall eines der Systeme weiterhin verfügbar. Das defekte Laufwerk kann im laufenden Betrieb ausgetauscht werden (Hotplug), sofern der Controller dies unterstützt. Die Daten werden dann automatisch wieder auf das neue Laufwerk aufgespielt. Bei einer Erweiterung des RAID-Systems ist allerdings jeweils die doppelte Laufwerkskapazität erforderlich. Die Schreibzugriffe erfolgen selbst im Idealfall nur gleich schnell wie bei Einzellaufwerken. Damit eignet sich Mirroring vor allem für Systeme, auf denen wichtige Daten zum hauptsächlichen Lesezugriff vorgehalten werden.


Gute Wahl: RAID 5

Auswahlkriterien für Hochverfügbarkeits-Server

Zwar bietet Mirroring eine perfekte Redundanz, verursacht jedoch gleichzeitig einen erheblichen Overhead und entsprechend hohe Kosten. Um diesen Nachteil zu beheben, arbeiten die RAID-Level 2 bis 7 mit Fehlerkorrektur. Dabei setzt RAID auf eines der ältesten Verfahren zur Fehlerkorrektur, die Paritätsprüfung. Im professionellen Umfeld ist besonders RAID Level 5 verbreitet. RAID 5 gilt als gute Wahl, wenn es darauf ankommt, Daten auf mehr als zwei Platten redundant zu speichern. Es sichert den Verbund durch die Generierung von Paritäts-Informationen. Diese stellen auch bei Ausfall einer Platte die Verfügbarkeit aller Daten sicher. Dabei ist der RAID-Controller für die Berechnung der Redundanzdaten zuständig. Zusätzlich wird ein Index dieser Redundanzdaten erzeugt und ebenfalls über alle Festplatten verteilt gespeichert. Fällt ein Laufwerk im Betrieb aus, erzeugt das System eine Warnung, arbeitet aber dennoch weiter. Erst wenn eine weitere Festplatte streikt, gehen alle Daten verloren. Ein einzelnes defektes Laufwerk kann einfach im Betrieb ausgetauscht werden. Da RAID 5 die Nutzdaten gleichmäßig und blockweise über die Laufwerke verteilt, sinkt die Wahrscheinlichkeit, dass gleichzeitig zwei Schreibzugriffe auf dieselbe Platte erfolgen, so dass sich Schreibzugriffe weitgehend parallelisieren lassen. Auch beim Lesen von Daten bietet RAID 5 durch die Verteilung der Daten über alle Laufwerke eine gute Performance. Dies zahlt sich insbesondere beim Zugriff auf viele kleine Datenblöcke aus. Daher kommen RAID-5-Systeme speziell bei Datenbank-, E-Mail- oder Transaktions-Servern zum Einsatz. Eine noch höhere Ausfallsicherheit bietet RAID 6. Während RAID 5 den Ausfall von maximal einer Festplatte verkraftet, gewährleistet RAID 6 den Ausfall von zwei Platten. RAID 6 berechnet hierfür zwei Fehlerkorrekturwerte und verteilt sie so, dass sie auf zwei unterschiedlichen Disks liegen. Durch diesen ausgewogenen Kompromiss wird gute Performance bei gleichzeitig hoher Ausfallsicherheit erzielt.


Datensicherung und C
PUs

Auswahlkriterien für Hochverfügbarkeits-Server

Neben möglichst ausfallsicheren, internen Speichern ist natürlich auch eine regelmäßige Datensicherung Voraussetzung für Hochverfügbarkeit. Hochverfügbare Server müssen hierfür entsprechende Kapazitäten bereitstellen. Viele Dual-Prozessor-Systeme haben Platz für bis zu acht Hotplug-Festplatten und ein internes Bandlaufwerk. Sollte der Wunsch-Server nicht ausreichend Platz für Platten und Tapes bieten oder sollten externe Speicherlösungen bevorzugt werden, müssen entsprechende Laufwerkscontroller für eine externe Datensicherung sorgen. Diese kann entweder über ein SAN und das recht anspruchsvolle Fibre-Channel-Protokoll erfolgen ?wie es normalerweise große Unternehmen mit ihren riesigen Datenmengen bevorzugen. Mittelständische Unternehmen setzen kostengünstiger auf die iSCSITechnologie, bei der sich Server in IP-basierte Netzwerke integrieren lassen. Bei der Prozessorausstattung sind meist mehrere CPUs Pflicht. Ob ein System ein, zwei oder mehrere Prozessoren enthält, hat für die Verfügbarkeit zwar keine direkten Auswirkungen. Doch in Servern höherer Leistungsklasse gehört dies zum Standard. Es gibt nur einige wenige Ausnahmen, bei denen Sie sich mit Ein-Prozessor-Maschinen zufrieden geben sollten. Das sind beispielsweise einfache Printserver oder Server für Filedienste. Für die meisten anderen Anwendungen haben viele Unternehmen heute Dual-Prozessor-Systeme mit Dual- Core-Technologie im Einsatz.


Sicher PCI-Express

Auswahlkriterien für Hochverfügbarkeits-Server

Für die Verfügbarkeit wichtiger als der Prozessorentyp ist, die Gefahr eines Systemausfalls wegen fehlerhafter Datenpakete zu reduzieren. Größere Zuverlässigkeit bringt hier PCI-Express. Der PCI-Express-Bus ist mit ECC-Unterstützung ausgestattet. Das heißt, Datenfehler müssen nicht zum Ausfall des Servers führen, sondern können korrigiert werden. Voraussetzung ist, dass der Chipsatz PCI-Express-Pakete automatisch neu überträgt, falls der erste Transfer fehlschlägt. PCI-Express hat in der Praxis aber noch andere Vorzüge. Die PCI-Express-Technologie ist von vornherein Hotplug-fähig. Proprietäre Treiber wie bei Hotplug-PCI werden nicht benötigt. In der x16-Implementierung liefert PCI Express einen Durchsatz von bis zu 64 GBit/s. Aufgrund des besonderen Designs der PCI-Express-Anschlüsse werden weniger Pins benötigt. Dies schlägt sich unmittelbar in einem niedrigeren Stromverbrauch, in geringeren Kosten und einfacheren Designs nieder ? das Ergebnis ist ein zuverlässigerer Server. Auch beim Speicher-Controller sollte auf hohe Verfügbarkeit geachtet werden. Der Controller kann automatisch einen Failover vom Zweikanalmodus in den Einkanalmodus ausführen, so dass das System auch bei einem Ausfall eines Speicher-Controller- Kanals online bleibt.


Server für Cluster

Auswahlkriterien für Hochverfügbarkeits-Server

In größeren Unternehmen wird Hochverfügbarkeit bei kritischen Anwendungen wie Datenbank,Webserver oder E-Mail über Cluster-Lösungen realisiert. In High-Availability- Clustern koppelt man beispielsweise einen kritischen Datenbank-Server mit einem zweiten Rechner. Tritt auf dem Datenbank- Server ein Fehler auf,werden die auf diesem Rechner laufenden Dienste auf den anderen Knoten migriert. Das Zweitsystem übernimmt im Fehlerfall die Aufgaben des Primärsystems. Bei Hochverfügbarkeits-Clustern unterscheidet man zwischen Aktiv/Passiv- und Aktiv/ Aktiv-Clustern. Sind beide Knoten aktiv (Aktiv/Aktiv), ist eine Lastverteilung zwischen den Knoten möglich. Bei Ausfall des einen Knotens übernimmt der andere dessen Arbeit ganz. Bei einem Aktiv/Passiv-Cluster arbeitet dagegen immer nur ein Server ? das Primärsystem. Der zweite, wartende Server ist das Stand-by-System und muss bei Ausfall des Primärsystems aktiviert werden. Cluster werden vor allem über Rack- und Blade-Server realisiert. Ein Rack-Server ist kompakt, er misst meist nur eine Höheneinheit (HE). Eine HE entspricht einer Höhe von 4,45 Zentimeter. Ein handelsüblicher 19-Zoll- Standard-Rackschrank hat eine Höhe von 42 HE. Er bietet damit Platz für 42 Rack-Server mit 84 CPUs bei Dual-Prozessor-Systemen. Zum Vergleich: Herkömmliche Server haben eine Höhe von 3 HE, womit ein Rack maximal 14 Server aufnehmen kann. Werden mehr als acht Rack-Server benötigt, ist der Einsatz von Blades eine Alternative. Blades oder andere Systeme mit vier Prozessoren bilden das oberste Ende des Leistungsspektrums bei der Zuverlässigkeit. Solche Vier-Prozessor-Maschinen werden vor allem bei unternehmenskritischen SAP- und Oracle-Anwendungen eingesetzt, bei umfangreichen Migrationen oder Virtualisierung. Tests zu den Server-Systemen Lynx Workgroup Server 4300 und Sun Fire T2000 lesen Sie ab Seite 71. Vor allem Sun versucht sich mit den neuen Servern der Niagara-Architektur bei Anwendungen wie Web- und Datenbank-Server im Hochleistungsbereich zu etablieren. Jede CPU des Sun-Servers verfügt über sechs Kerne, die wiederum vier so genannte Strands enthalten, die parallel Befehle abarbeiten.


Remote-Administration

Auswahlkriterien für Hochverfügbarkeits-Server

Last but not least müssen Server auch administriert werden. Gute Administrierbarkeit ist ein Auswahlkriterium für Hochverfügbarkeits- Server, dessen Bedeutung für die tägliche Praxis nicht unterschätzt werden sollte. Grundsätzlich sollten die Rechner mit einem Baseboard Management Controller (BMC) ausgestattet sein. Der BMC ermöglicht den Fernzugriff auf den Server über das Netzwerk oder eine serielle Verbindung. Administratoren können damit den Server auch von einem entfernten Standort überwachen, verwalten und bei Bedarf sogar herunterfahren und neu starten. Der BMC übernimmt die proaktive Überwachung und gibt eine Warnung aus, sobald das System benutzerdefinierte Schwellenwerte für eine Reihe kritischer Funktionen erreicht. Die Verwaltung des BMC erfolgt unabhängig vom Betriebssystem sowie vom Status des Servers. Der Administrator kann also auch dann noch über das Netzwerk auf den Server zugreifen, wenn der Server ausgefallen ist. Wichtig dabei ist: Der BMC sollte kompatibel zu IPMI sein. IPMI (Intelligent Platform Management Interface) ist ein branchenübergreifender Standard, mit dem die Verwaltbarkeit von Servern unterschiedlicher Hersteller verbessertwird. Standardisiert wurden Verwaltungs-Hardware, Überwachung, Warnfunktionen und Kommunikation. Das kommt hauptsächlich größeren Unternehmen zugute, weil sie dadurch ihre Server über eine gemeinsame Oberfläche verwalten können. Administratoren sind außerdem produktiver, weil sie mit weniger Administrations- Tools auskommen.

Bild: IPMI ist eine Programmierschnittstelle zum Austausch von Informationen eines Baseboard Management Controllers


Blade-Server ? die bessere Alternative

Auswahlkriterien für Hochverfügbarkeits-Server

Werden mehr als acht bis zehn Rack- Server benötigt, sind Blades eine attraktive Alternative. Die Komplett-Server auf einer einzelnen Platine, die Server-Blades, sind mit ein bis zu vier meist fest eingelöteten Prozessoren bestückt ? samt Speicher, eigenen Festplatten und Netzwerk- Anschluss. Die schmalen Boards werden senkrecht in die Einschübe speziell dafür konzipierter Gehäuse gesteckt. Wird mehr Leistung benötigt, kommt einfach ein neuer Server hinzu ? das funktioniert bei allen Herstellern im laufenden Betrieb. Blades haben besonders in größeren Rechenzentren ihren Siegeszug angetreten. Nicht zuletzt deshalb, weil Blade-Server höhere Packungsdichten erreichen als die üblichen horizontalen Einschübe für 19-Zoll-Racks. Ein einziges Rack kann hundert oder sogar mehr Server-Blades aufnehmen. Auch beim Preis-Leistungs-Vergleich punkten Blades vor Rack-Servern, denn Blades nutzen Betriebsmittel wie Stromversorgung, Kühlung und Netzwerk- Switches gemeinsam. Und schließlich ist die Verkab
elung bei Blades auch weniger aufwändig als bei normalen Servern. IDC prognostiziert für diese Server-Gattung bis 2008 ein durchschnittliches jährliches Wachstum von über 50 Prozent. Laut den Marktforschern wird dann jeder vierte Server ein Blade-System sein. Auch in mittelständischen Unternehmen kann diese Alternative zu den klassischen Rackoder Tower-Servern handfeste Vorteile bieten. So sinkt durch die Server-Konsolidierung der Platzbedarf drastisch. Blade-Server gibt es unter anderem von Fujitsu Siemens, IBM, HP und auch Sun. Der Preis für ein komplettes Blade- Server-Systemhängt stark von Anzahl und Art der verwendeten Server-, Netzwerkund Management-Module ab. In der Regel liegen die Einstiegspreise bei mehreren zehntausend Euro.