27.09.2013, 08:50 Uhr
Storage-Herausforderungen mit Software lösen
Herkömmliche SAN-Lösungen sind für eine effiziente und kostengünstige Ablage grosser, unstrukturierter Daten ungeeignet. Die Datenflut lässt sich nur mit einer hochskalierbaren Software-Lösung bewältigen, die eine einheitliche Verwaltung ermöglicht – vom eigenen Rechenzentrum bis zur hybriden Cloud-Umgebung.
Herkömmliche SAN-Lösungen sind für eine effiziente und kostengünstige Ablage grosser, unstrukturierter Daten ungeeignet
Der Autor ist EMEA Business Unit Manager Storage bei Red Hat.
Unternehmen sind heute mit einem explosiven Wachstum unstrukturierter Daten konfrontiert. Ein Blick auf die Entwicklung des Datenvolumens in einem durchschnittlichen Rechenzentrum über den Verlauf der letzten sechs Jahre veranschaulicht diese These: Angenommen, ein Unternehmen verfügte 2007 über einen Bestand von 100 Terabyte. Bei einem keineswegs aussergewöhnlichen jährlichen Wachstum von durchschnittlich 50 Prozent sind daraus bis heute mehr als 1 Petabyte geworden. Wer diese drastische Steigerung verkraften will, muss genauer hinschauen. Schätzungen aus mittelständischen und grossen Unternehmen zufolge hat sich in den letzten fünf bis sechs Jahren das Verhältnis zwischen den gespeicherten strukturierten und den unstrukturierten Daten drastisch gewandelt. Waren früher beide Segmente ungefähr gleich gross, entfallen heute rund 90 Prozent des Speichervolumens auf unstrukturierte Daten. Diese Herausforderung muss die IT angehen. Gefragt ist daher eine zukunftsfähige Software-basierte Storage-Infrastruktur, die ausbaufähig, verfügbar, kosteneffizient und einfach zu verwalten ist. Das Herzstück einer solchen Lösung ist ein massiv skalierbares, verteiltes File-System, das eine nahezu lineare Erweiterbarkeit des benötigten Speicherplatzes ermöglicht.
Lineare Skalierbarkeit
Wenn es um Storage geht, wird der Terminus «lineare Skalierbarkeit» immer wieder sehr missverständlich gebraucht. In der Theorie bedeutet «linear skalierbar», dass die doppelte Menge der Speicherkapazität auch die doppelte Performance bietet. Bei gleichbleibenden Antwortzeiten steigt demnach auch der Datendurchsatz (gemessen in Gigabyte pro Sekunde) auf das Doppelte. In der Praxis erfüllen die Speichersysteme diese Anforderung jedoch nicht. Der Grund dafür: Die Skalierbarkeit von Storage hat viele Dimensionen und die Kapazität ist nur eine davon. Auch die Storage-Systeme selbst, welche die einzelnen Festplatten steuern, müssen entsprechend skalieren. Es muss genügend CPU-Leistung vorhanden sein, um alle Laufwerksspindel bei Spitzenbelastungen optimal einsetzen zu können. Darüber hinaus müssen auch das File-System und die Metadatenfunktion linear skalieren, um die doppelte Speicherkapazität zu unterstützen und dem System mitteilen zu können, wo sich die Files auf den neu hinzugekommenen Festplatten befinden. Kurz gesagt: Das gesamte Speichersystem muss skalieren. Bei herkömmlichen verteilten Speichersystemen muss jeder Speicherknoten den zusätzlichen Verwaltungsaufwand bewältigen, der bei der Kommunikation mit anderen Speicherknoten während einer Dateioperation auftritt. Statt einer linearen kommt es in der Praxis immer zu einer geringeren Leistungsverbesserung: Die Kapazität wächst schneller als die Performance. Lesen Sie auf der nächsten Seite: Software-Basierte Speicherstruktur
Software-Basierte Speicherstruktur
Bei einer rein Software-basierten Scale-Out-Storage-Lösung wachsen Kapazität und Performance im Gleichschritt. Damit entsteht eine leistungsfähige Storage-Infrastruktur zur Speicherung unstrukturierter Daten auf standardbasierten x86-Servern. Durch die gemeinsame Nutzung von CPUs und den I/O-Ressourcen einer grossen Zahl kostengünstiger Standardserver entsteht ein umfangreicher hochperformanter Speicher-Pool (Cluster). Wird mehr Kapazität benötigt, können IT-Abteilungen weitere Festplatten hinzufügen. Ist eine höhere Performance gefragt, werden mehr Server installiert – ohne, dass ein zusätzlicher Overhead entsteht (vgl. Grafik). Damit Performance und Kapazität linear steigen können, müssen drei Bedingungen erfüllt sein:
- Es gibt keinen Metadatenserver.
- Die zu speichernden Daten müssen effizient verteilt werden, um eine hohe Skalierbarkeit und Zuverlässigkeit zu erzielen.
- Es muss ein paralleler Datenzugriff erfolgen, um die Performance in einer vollständig verteilten Architektur zu maximieren.
Eine grosse Herausforderung bei Software-basierten Scale-out-Storage-Lösungen ist die logische und physische Lokalisierung von Daten. Die meisten verteilten Systeme lösen das Problem mit einem getrennten Index, der Dateinamen und Metadaten zur Lokation enthält. Das Ergebnis ist jedoch ein Single Point of Failure und ein beachtlicher Performance-Bottleneck. Wächst der Bestand an Files, Servern und Festplatten, bremst der Metadatenserver die Lösung aus. Die Situation verschärft sich, wenn es sich vor allem um eine grosse Zahl kleiner Dateien handelt und dadurch die Metadateninformationen überproportional ansteigen. Die Lösung von Red Hat platziert und lokalisiert Dateien mit einem Hashing-Algorithmus, das heisst, es wird ein Hashwert für den Dateinamen und -pfad berechnet. Eine häufige Quelle für I/O-Engpässe und die Anfälligkeit für Ausfälle wird so eliminiert. Wichtige Vorteile bringt die Unterstützung von File- und Object-Storage in einem einheitlichen Speicher-Pool. Die Kombination von File- und Object-Storage vereinfacht die Verwaltung unterschiedlichster Daten und bietet Unternehmen eine höhere Speicher- und Informationsflexibilität, um das rasante Wachstum unstrukturierter Daten zu bewältigen. So können sie schneller und kostengünstiger als mit herstellerspezifischen SAN-Lösungen auf die Daten zugreifen. Software-basierte Lösungen eignen sich daher zum Speichern unterschiedlicher unstrukturierter Daten, zur Verwaltung komplexer Medieninhalte und einer arbeitsplatznahen Archivierung. Die mit Posix (Portable Operating System Interface for Unix) kompatible Speicherlösung von Red Hat etwa unterstützt Network-Attached-Storage-Standards (NAS) wie NFS und CIFS für den dateibasierten Zugriff, OpenStack Swift für den Objektzugriff und einen nativen GlusterFS-Client für den hochgradig parallelisierten Zugriff. Lesen Sie auf der nächsten Seite: Unabhängig von proprietären Arrays
Unabhängig von proprietären Arrays
Mit einer rein Softwarebasierten Lösung werden Unternehmen unabhängig von oftmals teuren, schwer skalierbaren monolithischen Storage Arrays. Innerhalb weniger Minuten können sie mit einer Software-basierten Lösung kostengünstige x86-Server einrichten und ihre Storage-Infrastruktur um skalierbare, hochleistungsfähige Kapazitäten erweitern – sei es im eigenen Rechenzentrum oder in einer Hybrid-Cloud-Umgebung. Die synchrone Dateireplikation ermöglicht die lokale Replikation von Daten und unterstützt Business Continuity. Die asynchrone Replikation ermöglicht die Remote-Replikation von Daten zur Notfallwiederherstellung. Unternehmen, die mit einem massiven Wachstum unstrukturierter Daten zu kämpfen haben, haben mit einer Software-basierten Lösung die Möglichkeit, zusätzliche Kapazitäten in die Cloud zu verlagern. Das Verwaltungs-Tool von Red Hat Storage Server etwa basiert auf dem oVirt-Projekt (einer Open-Source-Infrastruktur- und Virtualisierungsmanagement-Plattform) und bietet Administratoren von einem Punkt aus einen vollständigen Überblick über den gesamtem Storage-Pool. Dadurch vereinfacht sich – ohne Investitionen in neue Hardware – die Administration unstrukturierter Daten in Umgebungen mit wenigen Terabyte bis zu mehreren Petabyte – und die Datenexplosion bleibt beherrschbar.