Big Data
10.02.2012, 09:11 Uhr
ertrinken oder schwimmen lernen
Die Datenflut wird immer grösser - Unternehmen müssen lernen, wie man darin schwimmt.
Daten speichern ist teuer. War es früher das Speichermedium selbst, ist es heute die schiere Menge, die zum Kostentreiber wird. Laut einer Studie von EMC und IDC verdoppeln sich die weltweiten Informationen alle zwei Jahre und haben 2011 1,8 Zettabyte erreicht – das sind 1,8 Trillionen Gigabyte. Um diese Zahl etwas anschaulicher zu machen: Das entspricht ungefähr der Speicherkapazität von 57,5 Billionen 32 GB iPads. Die drei «grossen V» (Volume, Variety und Velocity) sind die Hauptursachen für das Datenwachstum. Immer mehr Transaktionen in Unternehmen generieren immer mehr Daten. Dabei entsteht aber nicht nur ein Aufbewahrungs- und Sicherungs-, sondern vor allem auch ein Analyseproblem. Gab es früher nur einfache Transaktionsdaten (z.B. aus Datenbanken), tragen heute auch Social Media, mobile Devices, Mails, Videos, hierarchische und Messdaten zum Gesamtbild bei. Für grosse Unternehmen war und ist schon allein die schiere Datenmenge von jeher eine Herausforderung. Aber auch das Thema Geschwindigkeit ist ein wichtiger Punkt beim Datenmanagement. Wie schnell stehen diese riesigen Datenmengen zur Verfügung? Wie schnell können sie verarbeitet werden, um die erforderlichen Ergebnisse zu liefern? Eine Warnung zu bekommen, dass die Leitung gebrochen ist, bringt wenig, wenn einem das Wasser schon bis zum Hals steht. Der Alarm sollte schon dann losgehen, wenn die Leitung knackt. Stellt man sich die Datenmengen vor, die bei Finanztransaktionen, im Börsenhandel, als Energieverbrauchsdaten, in der Wissenschaft oder im Gesundheitswesen so anfallen, beschleicht einen zudem der Verdacht, dass die Schätzungen zu den Datenbeständen und deren Wachstum eher konservativ sein könnten. Gleichzeitig ist dieser Datenbestand ein Schatz für das Unternehmen, der nur in den seltensten Fällen wirklich gehoben wird. Das liegt aber weniger am «nicht wollen», eher schon am «nicht können». Schon heute sind Standard-Tools oft nicht mehr in der Lage, alle Daten adäquat zu erfassen, zu analysieren, zu verteilen, die Ergebnisse zu visualisieren und all das auch noch (revisions-)sicher und rückführbar aufzubewahren. Und es wird nicht besser. Hinzukommt, dass diese Daten häufig unter quantitativen Aspekten erhoben werden, statistische Grundprinzipien wie z.B. Repräsentativität stehen eher im Hintergrund. Die Folge: Die Daten bilden nicht die Wirklichkeit ab, es werden verfälschte Trends ausgeworfen – und auf der Grundlage dieser Aussagen dann (falsche) Entscheidungen getroffen. Wo also anfangen, den Dschungel zu lichten? Die drei grossen Einfallstore – die Sammlung und Analyse der Daten, die Speicherung und Sicherung sowie der Umgang des Unternehmens mit dieser Flut – bieten einen guten Ansatz. Nächste Seite: Sammlung und Analyse als Basis
Sammlung und Analyse als Basis
Die schon heute im Unternehmen vorhandenen Daten werden in der Regel in unterschiedlichsten Formaten an verschiedenen Stellen einer Organisation generiert und in ebenso unterschiedlichen Formen gespeichert. Sie können nicht oder nur mit grossem Aufwand zusammengeführt werden und sind daher nicht wirklich aussagekräftig. Analysen werden heute mehrheitlich auf der Basis eines Data Warehouse gemacht. Direkt operationelle Daten zu verwenden, ist bisher nicht üblich. Letzteres würde jedoch Echtzeitanalysen ermöglichen, die Probleme viel früher sichtbar machen können als bisher. Die Daten müssten dafür zuerst einmal in ein gemeinsames Format gebracht werden. Erst dadurch werden sie für alle Aspekte weiterverarbeitbar. Dazu braucht es eine Logistik, die alle Daten zusammenführt und konvertiert. Viele der heute im Einsatz befindlichen DatenbankTools sind damit schlichtweg überfordert. Abhilfe schaffen können hier In-Memory-Appliances. SAP mit HANA und Oracle mit Exalytics sind nur zwei exponierte Beispiele. Der Vorteil: Alle Daten werden im Hauptspeicher gehalten und können sofort weiterverarbeitet werden. Es entfallen die R/W-Zeiten, die bei grossen Datenmengen schon ins Gewicht fallen, und es braucht weniger CPU-Befehle. Prozesse lassen sich so in Echtzeit darstellen, Abweichungen sind sofort sichtbar und können weitere Prozesse auslösen. Stellt man sich Telekommunikationsnetzwerke vor oder Werbung, die nach einem Nutzerprofil ausgewählt wird, kann man den Vorteil von «real time» leicht nachvollziehen. Auch bei der Überwachung von Produktionsprozessen oder in Verkehrsleitsystemen bringt es nichts, wenn die Warnung verzögert eintrifft. Wie wichtig der Bereich der Business Analytics inzwischen geworden ist, zeigen auch die Wachstumsraten. Laut einer IDC-Studie vom September 2011 zählt dieses Thema weltweit zu den Top-5-Investitionsbereichen der Unternehmen (neben Security, Social Media, Smart Technologies und Mobility). Allein in diesem Jahr ist dieses Marktsegment um 12,5 Prozent gewachsen. In Europa dürften die jährlichen Wachstumsraten laut einer anderen IDC-Studie vom Juli 2011 bei 10 Prozent liegen. Nächste Seite: Daten sind geschäftskritisch
Daten sind geschäftskritisch
Auch ein Hauptspeicher ist ein System, das ausfallen kann, und so ist es unabdingbar, die Daten zu sichern. Dies soll natürlich möglichst ohne Redundanzen, in Echtzeit und weitestgehend automatisiert erfolgen. Datensicherung ist in der Regel – bis zum Eintritt des Ernstfalls – eine leidige Angelegenheit. Sie frisst Budget, Ressourcen und Zeit: Jeden Morgen, wenn die Systeme problemlos aufstarten, hält man den ganzen Aufwand für überflüssig. Gibt es aber einmal Probleme, stehen Arbeitsprozesse still und können Aufträge nicht bedient werden, ist sofort die Geschäftsleitung vor Ort. Skalierbare und flexible Systeme wie Fujitsus Eternus (die mit HANA zusammenspielt) oder die Lösungen von EMS, HDS oder HP, die ihre unterschiedlichen Stärken bei Interface, Scalability, in der Anzahl der Laufwerke bzw. Interfaces oder bei der Replizierung und RAID-Unterstützung haben, sind hier gute Ruhekissen. Allen gemeinsam ist: Sie wachsen mit, passen sich den verschiedenen Strukturen an und lassen sich effizient verwalten. Gut konfigurierte Systeme, die auch über einen Provider betrieben werden können, stellen die Ressourcen flexibel zur Verfügung, liefern oft ungeahnte Einsichten und sichern ohne Datenverlust in Echtzeit. Nächste Seite: zukunftssichere Entscheidung
Zukunftssichere Entscheidung
Die Notwendigkeit einer solchen Datensammlung und -analyse stellt niemand mehr infrage. Es wird aber immer schwieriger, unter allen Anbietern, Denkansätzen und Systemen das für das eigene Unternehmen Optimale herauszufinden. Gerade für kleinere Unternehmen, deren IT-Kompetenz nicht zum Kerngeschäft gehört, wird das Risiko, etwas Unpassendes zu wählen – und dann mit unangenehmen Folgen kämpfen zu müssen – immer grösser. Es braucht also Beratung. Dieser Markt wird in Zukunft immer grösser und lukrativer werden. Auch Unternehmen erkennen dies zunehmend und stellen sich auf die veränderte Situation ein. Es gibt inzwischen die Möglichkeit, Geräte im Unternehmen unter realen Bedingungen zu testen. Auch besonders geschulte Consultants stehen bereit, um die Unternehmen in der Auswahl der Konfigurationen zu beraten. Im Zusammenspiel solcher Faktoren und dank einer sauberer Vorbereitung sowie Abwicklung können die Unternehmen sicher sein, nicht in der Datenflut zu ertrinken oder in eine teure Sackgasse gespült zu werden. Zur Autorin: Silvia Finke ist als Fachautorin auf ICT-Themen spezialisiert.
Harald Schodl