Praxis
01.04.2015, 21:56 Uhr
Bei Data Science sind die Daten zentral
Ob Big Data oder Small Data – für jeden Data Scientist stehen am Anfang erst einmal die Daten, die in eine Form und eine Qualität gebracht werden müssen, aus der sie sich weiter verarbeiten lassen. Guido Oswald, Senior Solution Architect bei SAS, gibt Ratschläge.
Es spielt keine Rolle, ob das Ziel ausgefeilte analytische Methoden oder einfach nur hübsche Visualisierungen sind. Solange die Datenmengen klein sind, tun ein Texteditor oder Excel gute Dienste. Sobald man diese Zone allerdings verlässt, kommt man damit nicht weiter. Bei der Datenaufbereitung gibt es verschiedene Abstraktions-Layer – je weiter unten diese liegen, desto aufwändiger wird die Manipulation der Daten:
1. Coding und Programmierung
Erfahrene Programmierer bedienen sich diverser Programmiersprachen, um auch mit grossen und sehr grossen Datenmengen hantieren zu können. Der gute alte SAS Data-Step (bzw. DS2, um innerhalb des Hadoop Clusters massiv parallel zu rechnen), Python oder auch Java tun dabei gute Dienste.
Allerdings ist nicht jeder Data Scientist auch gleichzeitig ein erfahrener Programmierer und schreibt täglich Java, Python oder BASE SAS Code. Wer zum Beispiel mit Map/Reduce einfach nur die Worte in einem Text Dokument zählen will, muss schon eine Menge tippen.
2. Höhere Abfragesprachen
Die gute Nachricht ist, dass es auch einfacher geht! Wer mit SQL (bzw. HiveQL) zum Ziel kommt, kann sehr viel Zeit einsparen. Im Falle von Hadoop kann man mit dem OpenSource-Tool Hue schon sehr viel erreichen. Hue ist dabei eigentlich nur eine schicke Oberfläche für eine ganze Reihe von unterliegenden Hadoop-Tools wie zum Beispiel Hive, Scoop, dem Metastore, etc.
3. UI-getriebene Tools (Point & Click Interfaces)
Wer es noch einfacher haben will und auch Datenqualitätsprobleme beheben möchte, der kann im Zusammenspiel mit Hadoop auch den neuen SAS Data Loader verwenden. Hier hat es viele «Easy Buttons», um die wichtigsten Tasks eines Data Scientist im Zusammenhang mit der Datenaufbereitung abzudecken.
Egal, welches Tool man wählt. Folgende Aufgaben sollte es möglichst effizient abdecken:
· Erste Exploration der Datensätze auf den Quell- und Zielsystemen
· Datenstruktur
· Ausschnitte aus den Daten
· Verschieben auch großer Datenmengen zwischen den Plattformen
· Verbinden mehrerer Tabellen (Append & Join)
· Filtern (Zeilen & Spalten)
· Daten-Profiling (aufspüren von Inkonsistenzen und Datenqualitätsproblemen)
· Datenqualitätsprobleme beheben (z.B. einheitliche Formate, Gross/Kleinschreibung, Adressvalidierung etc.)
· Dubletten finden und filtern
· Daten transponieren
Nach dem Hin-und-Herschieben der Daten, dem Zusammenfügen von mehreren Datensätzen, dem Aufräumen und Säubern, kann man das Ergebnis in einem Tool der Wahl Explorieren und entweder nochmals durch den Daten-Aufbereitungsprozess iterieren (falls sich weitere Qualitätsprobleme zeigen oder Informationen fehlen) oder weiter zum zweiten Teil der Data Science – der eigentlichen «Science» gehen. Am Ende steht die Visualisierung. Dabei reichen die Optionen von der Kreuztabelle bis zum animierten Bubble-Chart. Stichwort dazu ist «Agile Business Intelligence».
Mehr Informationen und Anregungen zum Thema Data Science gibt es auf dem SAS Forum Switzerland am 12. Mai.