Data Science für Nicht-Programmierer

Trifacta Wrangler

Trifacta Wrangler ist ein cloudbasiertes Datenaufbereitungs-Tool, dessen Hauptzweck darin besteht, die Daten für die Analyse mit anderen Tools in Form zu bringen. Zu den wichtigsten Funktionen der Software gehören deshalb die Strukturierung, Anreicherung, Bereinigung und Validierung von Daten.
Eine kostenlose Wrangler-Version, die von der Betreiber-Website heruntergeladen werden kann, erlaubt es, bis zu 100 MB grosse Dateien zu bearbeiten. Die kostenpflichtige Variante bietet mehr Leistung, Zugriff auf zusätzliche Datenquellen wie Hadoop und Amazon S3 sowie erweiterte Funktionen, zum Beispiel Stichproben.
Trifacta: Der Wrangler ist ein cloudbasiertes Datenaufbereitungs-Tool, mit dem sich Daten für die Analyse mit anderen Tools vorbereiten und strukturieren lassen
Quelle: Trifacta
Trifacta Wrangler integriert sich in On-Premise-Plattformen wie Cloudera, Hortonworks und MapR sowie in cloudbasierte Dienste wie AWS, Google Cloud oder Microsoft Azure. Verfügbar sind ausserdem Integrationen mit BlueData, Hadoop, Atlas, Qlik, Salesforce, Alation und einigen anderen.
Trifacta bietet native Unterstützung für komplexere Datenformate wie JSON, Avro, ORC oder Parquet und nutzt die Multi-Workload-Fähigkeiten von Hadoop zur Skalierung der Datentransformation. Visual Data Profiling ermöglicht einen sofortigen Einblick in einzelne Elemente des Datensatzes wie Datenverteilung und Ausreisser, um Transformation und Analyse zu unterstützen.
Die Datenanreicherungsfunktionen erleichtern die Standardisierung von Daten, die Verknüpfung von Datensätzen und die Aggregation von Datenausgaben auf die richtige Ebene. Erweiterte visuelle Datenprofilierungsfunktionen verschaffen dem Benutzer ein besseres Verständnis der Eigenschaften eines Datensatzes.
Die Bedienung erfolgt im Wesentlichen per Mausklick oder Drag and Drop. Für jede Aktion des Benutzers generiert Trifacta eine Codezeile. Das so entstandene Skript lässt sich dann auch aufrufen und direkt im Editor optimieren. Über dessen eigene Wrangle-Skriptsprache lassen sich ausserdem weitere Funktionen ausführen, die keine GUI-Entsprechung haben.
Die Software erledigt Transformationen wie das Ändern von Spaltendatentypen, das Filtern nach verschiedenen Kriterien, das Aufteilen von Spalten, das Verbinden und Aggregieren mehrerer Datenquellen sowie das Neuordnen von Spalten.
Data Science Tools (Auswahl)
Data Science Tools (Auswahl)
Anbieter / Produkt Beschreibung
Alteryx / Alteryx Platform Selfservice-Datenanalyse-Plattform für Datenexploration, Modellierung und Analyse auch ohne Programmierung. Dank Drag-and-Drop-Schnittstelle sollen vor allem erfahrene Analysten wenig Zeit zur Einarbeitung benötigen
BigML / BigML Cloudbasierte, pragmatische und dank grafischer Oberfläche einfach zu bedienende Machine-Learning-Plattform zum Erstellen leistungsfähiger Vorhersagemodelle
DataRobot / DataRobot Cloud Machine-Learning-Plattform für Datenwissenschaftler, darauf ausgelegt, präzise Vorhersagemodelle in einem Bruchteil der früher benötigten Zeit zu erstellen und einzusetzen
H2O.ai / Driverless AI Die Automatisierungsplattform unterstützt nichttechnische Mitarbeiter bei der Aufbereitung von Daten und dem Finden optimaler Algorithmen zur Lösung spezifischer Probleme mit maschinellem Lernen
RapidMiner / Studio Data-Science-Plattform, die eine integrierte Umgebung für maschinelles Lernen, Deep Learning, Text- und Data Mining, Business Analytics sowie Predictive Analytics bietet
Trifacta / Wrangler Cloudbasiertes Datenaufbereitungs-Tool, dessen Hauptzweck darin besteht, Datenbestände für die Analyse mit anderen Tools zu strukturieren und in Form zu bringen
Data Science Tools (Auswahl)
Data Science Tools (Auswahl)
Anbieter / Produkt Beschreibung
Alteryx / Alteryx Platform Selfservice-Datenanalyse-Plattform für Datenexploration, Modellierung und Analyse auch ohne Programmierung. Dank Drag-and-Drop-Schnittstelle sollen vor allem erfahrene Analysten wenig Zeit zur Einarbeitung benötigen
BigML / BigML Cloudbasierte, pragmatische und dank grafischer Oberfläche einfach zu bedienende Machine-Learning-Plattform zum Erstellen leistungsfähiger Vorhersagemodelle
DataRobot / DataRobot Cloud Machine-Learning-Plattform für Datenwissenschaftler, darauf ausgelegt, präzise Vorhersagemodelle in einem Bruchteil der früher benötigten Zeit zu erstellen und einzusetzen
H2O.ai / Driverless AI Die Automatisierungsplattform unterstützt nichttechnische Mitarbeiter bei der Aufbereitung von Daten und dem Finden optimaler Algorithmen zur Lösung spezifischer Probleme mit maschinellem Lernen
RapidMiner / Studio Data-Science-Plattform, die eine integrierte Umgebung für maschinelles Lernen, Deep Learning, Text- und Data Mining, Business Analytics sowie Predictive Analytics bietet
Trifacta / Wrangler Cloudbasiertes Datenaufbereitungs-Tool, dessen Hauptzweck darin besteht, Datenbestände für die Analyse mit anderen Tools zu strukturieren und in Form zu bringen
Eine Farbkodierung zeigt im Transformationseditor die Datenqualität an – Grün gibt den Anteil der Zeilen wieder, die Einträge des richtigen Typs enthalten, andere Farben verweisen auf fehlende oder inkorrekte Datensätze. Über jeder Spalte sorgt ausserdem ein Histogramm für eine grundlegende Vorstellung von der Datenverteilung.
Qualitätsbalken und Histogramm bieten einen schnellen und grundlegenden Überblick über einen Datensatz, während die Spaltendetailansicht statistische Werte wie Median, Durchschnitt, Standardabweichung, untere und obere Quartile sowie Minimal- und Maximalwerte vermittelt.
Dank der grafischen Bedienoberfläche gestaltet sich die Arbeit mit Trifacta einfacher, als wenn man eigene Skripts von Grund auf neu schreiben müsste. Andererseits ist man dafür natürlich weniger flexibel als bei Nutzung einer Sprache wie R. Die Grenzen der gewöhnlichen Mausschnittstelle lassen sich überwinden, indem man Trifactas Wrangle-Sprache verwendet, allerdings muss der Benutzer einiges an Zeit inves­tieren, um sich in die Skriptsprache einzuarbeiten.

Charles Glimm
Autor(in) Charles Glimm



Das könnte Sie auch interessieren