Event-Special TDWI Schweiz 2019
23.10.2019, 06:46 Uhr
Vom Data Warehouse zur Data Platform in der Cloud
Scout24 generiert die vielfältigen Daten durch mehrere Millionen aktive Listings auf seinen Plattformen. Um die Daten effizient nutzen zu können, ist eine einheitliche und zentrale Data Platform unabdingbar. Ein Gastbeitrag zur TDWI-Konferenz 2019.
Am 4./5. November diskutieren an der TDWI-Konferenz in Oerlikon Fachleute über Data Lake, Business Intelligence, Data Warehouse, Data Science & Artificial Intelligence.
(Quelle: Shutterstock/TWStock)
Scout24 ist ein führender Betreiber digitaler Marktplätze für Immobilien und Automobile in Deutschland und anderen ausgewählten europäischen Ländern. Wir betreiben die beiden bekannten Marken ImmobilienScout24 und AutoScout24.
Scout24 unterstützt Menschen, ihre Träume von Immobilien und Autos einfach, effizient und stressfrei zu verwirklichen. Mit unserer Vision «vom Marktplatz zum Marktnetzwerk» wollen wir den Immobilien- und Automobilmarkt noch transparenter machen. Hierzu nutzen wir unsere hohe Technologie- und Datenkompetenz. Jeder Kontaktpunkt entlang einer Transaktion führt zu neuen relevanten Daten.
Mit diesem Datenschatz können wir unseren Nutzern zusätzliche Produkte anbieten und somit unseren Produktbaukasten laufend verbessern und erweitern. Wir sind ein datengesteuertes Unternehmen aus Leidenschaft und Überzeugung.
Technische Komponente: skalierbare und flexible Data Platform in der Cloud
Scout24 generiert die vielfältigen Daten durch mehrere Millionen aktive Listings auf den Platformen AutoScout24 und ImmobilienScout24. Um die Daten effizient nutzen zu können, ist eine einheitliche und zentrale Data Platform unabdingbar.
Der Weg zu einen firmenübergreifenden Data Lake, wie wir ihn heute haben, war lang. Im Jahr 2007 haben wir zunächst mit dem Aufbau eines klassischen Data Warehouses (DWH) begonnen, das von einem zentralen Team definiert und befüllt wurde.
Über die Jahre wurde die Datalandschaft durch neu entstandene Anwendungen und Analyseanforderungen immer grösser und komplexer. Obwohl viele Daten und Prozesse schon in DWH vorhanden waren, stieg der Bedarf nach weiteren Datenstrukturen. Die Folge: Die Auslastung und die technischen und personellen Kosten für das zentrale DWH wuchsen stark an.
Im Jahr 2013 hat Scout24 eine MicroServices-Architektur eingeführt. Jeder MicroService wurde mit einer eigenen Persistenzschicht verbunden und die Daten wurden über eine REST-API in die hauseigenen Hadoop Cluster gespeichert. Das bis dahin zentral geführte Reporting konnte den ständig steigenden Bedarf im Unternehmen nicht mehr abdecken: Verschiedene Teams arbeiteten immer mehr im Self-Service-Modus und wollten die von ihnen geschriebene Daten selber auswerten oder anderen Teams zur Verfügung stellen.
Im Jahr 2015 fiel bei Scout24 dann der Startschuss, die hauseigene Infrastruktur in die Cloud zu Amazon Web Services (AWS) auszulagern. Dieser Schritt ermöglicht es den Produktteams, noch autonomer und agiler zu arbeiten. Ausserdem verkürzen sich dadurch die Zyklen von Produkt zu Analyse und zurück zum Produkt wesentlich. Die Folge: Noch mehr Daten wurden gespeichert und das zentrale DWH-Team hatte irgendwann eine regelrechte Bottleneck-Position inne.
Im Jahr 2017 hat Scout24 damit begonnen, die Datenlandschaft im AWS aufzubauen. Heute sieht die Datenarchitektur so aus: Die Daten kommen in den zentralen Data Lake (Amazon S3) über Amazon Kinesis Firehose oder Hadoop REST API (hauseigene Entwicklung). Über das Presto als Abfrage-Engine verbindet sich MicroStrategy als zentrales BI System mit Tabellen und persistierten Views in S3. Der Datenkatalog Alation, der sowohl mit S3 als auch mit dem zentralen Hive Metastore und MicroStrategy verbunden ist, dient als Datenermittlungs- und Datendokumentations-Tool.
Das hauseigene Produkt Data Platform war geboren und aus der Idee einer vollständigen self-service Business-Intelligence-Umgebung wurde Realität. Dadurch hat sich der Umgang mit Daten unternehmensweit verändert: Die Daten werden nicht mehr durch ein zentrales DWH-Team gelesen, sondern durch den Datenproduzenten selbst ins Data Lake geschrieben. Die Datenproduzenten tragen die volle Verantwortung für die Datenverfügbarkeit und -qualität. Sie arbeiten autonom und können bei Bedarf die Datenproduktion flexibel skalieren, im Gegensatz zu einem starren - aber dafür vielleicht perfekten - und zentral kontrollierten DWH.
Event
TDWI Schweiz 2019
Der Event TDWI Schweiz, am 4. und 5. November 2019, bietet zahlreiche Vorträge über Data Lake, Business Intelligence, Data Warehouse, Data Science und Artificial Intelligence geben. Die Konferenz offeriert praxisorientiertes Wissen über die richtige Nutzung Ihrer Daten und Optimierungen Ihrer Datenverarbeitungen vermittelt. Besucherinnen und Besuchern bietet sich die Möglichkeit zum Netzwerken mit Anwendern, Sprechern und Experten. Die Veranstaltung will inspirieren, Lösungsansätze aufzeigen und lädt zum Austausch über Projekte ein. Mehr Informationen gibt es auf der Website der TDWI Schweiz 2019.
Hinweis: Computerworld ist Medienpartner der Veranstaltung.
Die richtige Organisationsstruktur fördert die Datenkompetenz
Um einen reibungslosen und effektiven Prozess von der Datenproduktion über das Reporting bis hin zur Verwendung der Daten in Machine Learning zu gewährleisten, musste Scout24 entsprechende organisatorische Strukturen schaffen. Das Unternehmen hat hierfür einzelne Marktsegmente benannt, die jeweils einen eigenen Businessfokus haben und sehr autonom agieren.
Data & Analytics unterstützt die Marktsegmente als Platform Team und bietet verschiedene Services zur Datenverarbeitung und Datenanalyse an. Zudem treibt der Bereich die selbstständige, datengesteuerte Produktentwicklung voran. Die Teams gliedern sich in folgende Verantwortungsbereiche:
- Data Platform Engineering: Betrieb des Data Lake und Weiterentwicklung der Tools zu Datenprozessierung
- Data Access Services & Solutions: Unterstützung der Segment Product Engineers bei der Dateninjektion und -transformation sowie der Produktmanager und Analysten bei der Datenauswertung
- Data Availability: Bereitstellung und Weiterentwicklung von Core Data
- Market Analytics & Products: Entwicklung von skalierbaren Dataprodukten zur Förderung der Markttransparenz
- Zentralanalysten: Vorantreiben von unternehmensübergreifenden analytischen Themen
- Segmentanalysten: Segmentspezifische Analysen in Zusammenarbeit mit Marktsegmenten
- Data Science: Bau der komplexen Datenprodukten in Zusammenarbeit mit Marktsegmenten
- Machine Learning Engineering: Aufbau und Betrieb der AI Platform
Data & Analytics bei Scout24 ist ein gelungenes Konstrukt, das selbstständige, datengesteuerte Produktentwicklung bei Scout24 propagiert und unterstützt. Alle Anwender benutzen die Data Platform im Self-Service-Modus – egal, ob es dabei um das Schreiben der Daten in den Data Lake, das Finden von Daten oder das Generieren von neuen Insights geht.
Ein Kulturwandel hin zu transparenten Prinzipien im Umgang mit Daten
Um technologische und strukturelle Veränderungen effektiv umzusetzen, war ein Wandel der Unternehmenskultur notwendig. Bei Scout24 hatten wir uns das Ziel gesetzt, eine effektive Kooperation zwischen Datenproduzenten und Konsumenten zu ermöglichen, ohne zu stark in deren Autonomie einzugreifen.
Daraus haben wir sieben Prinzipien zum Umgang mit Daten definiert und in unserem Scout24 Data Landscape Manifesto festgehalten. Die Prinzipien betreffen sowohl den Datenproduzenten als auch den Konsumenten und sollen eine effektivere Zusammenarbeit fördern.
Das zentrale Data & Analytics Team stellt also nicht nur eine Data Platform zur Verfügung, sondern liefert direkt die Tools und Guidelines für deren effektive Nutzung. Das ermöglicht eine gewisse Autonomie für die Datenproduzenten, da diese weiterhin die volle Kontrolle über die produzierten Daten behalten. Um eine mögliche Anarchie zu vermeiden, erfordert diese Autonomie von den Datenproduzenten auch das volle Verantwortungsbewusstsein, was wiederum dazu beiträgt, noch datengetriebener zu arbeiten.
Während die Verantwortung für die Qualität der so veröffentlichten Daten bei den jeweiligen Datenproduzenten liegt, sind die Datenkonsumenten für die Definition, Implementierung und Visualisierung von Metriken verantwortlich. Ausgenommen von dieser Regel sind die Daten, die für das gesamte Unternehmen relevant sind – die sogenannte Core Data. In Falle von Core Data übernimmt das zentrale Data & Analytics Team die Metrikdefinitionen und Implementierung sowie sämtliche Datentransformationen.
Weg von der zentralen Kontrolle, hin zum Model der geteilten Verantwortlichkeiten – wie stösst man solche Veränderungen an?
Die Services der Plattform – automatische Veröffentlichung und Partitionierung der Tabellen, optimierte Dateienformate, Backup und Recovery, Zugriffskontrolle für zugangsbeschränkte Daten – hat die Datenproduktion, die Datenspeicherung und die Verarbeitung signifikant erleichtert.
Davon war das Data & Analytics Team überzeugt und hat dies auch ins Unternehmen getragen. Doch fest steht: Die Umstellung ist eine tiefgreifende Veränderungen im Unternehmen, die einen erfolgreichen Kulturwandel voraussetzt. Dieser Kulturwandel ist der Schlüsselfaktor für eine erfolgreiche Migration.
Denn ohne die passende Mentalität bei den Mitarbeitern führen weder der modernste Stand der Infrastruktur, noch Veränderungen der Organisationsstrukturen zwangsläufig zum Erfolg. Deswegen war es wichtig, dass das Data & Analytics Team Hands on Support angeboten und Erfolgsgeschichten mit den anderen Mitarbeitern geteilt hat.
Der Prozess des Kulturwandels ist noch nicht abgeschlossen. Doch eine weitere Stufe haben wir kürzlich genommen: Nach über zwei Jahren mit der Data Platform in der Cloud und dem Data Landscape Manifesto hat Scout24 2019 die alten DWHs abgeschaltet. Somit stehen alle Türen offen auf dem Weg hin zu einer Data-Literacy-Driven Firma mit dediziertem Daten-Umsatz.
Autoren
Krystyna Kurinna und Markus Schmidberger
Krystyna Kurinna ist Teamlead Data Access Services & Solutions, Markus Schmidberger ist Director Data Technology bei Scout24. Kurinna referierte an der letztjährigen TDWI-Konferenz. Die TDWI-Konferenz 2019 wird am 4./5. November erneut im Swissotel Oerlikon stattfinden.
Autor(in)
TDWI