Event-Special TDWI Schweiz 2019
23.10.2019, 06:46 Uhr
Vom Data Warehouse zur Data Platform in der Cloud
Scout24 generiert die vielfältigen Daten durch mehrere Millionen aktive Listings auf seinen Plattformen. Um die Daten effizient nutzen zu können, ist eine einheitliche und zentrale Data Platform unabdingbar. Ein Gastbeitrag zur TDWI-Konferenz 2019.
Am 4./5. November diskutieren an der TDWI-Konferenz in Oerlikon Fachleute über Data Lake, Business Intelligence, Data Warehouse, Data Science & Artificial Intelligence.
(Quelle: Shutterstock/TWStock)
Scout24 ist ein führender Betreiber digitaler Marktplätze für Immobilien und Automobile in Deutschland und anderen ausgewählten europäischen Ländern. Wir betreiben die beiden bekannten Marken ImmobilienScout24 und AutoScout24.
Scout24 unterstützt Menschen, ihre Träume von Immobilien und Autos einfach, effizient und stressfrei zu verwirklichen. Mit unserer Vision «vom Marktplatz zum Marktnetzwerk» wollen wir den Immobilien- und Automobilmarkt noch transparenter machen. Hierzu nutzen wir unsere hohe Technologie- und Datenkompetenz. Jeder Kontaktpunkt entlang einer Transaktion führt zu neuen relevanten Daten.
Mit diesem Datenschatz können wir unseren Nutzern zusätzliche Produkte anbieten und somit unseren Produktbaukasten laufend verbessern und erweitern. Wir sind ein datengesteuertes Unternehmen aus Leidenschaft und Überzeugung.
Technische Komponente: skalierbare und flexible Data Platform in der Cloud
Scout24 generiert die vielfältigen Daten durch mehrere Millionen aktive Listings auf den Platformen AutoScout24 und ImmobilienScout24. Um die Daten effizient nutzen zu können, ist eine einheitliche und zentrale Data Platform unabdingbar.
Der Weg zu einen firmenübergreifenden Data Lake, wie wir ihn heute haben, war lang. Im Jahr 2007 haben wir zunächst mit dem Aufbau eines klassischen Data Warehouses (DWH) begonnen, das von einem zentralen Team definiert und befüllt wurde.
Über die Jahre wurde die Datalandschaft durch neu entstandene Anwendungen und Analyseanforderungen immer grösser und komplexer. Obwohl viele Daten und Prozesse schon in DWH vorhanden waren, stieg der Bedarf nach weiteren Datenstrukturen. Die Folge: Die Auslastung und die technischen und personellen Kosten für das zentrale DWH wuchsen stark an.
Im Jahr 2013 hat Scout24 eine MicroServices-Architektur eingeführt. Jeder MicroService wurde mit einer eigenen Persistenzschicht verbunden und die Daten wurden über eine REST-API in die hauseigenen Hadoop Cluster gespeichert. Das bis dahin zentral geführte Reporting konnte den ständig steigenden Bedarf im Unternehmen nicht mehr abdecken: Verschiedene Teams arbeiteten immer mehr im Self-Service-Modus und wollten die von ihnen geschriebene Daten selber auswerten oder anderen Teams zur Verfügung stellen.
Im Jahr 2015 fiel bei Scout24 dann der Startschuss, die hauseigene Infrastruktur in die Cloud zu Amazon Web Services (AWS) auszulagern. Dieser Schritt ermöglicht es den Produktteams, noch autonomer und agiler zu arbeiten. Ausserdem verkürzen sich dadurch die Zyklen von Produkt zu Analyse und zurück zum Produkt wesentlich. Die Folge: Noch mehr Daten wurden gespeichert und das zentrale DWH-Team hatte irgendwann eine regelrechte Bottleneck-Position inne.
Im Jahr 2017 hat Scout24 damit begonnen, die Datenlandschaft im AWS aufzubauen. Heute sieht die Datenarchitektur so aus: Die Daten kommen in den zentralen Data Lake (Amazon S3) über Amazon Kinesis Firehose oder Hadoop REST API (hauseigene Entwicklung). Über das Presto als Abfrage-Engine verbindet sich MicroStrategy als zentrales BI System mit Tabellen und persistierten Views in S3. Der Datenkatalog Alation, der sowohl mit S3 als auch mit dem zentralen Hive Metastore und MicroStrategy verbunden ist, dient als Datenermittlungs- und Datendokumentations-Tool.
Das hauseigene Produkt Data Platform war geboren und aus der Idee einer vollständigen self-service Business-Intelligence-Umgebung wurde Realität. Dadurch hat sich der Umgang mit Daten unternehmensweit verändert: Die Daten werden nicht mehr durch ein zentrales DWH-Team gelesen, sondern durch den Datenproduzenten selbst ins Data Lake geschrieben. Die Datenproduzenten tragen die volle Verantwortung für die Datenverfügbarkeit und -qualität. Sie arbeiten autonom und können bei Bedarf die Datenproduktion flexibel skalieren, im Gegensatz zu einem starren - aber dafür vielleicht perfekten - und zentral kontrollierten DWH.
Event
TDWI Schweiz 2019
Der Event TDWI Schweiz, am 4. und 5. November 2019, bietet zahlreiche Vorträge über Data Lake, Business Intelligence, Data Warehouse, Data Science und Artificial Intelligence geben. Die Konferenz offeriert praxisorientiertes Wissen über die richtige Nutzung Ihrer Daten und Optimierungen Ihrer Datenverarbeitungen vermittelt. Besucherinnen und Besuchern bietet sich die Möglichkeit zum Netzwerken mit Anwendern, Sprechern und Experten. Die Veranstaltung will inspirieren, Lösungsansätze aufzeigen und lädt zum Austausch über Projekte ein. Mehr Informationen gibt es auf der Website der TDWI Schweiz 2019.
Hinweis: Computerworld ist Medienpartner der Veranstaltung.
Autor(in)
TDWI