Ebay
12.04.2011, 16:56 Uhr
Extreme Analytics am Limit
Jeden Tag fallen bei Ebay 50 Terabyte neuer Daten an. Ebay-Director Oliver Ratzesberger erklärt, wie der E-Commerce-Riese die Datenlawine bändigt
Die Verkaufsplattform Ebay betreibt eines der grössten Enterprise-Data-Warehouses weltweit. Jede Sekunde verkauft der E-Commerce-Riese Produkt aus über 50.000 unterschiedlichen Produktkategorien. Jeden Tag fallen etwa 50 Terabyte neuer Daten an, mit geschätzten 100 Billionen Datenpaaren, also hilfreichen Datenkombinationen, die ein Data Warehouse erst einmal identifizieren muss, um das Management bestmöglich unterstützen zu können. Ebay-Anwender - Käufer wie Verkäufer - lassen pro Tag Millionen von Anfragen auf die IT von Ebay los. 85 Prozent des analytischen Workloads sind neu und grösstenteils unstrukturiert.
We are pushing the limits
Daten bergen Informationen, die Unternehmen bei der Erfolgsoptimierung wertvolle Dienste leisten. Aber wie bändigt man eine solche Datenlawine? Metriken, die man kenne, seien preiswert. Bislang unbekannte Metriken zu entdecken sei teuer, berge aber auch den potenziell höchsten Return on Invest, sagt Oliver Ratzesberger, Senior Director Architecture Operations von Ebay. Ratzesberger referierte auf dem Teradata Universe in Barcelona über die Extreme-Analytics-Plattform seines Unternehmens. "Wir haben einige Jahre gebraucht, um das System aufzubauen", betont Ratzesberger. We are pushing the limits every day. Ebay setzt neben hybriden Enterprise Data Warehouses von Teradata die Open-Source-Lösung Hadoop ein, ein in Java programmiertes Framework für Algorithmen, die über verteilten Systemen operieren. Die Gesamtlösung arbeitet über einen Datenbestand von mehr als 20 PetaByte und führt unter anderem Mustererkennungen, Natural-Language-Analysen, Behavioral Analytics und Image Fingerprinting durch. Maximal 10 User haben bei Ebay Zugriff auf das System.
Visualisierte Effizienzanalysen
Ebays interner Data Hub, ein unternehmensinternes soziales Netzwerk, steht einer grösseren Gruppe von Ebay-Mitarbeitern offen. Damit sind etwa visualisierte Effizienzanalysen von Query-Clustern möglich. Praxisbeispiel: Stellen sehr viele Anwender ähnlich strukturierte Anfragen, dann optimiert Ebay die für die Bearbeitung benötigten Datenstrukturen on-the-fly. Auch Traffic-Trends lassen sich mit dem Data Hub voraussagen und Ressourcen im Voraus zuordnen. Als bedienfreundliche Frontends kommen Produkte von MicroStrategy zum Einsatz. Probleme bereiten die unstrukturierten Daten, deren Anteil am Gesamtdatenvolumen tendenziell wächst. Das Dilemma: Strukturiert man die Daten in herkömmlichen relationalen Datenbanken, bremst das bei Anfragen wegen der vielen Join-Operationen die Performance aus. Speichert man die Daten unstrukturiert ab, sind sie nicht aktualisierbar. Ebay verfolgt daher einen semi-strukturierten Ansatz und benutzt eine auf hybride Datenstrukturen optimierte SQL-Variante und Spezialabfragen, die Ebay zusammen mit Teradata entwickelt hat. Nächste Seite: die Benefits von Behavioral Analytics
Goldgrube Behavioral Analytics
Behavioral Analytics gilt unter Experten als Goldmine unter den analytischen Disziplinen, sie steckt aber nocn in den Anfängen. Ein interessantes Anwenderbeispiel präsentierte der Ebay-Partner PayPal. Der Online-Bezahlspezialist spürt Mustern im Kundenverhalten nach, und in sozialen Netzwerken kommt es vor allem darauf an, die Trends setzenden Influencer von den Followern zu unterscheiden. Das Szenario: Teilen sich im Restaurant mehrere Arbeitskollegen die Rechnung und hat einer vor Kurzem die Kündigung eingereicht, dann droht dem Unternehmen Gefahr. Die Teilnehmer lassen über Datum, Uhrzeit, Rechnungsbetrag und Empfänger leicht identifizieren. Behavioral Analytics sei heute so weit vorangeschritten wie Finanzanalysen vor fünf Jahren, meint Clay Stanley, Senior Director Data Management bei PayPal. Gleichwohl setzt Stanley grosse Hoffnungen in die noch junge Disziplin. PayPal will damit in erster Linie seine Bezahlprozesse optimieren. Branchenübergreifend sollen sich mit Verhaltensanalysen zum Beispiel der Nutzen von Marketing-Kampagnen auf den Return on Invest messen lassen.