31.08.2017, 14:20 Uhr
Die kreativen Datenversteher
Das ETH Spin-off SpinningBytes programmiert Software, die mittels Machine Learning riesige Mengen an Daten nicht nur analysieren, sondern auch verstehen kann. So lassen sich für viele IT-Probleme massgeschneiderte Lösungen entwickeln, aber auch neue Erkenntnisse aus bisher ungenutzten Daten gewinnen.
Begonnen hat alles vor ein paar Jahren: Mark Cieliebak, Martin Jaggi und Fatih Uzdilli forschten an der ETH und ZHAW im Bereich Computer Science und publizierten ihre Technologien in wissenschaftlichen Papern. Dadurch erlangten diese aber keine grosse Bekanntheit. Das wollten die drei Informatiker ändern: So gründeten sie 2015 das ETH Spin-off SpinningBytes und stellten die Programme gratis auf ihrer Homepage zur Verfügung. Heute bietet das Spin-off neben fertigen Technologielösungen vor allem projektbezogenes Programmieren von Data-Science-Software an. «Wir entwickeln Programme, die Daten analysieren und in gewisser Weise verstehen können», erklärt CEO Cieliebak das spezielle Angebot. Um solche Software bauen zu können, benötigt das Spin-off Daten, auf welche sich das Programm stützen und aus welchen es lernen kann: «Unsere Software schaut sich die vorhandenen Daten an, erstellt Statistiken über gewisse Regelmässigkeiten und generiert daraus neues Wissen, nach welchem es dann handelt.»
Artikel analysieren und klassifizieren
Ein Beispiel ist das Klassifizieren und Kategorisieren von riesigen Textmengen. So etwa die Software, die SpinningBytes für das Schweizerische Wirtschaftsarchiv programmiert hat. Das Archiv sammelt seit 1890 Berichte über die Schweizer Wirtschaft, die alle nach demselben Muster kategorisiert werden. Früher untersuchten Archivare jeden Text, nun kann das Programm den Teil der Arbeit übernehmen. Dafür analysierte die Software 30'000 bereits kategorisierte Artikel und lernte die Zuweisungsregeln.
Digitaler Kundenservice
Die Informatiker bei SpinningBytes befassen sich aber nicht nur mit geschriebenen Texten. Sie entwickeln auch Programme, die die menschliche Stimme erkennen und verstehen können – und Antwort geben. «Gerade im Kundenservice herrscht für solche Dialogsysteme ein riesiges Potenzial», meint Cieliebak, «denn bei einer Service-Hotline werden sehr häufig immer dieselben Dialoge geführt.» Die oft ähnlich ablaufenden Gespräche können mittels Machine Learning «automatisiert» werden. So könnte in Zukunft beispielsweise eine Krankenkasse den ersten standardisierten Kontakt mit potenziellen Kunden mittels digitalem Formular abwickeln. «Einen Menschen ersetzt die Software aber nicht», beteuert Cieliebak. Denn sobald die Unterhaltung zu sehr von den eingepflegten Standardsätzen abweiche, könne die Software nicht mehr auf zuvor eingegebene Antworten zurückgreifen und müsse an einen Kundendienstmitarbeiter verweisen.
Herzinfarkt-Risiko dank Twitter berechnen
Auch Prognosen können aufgrund der Analyse von riesigen Datenmengen erstellt werden: In einem neuen Projekt untersucht ein Programm von SpinningBytes anhand von Tweets das Herzinfarkt-Risiko in unterschiedlichen Regionen. Wie das geht? «Ein Herzinfarkt hat unter anderem damit zu tun, ob man glücklich ist oder nicht», sagt Cieliebak und erläutert weiter: «Die Sprache in den Tweets lässt Rückschlüsse auf die Zufriedenheit zu, und durch eine Verknüpfung mit weiteren statistischen Daten können Aussagen zum Herzinfarkt-Risiko in einer bestimmten Gegend gemacht werden.» Weitere solcher Prognoseprogramme sind zurzeit in Planung.