Big Data? Weniger ist oft mehr
Big Data versus Small Data
Grundsätzlich genügen oft schon wenige Zahlen, um den Geschäftsbetrieb im Unternehmen zu optimieren. Small Data hat hier, so Michael Feindt von Blue Yonder, eine ähnliche Bedeutung «wie ein gutes Bauchgefühl». Vor allem Wissenschaftler seien immer bestrebt, die Erkenntnisse aus zahlreichen Experimenten, Untersuchungen und Beobachtungen in wenige Formeln, also Small Data, zu fassen. Ziel dabei sei es, mit wenigen Parametern viele Zusammenhänge zu erklären. Der Idealfall trete folglich dann ein, wenn man mit einer geringen Datenmenge viele Vorhersagen treffen könne, die dann tatsächlich einträten.
Die Nutzung von Small Data muss auch nicht unbedingt mit hohen Investitionen in die IT-Infrastruktur einhergehen. Insofern ist Small Data laut Exasol-CTO Mathias Golombek gerade auch für kleinere Unternehmen interessant, die über keine riesigen Data-Warehouse-Systeme und Data-Science-Teams verfügen. Und er betont: «Dabei ist Small Data aber nicht einfach nur eine Sparversion von Big Data.» Es gebe im Gegenteil Einsatzbereiche, in denen überschaubare Datenmengen gegenüber datenintensiveren Ansätzen sogar im Vorteil seien. Die Demokratisierung solch neuer Technologien sei daher ein immens wichtiges Thema für Unternehmen. Know-how, Wettbewerbsvorteile und Marktmacht müssten nicht nur in den Händen einiger weniger liegen. «Allerdings fehlen zurzeit leider gerade bei kleineren und mittleren Unternehmen sowohl das Bewusstsein über die Existenz als auch das Know-how über mögliche Anwendungsfälle von Small-Data-Technologien.»
Kleine Datenbasis – schlechte Analysen?
In Zusammenhang mit Künstlicher Intelligenz ist meist davon die Rede, dass grosse Datenmengen erforderlich sind. Lassen sich mit Small Data überhaupt robuste Modelle und wertvolle Prognosen bilden? «Ja, das funktioniert», so die klare Meinung von Michael Feindt. Allerdings: Es hänge von der jeweiligen Anwendung ab und klappe vor allem dann, wenn man bestimmte Zusammenhänge aus erforschten Naturgesetzen, Analogien oder sonstigen wissenschaftlichen Beobachtungen verstehe. Die zentrale Frage laute immer: «Wissen wir es schon oder müssen wir die entsprechenden Erkenntnisse erst aus den verfügbaren Daten extrahieren?» Das gesammelte Wissen aus lexikalischen Werken wie Wikipedia beispielsweise gelte zum grössten Teil als gesichert. Das müsse man in den meisten Fällen nicht noch einmal durch Untersuchungen verifizieren. «Wenn wir also Zugriff auf die relevanten Parameter in Form von Small Data haben, dann können wir diese für unsere Entscheidungen und Prognosen getrost verwenden.»
Grosse Datenmengen haben durch Small-Data-Ansätze jedoch keineswegs ausgedient, denn es gibt nach wie vor viele Bereiche, in denen umfassendere Datensätze letztlich auch mehr Informationen enthalten. Ebenso betrifft das mathematische KI-Algorithmen, die überhaupt nur mit grossen Datenmengen funktionieren können. Aber auch wenn ich als Unternehmen ausreichend Daten für Big Data habe – ergibt es nicht trotzdem Sinn, in einigen Bereichen auf Small Data zu setzen? Also mit kleinen, zugänglichen Daten zu arbeiten, die leicht zu verstehen sind? «Absolut», ist sich Mathias Golombek von Exasol sicher. «Die Vorteile hinsichtlich Agilität und Datenschutz sind für sehr viele Unternehmen gerade im Umgang mit personalisierten Kundendaten relevant. Ausserdem sind Daten sehr oft zwar in grosser Menge vorhanden, aber eben nicht ‹sauber›, strukturiert und somit bereit für die Analyse.» Die zeitraubende und arbeitsintensive Bereinigung dieser Datenbestände und Datensilos werde erleichtert, indem man stattdessen auf verwandte Datensätze, strukturierte Modelle und synthetische Daten zurückgreife – oder nur ein deutlich kleineres Sampling der Daten nutze.
Michael Deuchert von it-novum betont, dass sich nicht alle Machine-Learning-Algorithmen für Small Data eignen. Insbesondere komplexere Verfahren wie Deep-Learning-Architekturen beziehungsweise künstliche neuronale Netzwerke erforderten eine umfangreiche Datenbasis, um aussagekräftige und verlässliche Ergebnisse zu liefern.
Ob komplexe Algorithmen erforderlich sind, sei abhängig vom konkreten Use-Case: «Nichtlineare Zusammenhänge lassen sich oft nur mit mächtigeren Algorithmen abbilden, wohingegen lineare Beziehungen auch durch simplere Modelle zu trainieren sind.» Sind wichtige Informationen erst durch Verknüpfung mehrerer Datenquellen nutzbar, «dann könnte das auch gegen Small Data sprechen». Für spezielle Anwendungen wie Text-Mining oder Computer-Vision sei der Einsatz von Small Data ebenfalls weniger sinnvoll, sie benötigten Deep-Learning-Algorithmen und idealerweise Big Data, um robuste Vorhersagen zu erzeugen.
Fazit & Ausblick
Sowohl für Big Data als auch für Small Data gilt: Gewisse Unsicherheitsfaktoren sind bei der Datenanalyse stets zu berücksichtigen. So können beispielsweise einzelne Expertenmeinungen voneinander abweichen, was bestimmte Zahlen und Auswertungen betrifft.
Hier empfiehlt es sich laut Michael Feindt von Blue Yonder, einen Mittelwert heranzuziehen. Dabei müssten die Zahlen richtig interpretiert werden, um sie für künftige Planungen optimal nutzen zu können. «Kommen jedoch unvorhersehbare Ereignisse wie eine Pandemie oder ein Krieg ins Spiel, bedarf es wiederum grosser Datenmengen, die viele unwägbare Einflussfaktoren miteinbeziehen.» In jedem Fall sollten umfangreiche Rohdaten so zu Small Data verarbeitet werden, dass sie sich verstehen und optimal nutzen lassen. Dazu gehöre eine transparente Darstellung und Aufbereitung in Form von Übersichten, Grafiken oder Mindmaps.
Unternehmen müssen sich laut Max Hille von Cloudflight letztendlich bewusst sein, dass sie mit Small Data grösseren Einschränkungen unterliegen. Diese beträfen die Qualität der Analysen und die Vielseitigkeit der Anwendungen. Zudem entstünde durch die Definition und Selektion der Small-Data-Pakete ein gewisser Aufwand. «Der quantifizierbare Mehrwert bei komplexen Fragestellungen wird somit geringer sein als bei erfolgreichen Big-Data-Modellen.» Er betont trotzdem, dass Small Data unter dem Strich zahlreiche Vorteile bietet.