Schutz durch Machine Learning
14.12.2018, 11:28 Uhr
Smarte Helfer für die Cyberabwehr
Neben Business-Anwendungen bietet auch die IT-Sicherheit viele Möglichkeiten für den Einsatz lernender Algorithmen. Diese sollen die Unternehmens-IT schützen und Hackern das Fürchten lehren. Die neuen Techniken versprechen viel und halten einiges, sind aber kein Allheilmittel.
Alle vier Sekunden taucht eine neue Malware auf. Mit dieser Virenflut können herkömmliche, signaturbasierte Antivirenprogramme nicht schnell genug fertig werden. Deshalb propagieren Sicherheitsunternehmen landauf, landab immer marktschreierischer künstliche Intelligenz und Machine Learning als finale Antwort auf alle Security-Gefahren. Sie erwecken zudem den Eindruck, diese Techniken wären ganz neu und vor allem in der Lage, auch allen neuen Bedrohungen Herr zu werden. Doch was leisten künstliche Intelligenz (KI) respektive Machine Learning (ML) in der Cyberabwehr wirklich?
Verwirrung der Begriffe
Zunächst einmal führt der Hype um KI und ML zu Verwirrung. Der Security-Hersteller ESET liess 900 IT-Entscheider in den USA, Grossbritannien und Deutschland hinsichtlich ihrer Einstellung zu künstlicher Intelligenz und Machine Learning befragen und fand heraus: Viele IT-Entscheider sind sich nicht klar darüber, was hinter den Konzepten von KI und ML steckt.
Während ein Grossteil der Befragten KI und ML als entscheidende Faktoren zur Lösung bestehender IT-Security-Probleme betrachten, hält ein ebenfalls grosser Teil die Diskussion für einen zeitlich begrenzten Hype. US-Entscheider setzten dabei zu 82 Prozent grosse Hoffnungen auf KI und ML, während im Nachbarland Deutschland nur 66 Prozent dieser Überzeugung sind. Andererseits halten auch mehr US-Manager als ihre britischen oder deutschen Kollegen die Diskussionen um KI und ML für ein kurzlebiges Phänomen – 65 Prozent im Vergleich zu 53 Prozent beziehungsweise 40 Prozent.
Vor allem aber: Lediglich 53 Prozent der IT-Entscheider glauben, dass ihre Organisation den Unterschied zwischen ML und KI tatsächlich versteht. Juraj Malcho, Chief Technology Officer bei ESET, kritisiert deshalb: «Wenn es um KI und ML geht, tauchen in manchen Marketingmaterialien irreführende Verwendungen der Begriffe auf. Das führt dazu, dass IT-Entscheider in allen Märkten weltweit verunsichert sind, was sie glauben sollen. Wahr ist, dass es in der Cybersicherheit wie überall sonst noch keine echte, vollständige künstliche Intelligenz gibt. Der Hype um die Neuheit von Machine Learning ist zudem komplett irreführend, denn die Technologie an sich wird schon lange eingesetzt.» Viel von der Verwirrung kommt von einer unscharfen Gleichsetzung der Begriffe künstliche Intelligenz und Machine Learning in Medien und Marketing. Tatsächlich handelt es sich um unterschiedliche Konzepte.
“Der Hype um die Neuheit von Machine Learning ist total irreführend, denn die Technologie an sich wird schon lange eingesetzt„
Juraj Malcho, ESET
Die ESET-Studie definiert sie wie folgt: «Einfach ausgedrückt, bezeichnet ‹künstliche Intelligenz› die Ausführung von Aufgaben durch Maschinen, ohne dass diese vorher hierfür programmiert oder trainiert werden müssen. Im Gegensatz dazu ist ‹maschinelles Lernen› die Bezeichnung für das Training von Computern mithilfe von Algorithmen, sodass diese in grossen Datenmengen wiederkehrende Strukturen erkennen können. Dies geschieht stets auf Basis von dem Rechner bekannten Regeln und Informationen.»
Während Machine Learning schon seit etwa Ende der 1990er-Jahre als zusätzliches Mittel neben die signaturbasierte Malware-Erkennung getreten ist und seinen Wert vielfach bewiesen hat, ist künstliche Intelligenz bislang mehr Marketing-Buzzword als Realität. Viele Sicherheitsfirmen forschen natürlich an künstlicher Intelligenz, aber direkt in den Produkten kommt sie noch nicht zum Einsatz. Vielmehr versuchen die Hersteller, etwa Sophos und Symantec, künstliche Intelligenz bei den Malware-Analysen in ihren eigenen Labors einzusetzen und auf diese Weise weiterzuentwickeln. Dennoch nutzen viele Hersteller in ihrem Marketing den Begriff künstliche Intelligenz, da er nicht genau definiert ist. So wird die Hintergrundtechnologie eines Produkts gern einmal als künstliche Intelligenz bezeichnet, auch wenn es sich dabei in Wirklichkeit nur um bestens trainiertes Machine Learning handelt.
Machine Learning plus Signaturen
Hierbei werden Unmengen von Daten mit schädlichem Code mithilfe von Algorithmen ausgewertet und Elemente den Kategorien «gutartig» oder «bösartig» zugeordnet, um schneller Signaturen und Modelle daraus abzuleiten. Liviu Arsene, leitender Bedrohungsanalyst bei Bitdefender, beschreibt den Charme dieser Technik so: «War die Erkennung von Malware zuvor reaktiv, kann Machine Learning von vornherein komplett unbekannte Stämme von Malware abwehren. Damit gehen die Lösungen über die herkömmliche statische Analyse hinaus.» Doch weil Signaturen und Modelle jeweils eigene Vor- und Nachteile haben, setzen die meisten Hersteller von Sicherheits-Software immer noch beide Techniken gleichermassen ein.
“War die Erkennung von Malware zuvor reaktiv, kann Machine Learning von vornherein komplett unbekannte Stämme abwehren„
Liviu Arsene, Bitdefender
Signaturen sind zwar sehr schnell verteilt, aber immer nur für einzelne Schädlinge gemacht. Und müssen viele Signaturen genutzt werden, steigt die zu verarbeitende Datenmenge in der Sicherheitslösung stark an. Mit Machine Learning trainierte Modelle dagegen sind relativ klein in der Datenmenge – und in der Lage, ganze Malware-Familien oder mutierten Code zu erkennen. Jedoch muss man die Modelle erst errechnen – was Zeit kostet. Hier ist eine Signatur eindeutig die schnellere Lösung. Einige Anbieter sogenannter Next-Gen-Software setzen demgegenüber auf eine rein verhaltensbasierte Erkennung. Sie schmähen die Signaturtechnik als veraltet und sprechen nur noch von Machine Learning und künstlicher Intelligenz. Einer dieser Anbieter wurde allerdings vor einigen Monaten dabei ertappt, wie er intern seine verhaltensbasierte Erkennung mit Daten verifizierte, die bereits über das Google-Portal Virus Total klassifiziert worden waren. Der kostenlose Online-Dienst Virus Total analysiert Daten durch eine Vielzahl von Antivirenprogrammen und Malware-Scannern.
Grenzen der Machine-Learning-Technik
Next-Gen-Anbieter preisen maschinelles Lernen gern als Lösung an, die in der Lage ist, jede neue Variante von Schad-Software zu erkennen. Doch in Wirklichkeit haben auch ML-Algorithmen ihre Grenzen. Richard Werner, Regional Solution Manager bei Trend Micro, betont: «Bislang gibt es noch keine Technologie, die unfehlbar ist, und auch ML/KI kann ausgetrickst werden.» In der ESET-Studie heisst es dazu: «Anders als vielfach dargestellt, ist keineswegs garantiert, dass ein Algorithmus neue Elemente korrekt labelt, nur weil er vorher mit grossen Datenmengen gefüttert wurde. Menschliche Verifizierung bleibt zwingend notwendig. Bleibt diese aus, können sich Schneeballeffekte schon durch ein einziges fehlerhaft gelabeltes Element ergeben, da dieses in den Pool der Lerndaten eingeht. Derartige Effekte wiederum können das System so beeinträchtigen, dass es schliesslich komplett versagt.»
“Bislang gibt es noch keine Technologie, die unfehlbar ist, und auch KI/ML kann ausgetrickst werden„
Richard Werner, Trend Micro
Selbst eine fehlerfrei agierende Maschine könne nicht jedes Element vor dessen Ausführung als gut- oder bösartig identifizieren, da sie nicht in der Lage sei zu entscheiden, ob ein ihr unbekanntes Element in der Zukunft zu unerwünschtem Verhalten führen werde oder nicht. ESET fordert deshalb: «ML-Systeme müssen in der Lage sein, Mitarbeiter über nicht anhand gelernter Daten kategorisierbare Elemente zu informieren und um eine Entscheidung zu bitten.» Zu den weiteren Beschränkungen von ML-Techniken gehört, dass jeder Algorithmus einen begrenzten Fokus hat und anhand eines spezifischen Datensets und fester Regeln lernt. Doch ESET betont zu Recht: «Angreifer spielen nicht nach den Regeln. Schlimmer noch: Sie können und haben in der Vergangenheit oftmals das gesamte Spielfeld umgestaltet.» Kein noch so weit entwickelter Algorithmus könne, was menschliche Hacker könnten – aus Kontexten lernen und kreativ agieren.
ESET nennt zwei Beispiele dafür: Angreifer können etwa bösartigen Code in Pixeln einer harmlosen Bilddatei verstecken. Oder sie verteilen Code-Schnipsel bösartiger Software auf einzelne Dateien. Der Algorithmus glaubt, eine saubere Datei vor sich zu haben, weil sich das schädliche Verhalten erst zeigt, wenn die einzelnen Elemente an einem Endpoint oder in einem Netzwerk zusammengefügt werden.
Machine Learning in Security-Lösungen
Die Hersteller verwenden Machine Learning an verschiedenen Stellen ihrer Lösungen, unter anderem:
- Direkt in der Client-Software, etwa beim Lesen von E-Mails. Der Nutzer kann Spam markieren und die Software lernt mit bei der Auswertung von E-Mails und Daten in der Cloud.
- Beim Errechnen von Modellen, um Malware-Familien zu erkennen.
- Im eigenen Labor beim Erstellen von Signaturen.
- Bei der Analyse von Datenströmen, etwa von und zu IoT-Geräten.
Nun stellt sich die Frage, ob bestens trainierte Machine- Learning-Algorithmen nicht bereits eine KI sind? Nein, sind sie nicht, denn bei ML gibt es kein Ende des manuellen Trainings. Eine richtige KI würde selbstständig lernen, entscheiden und sich verbessern – so wie die KI AlphaGo, die im Go und im Schach für Furore sorgte, da sie dank selbstständigen Lernens die weltbesten menschlichen Spieler beziehungsweise Programme bezwingen konnte. Aber der Lernbereich ist bei beiden Spielen eingegrenzt und hat im Vergleich zu Sicherheitsrisiken weniger Parameter und keine sich ständig verändernde grosse Datenmenge zur Analyse.
Endpoint Detection and Response
Machine-Learning-Modelle werden aber nicht nur in der Malware-Erkennung verwendet. Sie helfen auch in anderen Werkzeugen bei Auswertungen, etwa bei der von einigen Herstellern angebotenen Technik Endpoint Detection and Response (EDR). Diese soll eine umfassende Abwehr von Cyberattacken ermöglichen, indem verschiedene Werkzeuge in einer Schutzlösung ineinandergreifen, zum Beispiel Black- und Whitelisting, Verhaltensanalyse und Auswertung von Prozessaufrufen und Netzwerkverbindungen.
Auf Basis von ML-Modellen werden Attacken bewertet und mit Risikoparametern versehen. Wird ein definierter Level überstiegen, werden weitere Mechanismen ausgelöst, etwa eine Account- oder Workstation-Sperrung oder eine Quarantäne. Der Vorgang wird zudem visualisiert und lässt sich so zurückverfolgen. Als Sensoren dienen dabei entweder Software-Clients, die Analyse von Datenströmen oder die Auswertung von Log-Dateien in Echtzeit.
Hersteller im Überblick
Eine Umfrage von Computerworld bei wichtigen Herstellern zu ihrem Einsatz von KI und ML zeigte: Keiner der grossen klassischen Security-Anbieter setzt ausschliesslich auf KI und ML. Alle haben sie zwar mehr oder weniger intensiv in ihren Produkten und Labors im Einsatz, doch sie sehen die neuen Techniken nicht als Allheilmittel an, sondern als zusätzliches Rüstzeug, um kommende Gefahren besser abzuwehren.
KI ist für Bitdefender derzeit nur eine Sache der Forschung, während ML schon seit Jahren fester Bestandteil all seiner Sicherheitslösungen ist. Laut Bitdefender ist das notwendig, weil die zunehmende Verbreitung und Verfeinerung von Bedrohungen, die auf Verschlüsselung, Verschleierung und Polymorphismus beruhen, dazu geführt hätten, dass eindimensionale Erkennungsmethoden bei der Bewältigung der riesigen Anzahl von Bedrohungen wirkungslos geworden seien. Auch moderne Sicherheitsmechanismen wie Sandboxing, Prozessüberwachung und RAM-Schutz werden laut Bitdefender durch Machine Learning optimiert. Symantec wiederum hat in seine Produkte mit Advanced Threat Protection (ATP) die gleiche Technologie zur Erkennung von Bedrohungen integriert, die auch seine Sicherheitsexperten zur Aufdeckung von Cyberattacken nutzen.
Und eine von Symantec als Targeted Attack Analytics bezeichnete Technologie (TAA) soll mit Machine-Learning-Methoden gezielte Attacken auf Unternehmensnetzwerke automatisiert erkennen und dann an IT-Security-Teams melden. Im Gegensatz zu traditionellen Lösungen verwendet TAA also die Prozesse, das Wissen und die Fähigkeiten von Sicherheitsexperten.
Sophos setzt besonders auf eine spezifische Form von Machine Learning, das Deep Learning, um auf Basis riesiger Datenmengen ein Modell zu generieren, das die Daten präzise beschreiben kann. Neuronale Netze sollen zu einer höheren Erkennungsleistung von Schadcode führen, indem sie automatisch lernen, Eigenschaften der Daten zu identifizieren. Ein weiterer Vorteil des Deep Learnings ist laut Sophos, dass es sich problemlos auf Hunderte Millionen Training-Samples skalieren lässt. Das ist wichtig, weil die Sophos Labs wöchentlich 2,8 Millionen neue Malware-Samples analysieren müssen. Auch bei den Business-Produkten von Trend Micro und G Data sind ML-Techniken ein fester Bestandteil der aktuellen Programmgenerationen. Doch auch bei ihnen stärken weiterhin Virensignaturen die äusseren Verteidigungsringe der Schutzlösung.
Fazit & Ausblick
Blickt man hinter den Hype um KI in der Cyber Security, fällt das Urteil ernüchternd aus: KI als Heilsversprechen einer automatisierten Abwehr aller künftigen Cyberattacken ist noch weit von jeder Realität entfernt. Doch legt man die Messlatte nicht so hoch, dann zeigt sich, dass ein Teilbereich der KI längst einen wichtigen Beitrag zu einem akzeptablen Sicherheitsniveau leistet – Machine Learning. Klingt nicht so sexy wie KI, wirkt aber tatsächlich schon. Denn mit signaturbasierten Ansätzen allein käme man heutzutage nicht mehr weit angesichts einer immer professionelleren Cybercrime-Industrie. «Machine Learning plus Signaturen» lautet deshalb derzeit noch die Erfolgsformel der besten Sicherheitslösungen.
Ob KI und ML letztlich zu einem entscheidenden Übergewicht der Verteidigung über den Angriff führen werden, ist eine offene Frage. Denn auch die Kriminellen werden sich KI- und ML-Techniken bedienen, um Attacken weiterzuentwickeln. Offen ist auch noch, welche Rolle künftig ein Risikofaktor jeder Sicherheitsarchitektur spielen wird, der meist weniger lautstark thematisiert wird als technische Schwachstellen: der menschliche Faktor. KI und ML tragen dazu bei, Mitarbeiter vor sich selbst zu schützen und sie vor Fehlern zu bewahren, sie geben Kriminellen aber auch neue Möglichkeiten des Täuschens und Betrügens an die Hand.