Künstliche Intelligenz (KI) und Machine Learning (ML)
08.10.2018, 15:14 Uhr
Besserer Schutz durch KI und Machine Learning
Neue Schutztechniken versprechen viel und halten einiges, sind aber kein Allheilmittel. Dennoch sind KI und ML schon jetzt wichtige Teile der Cyber-Abwehr.
Alle vier Sekunden taucht eine neue Malware auf. Mit dieser Virenflut können herkömmliche, signaturbasierte Antiviren-Programme nicht schnell genug fertig werden. Deshalb propagieren Sicherheitsunternehmen landauf, landab immer marktschreierischer Künstliche Intelligenz und Machine Learning als finale Antwort auf alle Security-Gefahren. Sie erwecken zudem den Eindruck, diese Techniken wären ganz neu und vor allem in der Lage, auch aller neuen Bedrohungen Herr zu werden. Doch was leisten KI und ML in der Cyberabwehr wirklich?
Verwirrung der Begriffe
Zunächst einmal führt der Hype um KI und ML zu Verwirrung. Der Security-Hersteller ESET liess 900 IT-Entscheider in den USA, Grossbritannien und Deutschland hinsichtlich ihrer Einstellung zu KI und ML befragen und fand heraus: Viele IT-Entscheider sind sich nicht wirklich klar darüber, was hinter den Konzepten von KI und ML steckt.
Während ein Grossteil der Befragten KI und ML als entscheidende Faktoren zur Lösung bestehender IT-Security-Probleme betrachtet, hält ein ebenfalls grosser Teil die Diskussion für einen zeitlich begrenzten Hype. US-Entscheider setzten dabei zu 82 Prozent grosse Hoffnungen auf KI und ML, während in Deutschland nur 66 Prozent dieser Überzeugung sind. Andererseits halten auch mehr US-Manager als britische oder deutsche die Diskussionen um KI und ML für ein kurzlebiges Phänomen – 65 Prozent im Vergleich zu 53 Prozent beziehungsweise 40 Prozent.
Vor allem aber: Nur 53 Prozent der IT-Entscheider glauben, dass ihre Organisationen den Unterschied zwischen Machine Learning und Künstlicher Intelligenz tatsächlich verstehen.
“Der Hype um die Neuheit von Machine Learning ist total irreführend, denn die Technologie an sich wird schon lange eingesetzt.„
Juraj Malcho
, CTO von ESET, www.eset.com
, CTO von ESET, www.eset.com
Juraj Malcho, Chief Technology Officer bei ESET, kritisiert deshalb: «Wenn es um KI und ML geht, tauchen in manchen Marketingmaterialien irreführende Verwendungen der Begriffe auf. Das führt dazu, dass IT-Entscheider in allen Märkten weltweit verunsichert sind, was sie glauben sollen. Wahr ist, dass es in der Cybersicherheit wie überall sonst noch keine echte, vollständige KI gibt. Der Hype um die Neuheit von ML ist zudem komplett irreführend, denn die Technologie an sich wird schon lange eingesetzt.»
Viel von der Verwirrung kommt von einer unscharfen Gleichsetzung der Begriffe Künstliche Intelligenz und Maschine Learning in Medien und Marketing. Tatsächlich handelt es sich um unterschiedliche Konzepte. Die ESET-Studie definiert sie so: «Einfach ausgedrückt, bezeichnet ,Künstliche Intelligenz‘ die Ausführung von Aufgaben durch Maschinen, ohne dass diese vorher hierfür programmiert oder trainiert werden müssen. Im Gegensatz dazu ist ,Maschinelles Lernen‘ die Bezeichnung für das Training von Computern mit Hilfe von Algorithmen, sodass diese in grossen Datenmengen wiederkehrende Strukturen erkennen können. Dies geschieht immer auf Basis von dem Rechner bekannten Regeln und Informationen.»
Während Machine Learning schon seit etwa Ende der 90er-Jahre als zusätzliches Mittel neben die signaturbasierte Malware-Erkennung getreten ist und seinen Wert vielfach bewiesen hat, ist Künstliche Intelligenz (KI) bislang mehr Marketing-Buzzword als Realität. Viele Sicherheitsfirmen forschen natürlich an KI, aber direkt in den Produkten kommt sie noch nicht zum Einsatz. Vielmehr versuchen die Hersteller, etwa Sophos und Symantec, KI bei den Malware-Analysen in ihren eigenen Labors einzusetzen und so weiterzuentwickeln. Dennoch nutzen viele Hersteller in ihrem Marketing den Begriff KI, da er nicht genau definiert ist. So wird die Hintergrundtechnologie eines Produkts gern einmal als KI bezeichnet, auch wenn es sich dabei in Wirklichkeit nur um bestens trainiertes Machine Learning handelt.
Machine Learning plus Signaturen
Beim Machine Learning werden Unmengen von Daten mit schädlichem Code mit Hilfe von Algorithmen ausgewertet und Elemente den Kategorien «gutartig» oder «bösartig» zugeordnet, um schneller Signaturen und Modelle daraus abzuleiten. Liviu Arsene, leitender Bedrohungsanalyst bei Bitdefender, beschreibt den Charme dieser Technik so: «War die Erkennung von Malware zuvor reaktiv, kann Machine Learning von vornherein komplett unbekannte Stämme von Malware abwehren. Damit gehen die Lösungen über die herkömmliche statische Analyse hinaus.» Doch weil Signaturen und Modelle jeweils eigene Vor- und Nachteile haben, setzen die meisten Hersteller von Sicherheits-Software immer noch beide Techniken gleichermassen ein.
Signaturen sind zwar sehr schnell verteilt, aber immer nur für einzelne Schädlinge gemacht. Und müssen viele Signaturen genutzt werden, steigt die zu verarbeitende Datenmenge in der Sicherheitslösung stark an. Mit ML trainierte Modelle dagegen sind relativ klein in der Datenmenge – und in der Lage, ganze Malware-Familien oder mutierten Code zu erkennen. Jedoch muss man die Modelle erst errechnen – was Zeit kostet. Hier ist eine Signatur eindeutig die schnellere Lösung.
“War die Erkennung von Malware zuvor reaktiv, kann Machine Learning von vornherein komplett unbekannte Stämme abwehren.„
Liviu Arsene, Leitender Bedrohungsanalyst Bitdefender, www.bitdefender.de
Einige Anbieter sogenannter Next-Gen-Software setzen demgegenüber auf eine rein verhaltensbasierte Erkennung. Sie schmähen die Signatur-Technik als veraltet und sprechen nur noch von ML und KI. Einer dieser Anbieter wurde allerdings vor einigen Monaten dabei ertappt, wie er intern seine verhaltensbasierte Erkennung mit Daten verifizierte, die bereits über das Google-Portal Virus Total klassifiziert worden waren. Der kostenlose Online-Dienst Virus Total analysiert Daten durch eine Vielzahl von Antiviren-Programmen und Malware-Scannern.
Grenzen der ML-Technik
Next-Gen-Anbieter preisen maschinelles Lernen gern als Lösung an, die in der Lage ist, jede neue Variante von Schad-Software zu erkennen. Doch in Wirklichkeit haben auch ML-Algorithmen ihre Grenzen. Richard Werner, Regional Solution Manager bei Trend Micro, betont: «Bislang gibt es noch keine Technologie, die unfehlbar ist, und auch ML/KI kann ausgetrickst werden.» In der ESET-Studie heisst es dazu: «Anders als vielfach dargestellt ist keineswegs garantiert, dass ein Algorithmus neue Elemente korrekt labelt, nur weil er vorher mit grossen Datenmengen gefüttert wurde. Menschliche Verifizierung bleibt zwingend notwendig. Bleibt diese aus, können sich Schneeballeffekte schon durch ein einziges fehlerhaft gelabeltes Element ergeben, da dieses in den Pool der Lerndaten eingeht. Derartige Effekte wiederum können das System derart beeinträchtigen, dass es schliesslich komplett versagt.»
Selbst eine fehlerfrei agierende Maschine könne nicht jedes Element vor dessen Ausführung als gut- oder bösartig identifizieren, da sie nicht in der Lage sei, zu entscheiden, ob ein ihr unbekanntes Element in der Zukunft zu unerwünschtem Verhalten führen werde oder nicht. ESET fordert deshalb: «ML-Systeme müssen in der Lage sein, Mitarbeiter über nicht anhand gelernter Daten kategorisierbare Elemente zu informieren und um eine Entscheidung zu bitten.»
“Bislang gibt es noch keine Technologie, die unfehlbar ist, und auch ML/KI kann ausgetrickst werden.„
Richard Werner,
Regional Solution Manager bei Trend Micro, www.trendmicro.com
Regional Solution Manager bei Trend Micro, www.trendmicro.com
Zu den weiteren Beschränkungen von ML-Techniken gehört, dass jeder Algorithmus einen begrenzten Fokus hat und anhand eines spezifischen Datensets und fester Regeln lernt. Doch ESET betont zu Recht: «Angreifer spielen nicht nach den Regeln. Schlimmer noch: Sie können und haben in der Vergangenheit oftmals das gesamte Spielfeld umgestaltet.» Kein noch so weit entwickelter Algorithmus könne, was menschliche Hacker könnten – aus Kontexten lernen und kreativ agieren.
ESET nennt zwei Beispiele dafür: Angreifer können etwa bösartigen Code in Pixeln einer harmlosen Bilddatei verstecken. Oder sie verteilen Code-Schnipsel bösartiger Software auf einzelne Dateien. Der Algorithmus glaubt, eine saubere Datei vor sich zu haben, weil sich das schädliche Verhalten erst zeigt, wenn die einzelnen Elemente an einem Endpoint oder in
einem Netzwerk zusammengefügt werden.
einem Netzwerk zusammengefügt werden.
ML in Security-Lösungen
Die Hersteller verwenden Machine Learning an verschiedenen Stellen ihrer Lösungen, unter anderem:
- direkt in der Client-Software, etwa beim Lesen von E-Mails. Der Nutzer kann Spam-Mails markieren und die Software lernt mit
- bei der Auswertung von E-Mails und Daten in der Cloud
- beim Errechnen von Modellen, um Malware-Familien zu erkennen
- im eigenen Labor beim Erstellen von Signaturen
- bei der Analyse von Datenströmen, etwa von und zu IoT-Geräten
Nun stellt sich die Frage, ob bestens trainierte Machine-Learning-Algorithmen nicht bereits eine KI sind? Nein, sind sie nicht, denn bei ML gibt es kein Ende des manuellen Trainings. Eine richtige KI würde selbstständig lernen, entscheiden und sich verbessern – so wie die KI AlphaGo, die im
Go und im Schach für Furore sorgte, weil sie dank selbstständigem Lernen die weltbesten menschlichen Spieler beziehungsweise Programme bezwingen konnte. Aber der Lernbereich ist bei beiden Spielen eingegrenzt und hat im Vergleich zu Sicherheitsrisiken viel weniger Parameter und keine sich ständig verändernde grosse Datenmenge zur Analyse.
Go und im Schach für Furore sorgte, weil sie dank selbstständigem Lernen die weltbesten menschlichen Spieler beziehungsweise Programme bezwingen konnte. Aber der Lernbereich ist bei beiden Spielen eingegrenzt und hat im Vergleich zu Sicherheitsrisiken viel weniger Parameter und keine sich ständig verändernde grosse Datenmenge zur Analyse.
Endpoint Detection and Response
Machine-Learning-Modelle werden aber nicht nur in der Malware-Erkennung verwendet. Sie helfen auch in anderen Werkzeugen bei Auswertungen, etwa bei der von einigen Herstellern angebotenen Technik Endpoint Detection and Response (EDR). Diese soll eine umfassende Abwehr von Cyberattacken ermöglichen, indem verschiedene Werkzeuge in einer Schutzlösung ineinandergreifen, zum Beispiel Black- und Whitelisting, Verhaltensanalyse und Auswertung von Prozessaufrufen und Netzwerkverbindungen.
Auf Basis von ML-Modellen werden Attacken bewertet und mit Risikoparametern versehen. Wird ein definierter Level überstiegen, werden weitere Mechanismen ausgelöst, etwa eine Account- oder Workstation-Sperrung oder eine Quarantäne. Der Vorgang wird zudem visualisiert und lässt sich so zurückverfolgen. Als Sensoren dienen dabei entweder Software-Clients, die Analyse von Datenströmen oder die Auswertung von Log-Dateien in Echtzeit.
Hersteller im Überblick
Eine Umfrage von Computerworld bei wichtigen Hersteller zu ihrem Einsatz von KI und ML zeigte: Keiner dieser grossen klassischen Anbieter setzt ausschliesslich auf KI und ML. Alle haben sie zwar mehr oder weniger intensiv in ihren Produkten und Labors im Einsatz, doch sehen sie die neuen Techniken nicht als Allheilmittel an, sondern als zusätzliches Rüstzeug, um kommende Gefahren besser abzuwehren.
KI ist für Bitdefender derzeit nur eine Sache der Forschung, während ML schon seit Jahren fester Bestandteil all seiner Sicherheitslösungen ist. Laut Bitdefender ist das notwendig, weil die zunehmende Verbreitung und Verfeinerung von Bedrohungen, die auf Verschlüsselung, Verschleierung und Polymorphismus beruhen, dazu geführt hätten, dass eindimensionale Erkennungsmethoden bei der Bewältigung der riesigen Anzahl von Bedrohungen wirkungslos geworden seien. ML könne dazu beitragen, alle Angriffsvektoren abzudecken – von dateibasierter oder dateiloser Malware bis hin zu Spam und Online-Betrug. Auch moderne Sicherheitsmechanismen wie Sandboxing, Prozessüberwachung und RAM-Schutz werden laut Bitdefender durch Machine Learning optimiert.
Symantec wiederum hat in seine Produkte mit Advanced Threat Protection (ATP) die gleiche Technologie zur Erkennung von Bedrohungen integriert, die auch seine Sicherheitsexperten zur Aufdeckung von Cyberattacken nutzen. Und eine von Symantec als Targeted Attack Analytics bezeichnete Technologie (TAA) soll mit Machine-Learning-Methoden gezielte Attacken auf Unternehmensnetzwerke automatisiert erkennen und dann an IT-Security-Teams melden. Im Gegensatz zu traditionellen Lösungen verwendet TAA also die Prozesse, das Wissen und die Fähigkeiten von Sicherheitsexperten.
Sophos setzt besonders auf eine spezifische Form von Machine Learning, das Deep Learning, um auf Basis riesiger Datenmengen ein Modell zu generieren, das die Daten präzise beschreiben kann. Neuronale Netze sollen zu einer höheren Erkennungsleistung von Schadcode führen, indem sie automatisch lernen, Eigenschaften der Daten zu identifizieren. Ein weiterer Vorteil des Deep Learnings ist laut Sophos, dass es sich problemlos auf Hunderte Millionen Training-Samples skalieren lässt. Das ist wichtig, weil die SophosLabs wöchentlich 2,8 Millionen neue Malware-Samples analysieren müssen.
Auch bei den Business-Produkten von Trend Micro undG-Data sind ML-Techniken ein fester Bestandteil der aktuellen Programm-Generationen. Doch auch bei ihnen stärken weiterhin Virensignaturen die äusseren Verteidigungsringe der Schutzlösung.
Fazit & Ausblick
Blickt man hinter den Hype um Künstliche Intelligenz in der Cybersecurity, dann fällt das Urteil ernüchternd aus: KI als Heilsversprechen einer automatisierten Abwehr aller künftigen Cyberattacken ist noch weit von jeder Realität entfernt. Doch legt man die Messlatte nicht so hoch, dann zeigt sich, dass ein Teilbereich der KI längst einen wichtigen Beitrag zu einem akzeptablen Sicherheitsniveau leistet – Machine Learning. Klingt nicht so sexy wie KI, wirkt aber tatsächlich schon. Denn mit signaturbasierten Ansätzen allein käme man heutzutage nicht mehr weit angesichts einer immer professionelleren Cybercrime-Industrie. «Machine Learning plus Signaturen» lautet deshalb derzeit noch die Erfolgsformel der besten Sicherheitslösungen.
Ob KI und ML am Ende des Tages zu einem entscheidenden Übergewicht der Verteidigung über den Angriff führen werden, ist eine offene Frage. Denn auch die Kriminellen werden sich KI- und ML-Techniken bedienen, um ihre Angriffe weiterzuentwickeln. Offen ist auch noch, welche Rolle künftig ein Risikofaktor jeder Sicherheitsarchitektur spielen wird, der meist weniger lautstark thematisiert wird als technische Schwachstellen: der menschliche Faktor. KI und ML tragen dazu bei, Mitarbeiter vor sich selbst zu schützen und sie vor Fehlern zu bewahren, sie geben den Kriminellen aber auch neue Möglichkeiten des Täuschens und Betrügens an die Hand.
Im Gespräch mit Maik Morgenstern, CTO bei AV-Test
Maik Morgenstern: CTO bei AV-Test
Quelle: AV-Test
Computerworld: Was verstehen Sie unter Next-Gen-Sicherheitslösungen?
Maik Morgenstern: Seit etwa 2012 drängen neue Unternehmen unter dem Begriff «Next Generation Endpoint Security» auf den Markt. Vertreter sind unter anderem Cylance, CrowdStrike, SentinelOne, Invincea, Ensilo, DeepInstinct, Carbon Black, Palo Alto und FireEye. Ihr Anspruch: Sie wollen es besser machen als altbekannte Antiviren-Produkt-Hersteller wie Bitdefender, Kaspersky und Co.
Die Neuen geben an, dass sie auch für Malware keine Signatur-Updates für die Erkennung benötigen, die Systemlast für Client und Server geringer ist und sie die Angreifer sogar ohne Internetzugriff sicher erkennen.
Computerworld: Wie arbeiten Next-Gen-Sicherheitsprodukte?
Morgenstern: Die Hersteller setzen verschiedenste Techniken ein. Next-Gen-Firmen nutzen dabei gern Begriffe wie Künstliche Intelligenz und Machine Learning. Sie sollen Dateien allein anhand ihres «Aussehens» schon vor der Ausführung als gefährliche Malware erkennen. Vereinfacht gesagt lernt ein Algorithmus anhand von Trainingsmengen: Er wird ständig mit eindeutig bestätigter Malware und gutartige Software gefüttert und lernt so, diese zu unterscheiden.
Das Lernen geht ständig weiter und wird schliesslich mit Dateien gegengeprüft, die nicht Bestandteil der Trainingsmenge waren. Die genutzten Algorithmen können verschiedenster Natur sein: neuronale Netzwerke, Deep Learning oder etwa Clustering.
Computerworld: Ist Machine Learning denn die versprochene Allzweckwaffe?
Morgenstern: Die Vorteile des Next-Gen-Ansatzes liegen auf der Hand. Hat der Algorithmus einmal gelernt, Malware zu erkennen, die so aussieht wie in der Trainingsmenge, und ein Modell zu erstellen, dann wird er auch alle neuen Varianten problemlos und ohne Updates erkennen können – im Gegensatz zu Signaturen, die immer nur eine Datei oder einzelne eng verwandte Varianten einer Schad-Software erkennen können.
In unseren Tests bei AV-Test haben wir grundsätzlich bestätigen können, dass Next-Gen-Produkte in der Lage sind, einen gleichwertigen Schutz wie traditionelle Antiviren-Software zu bieten. In der Regel sehen wir dabei höhere Fehlalarmraten und einen geringen Einfluss auf die System-Performance.
Aber: Machine-Learning-Algorithmen sind immer nur so gut wie ihre Trainingsmenge. In Tests fiel uns auf, dass Next-Gen-Produkte bösartige 32-Bit-Dateien von Windows-Programmen sehr gut erkannt haben, aber 64-Bit-Versionen teils gar nicht. Das liegt daran, dass aktuell 99 Prozent der Malware 32-Bit-Dateien sind und der Algorithmus gar keine Chance hat, 64-Bit-Malware zu erlernen. Dies können sich Angreifer für gezielte Angriffe zunutze machen.
Computerworld: Bedeuten die Next-Gen-Lösungen denn das Ende der klassischen Signaturen?
Morgenstern: Nein, das Erkennen und Klassifizieren von Schadcode via Machine Learning kann lange Zeit dauern, eine Signatur dagegen ist automatisiert in Sekunden erstellt und sofort verteilt. Zusammenfassend kann man feststellen, dass Machine Learning nicht die Lösung aller Probleme ist, aber unbedingt ein Teil der Strategie eines AV-Produkt-Herstellers sein sollte.