22.05.2006, 22:41 Uhr
Geissel digitaler Kommunikation
Das globale Spam-Problem: Wie kann man unerwünschte Werbemails abwehren? Es gibt viele Lösungen, aber keine, die bisher umfassend erfolgreich ist.
Steffen Ebert arbeitet für Eulink.
Die Menge an Spam-Mails, die täglich die virtuellen Postfächer von Internetnutzern weltweit überflutet, hat enorme Grössenordnungen angenommen. Zuhauf stapeln sich in vielen E-Mail-Posteingängen die Nachrichten mit den schlüpfrigen Angeboten und mit der Werbung für potenzsteigernde Mittel. Das US-Analystenhaus Ferric-Research veröffentlichte in dem Bericht «The global economic impact of spam», dass Spam im Jahre 2005 weltweit geschätzte Kosten von 50 Milliarden Dollar verursacht hat. Ein gewaltiges Problem - deshalb arbeiten immer mehr E-Mail-Server und -Clients mit integrierbaren Techniken, die vor Spam-Mails schützen. Allerdings wird in den meisten Fällen nur ein begrenzter Schutz gewährleistet. Es gibt derzeit keine Lösung, die umfassende Sicherheit bietet, denn die Voraussetzungen, die eine umfangreiche Anti-Spam-Lösung erfüllen muss, sind sehr hoch. Der Knackpunkt liegt bei der korrekten Identifizierung eines Spam-Mail, denn das Erscheinungsbild ist meist trügerisch. Müllmails lassen sich oft erst auf den zweiten Blick von seriösen E-Mails unterscheiden. Somit ist das Risiko gross, dass erwünschte Nachrichten, die nicht in die Spam-Mail-Kategorie gehören, von Anti-Spam-Filtern ebenfalls automatisch entfernt werden.
Überholte Blacklists
Eines der ersten Anti-Spam-Verfahren war das sogenannte Blacklisting, das zwischen 1990 und 1997 entwickelt wurde. Zu dieser Zeit waren Absenderverschleierungen der Spammer noch nicht üblich. Dementsprechend konnten Empfänger von unerwünschten Werbemails einfach die E-Mail-Adresse des Absenders, den IP-Adressbereich von Spammern oder auch die gesamte Domain mithilfe der Blacklists blocken. Allerdings stiess diese Methode mit dem Internetboom an ihre Grenzen. Die Blacklists blockten nur E-Mails von Absendern, die im Adressverzeichnis der schwarzen Listen eingetragen waren. Ein recht einfaches Verfahren - deshalb war es nur eine Frage der Zeit, bis Spammer eine Methode entwickelten, um diese Technologie zu umgehen. Ihre Methode bestand in der Benutzung von temporären E-Mail-Adressen oder im Missbrauch von fremden E-Mail-Servern, die für den Versand von Spam-Mails zweckentfremdet wurden. Entwickler der Anti-Spam-Filter sahen sich durch die sich immer ausgefeilteren Verschleierungstaktiken der Spammer vor neuen Herausforderungen.
Regelbasierter Schutz
Mit der Überlegung, die Inhalte der E-Mails auf Begriffe hin zu analysieren und dementsprechend zu filtern, wurde der regelbasierte Schutz entwickelt. Die vom Benutzer definierten Regeln durchleuchten E-Mails auf ihre Begriffe und ordnen diese bestimmten Kategorien zu. Der Nachteil dieser Analyse liegt auf der Hand: Knackt der Spammer das System und lernt die Regeln des Systems kennen, kann er auch diese Schutzfunktion umgehen. Dies veranlasste Softwareentwickler, einen Schritt weiter zu gehen. Sie erkannten, dass der Mensch selbst es ist, der mit seinem ausgeprägten Sinn für Analytik die besten Voraussetzungen für die schnelle Erkennung von Spam-Mails bietet. Ungeachtet der intensiven Forschung auf dem Bereich der Interpretation von Text und Sprache, neuronalen Netzen oder allgemeiner Statistik sind die Ergebnisse der besten Softwareprogramme auch heute noch nicht mit dem Urteilsvermögen eines Menschen vergleichbar.
Statistische Gesichtspunkte
Folglich musste ein System entwickelt werden, das E-Mails nach einem ähnlichen Muster untersucht, wie es der menschliche Verstand anwenden würde. Den Grundstein hierfür bildete die statistische hypothetische Analyse in Form des Bayesian Filter. Diese Technologie untersucht und selektiert Nachrichten anhand von statistischen Gesichtspunkten. Ein wichtiger Aspekt der statistischen Methode ist die Möglichkeit, das System zu trainieren. Der Benutzer kategorisiert seine E-Mails entsprechend in erwünschte (Ham) und unerwünschte Nachrichten (Spam). Aufgrund dieser Kennzeichnung erstellt der Bayesian Filter eine Liste mit Wörtern, die in diesen unerwünschten E-Mails oft vorkommen. Wenn der Benutzer beispielsweise E-Mails, die für Viagra werben, als Spam kennzeichnet, haben alle Nachrichten mit dem Wort Potenz eine hohe Spam-Wahrscheinlichkeit. Einzelne Schlüsselwörter sind allerdings für eine eindeutige Filterung nicht ausreichend, ausschlaggebend ist die Gesamtsumme der Bewertungen der einzelnen Wörter, die der Bayesian Filter vornimmt.
Weisse Listen und SURBL
Damit erwünschte Nachrichten wie beispielsweise Lieferanten-Newsletter oder -Werbung von den Spam-Filtern nicht als vermeintliche Spam-Mails klassifiziert werden, haben Programmierer so genannte Whitelists entwickelt. Während die schwarzen Listen, der regelbasierte Schutz und die hypothetische Analyse im Verbundsystem immer bessere Ergebnisse erzielten, stieg der Bedarf an weissen Listen. Auf den Whitelists werden Absender eingetragen, deren E-Mail-Formate und -Inhalte Spams zwar gleichen, deren Nachrichten für den Empfänger aber keine Spams sind. Dadurch können die Nachrichten des auf der Liste geführten Absenders den Spam-Filter ungehindert passieren.
SURBL
SURBL (Spam URI Realtime Blocklists) ist ein effektives Anti-Spam-System, das neben der Absenderüberprüfung auch Inhalte der E-Mails auf eingetragene Hyperlinks inspiziert. Absender von Spam-Mails verschleiern sehr oft ihre Herkunft - die Link-Adresse zur eigenen Website, die innerhalb der Nachricht beworben wird, wird jedoch nur äusserst selten geändert, da dies meist mit Kosten verbunden ist. Das Anti-Spam-Modul SURBL arbeitet bei der Erkennung solcher Hyperlinks äusserst zuverlässig: 40 bis 60 Prozent aller Spam-E-Mails werden bei einer Fehlerquote von praktisch null Prozent automatisch identifiziert. Der SURBL-Filter wird dabei automatisch von entsprechenden Datenbanken, die permanent von Nutzern aus aller Welt mit neusten Informationen gefüttert werden, mit Updates versorgt.
Offenlegung von Identitäten
Mit gefälschten Absenderadressen versenden Spammer Tausende von E-Mails am Tag an abermals so viele Nutzer. Diese Taktik macht es zum einen schwer, schwarze Listen zu führen, zum anderen führt es immer wieder dazu, dass Domains unschuldigerweise auf solchen schwarzen Listen landen, weil sie durch Spammer missbraucht wurden. Um das Fälschen von Absenderadressen zu erschweren, wurden mehrere Technologien entwickelt, wobei die wichtigsten DKIM (Domain Keys Identified Mail), Microsofts Sender-ID und SPF (Sender Policy Framework) von Pobox.com-Gründer Meng Wong sind. Ein wichtiges Prinzip, das Sender-ID und SPF verfolgen, ist die Offenlegung der Identität. Der Absender einer E-Mail muss demnach die IP-Adresse des eigenen Mailservers bekannt geben. Dies ermöglicht es einem E-Mail-Server, der eine Nachricht von einem anderen E-Mail-Server erhält, die IP-Adresse des Absenders mit der veröffentlichten IP-Adresse zu vergleichen. DKIM hingegen fügt der E-Mail eine digitale Signatur hinzu: so lässt sich der Ursprung der Nachricht nachweisen, und man kann überprüfen, ob der Inhalt der E-Mail verändert wurde.
Betrachtet man beispielsweise die bekannten E-Mail-Provider Yahoo.com und Hotmail.com, deren Domains für viele weitverbreitete Spam-Mails missbraucht wurden, wird die Tragweite des Spam-Übels deutlich. Eine konsequente Anwendung von Sender-ID oder SPF würde einen deutlichen Rückgang der Spam-Mails zur Folge haben. Mit der Benutzung dieser Lösung müssten sich die Anwender bereit erklären, die IP-Adresse ihres eigenen E-Mail-Servers mit zu versenden und eingehende Nachrichten ohne diese Informationen konsequent zu löschen - eine Methode, die einer sehr breiten Akzeptanz unter den E-Mail-Nutzern bedarf. Die Einigung auf einen einheitlichen Standard des Identifikationsverfahrens per IP-Adresse wird auf sich warten lassen, und der Verbraucher ist nach wie vor von seinen Anti-Spam-Programmen oder dem Anti-Spam-Angebot seines E-Mail-Providers abhängig. Die optimale Lösung für eine nahezu ungestörte Kommunikation im Netz vereint deshalb sowohl schwarze als auch weisse Listen, den regelbasierten Schutz, die statistische hypothetische Analyse und im besten Fall auch das SPF-Verfahren.
Steffen Ebert