Semantic Web
05.12.2006, 08:43 Uhr
Schleichende Revolution im Internet
Mit den Methoden des Semantic Web lassen sich die Vorteile der Maschine, nämlich die Verarbeitung von grossen und für den Menschen unübersichtliche Datenmengen, gezielter nutzen
Ralf Schweiger und Simon Hölzer sind Partner bei Lumrix.net.
Viele Modeworte kennzeichnen die Welt der Kommunikationstechnologie. Je prägnanter, desto kurzlebiger - scheinbar. So steht der strapazierte Begriff des Web 2.0 für eine zweite Generation des Internet mit kollaborativ ausgerichteten Diensten. Der Begriff des Semantic Web wurde hingegen schon Ende der Neunziger Jahre von den Wegbereitern des World Wide Web geprägt. Mit seinen Methoden sollen Informationen in einer maschinenlesbaren Form abgelegt und damit das Wissensmanagement effizienter gestaltet werden. Das Semantic Web ist durch die heute verfügbaren technischen Standards greifbarer geworden. Doch was bedeutet Semantik und wie wird diese Form der Organisation von Wissen unseren zukünftigen Umgang mit dem Internet verändern?
Im Semantic Web werden Inhalte von Dokumenten und Verknüpfungen zwischen diesen Inhalten semantisch, das heisst sinngebend, ausgezeichnet. So können beispielsweise relevante Komponenten von Adressinformationen, wie in einer Datenbank, im Dokument selbst bezeichnet werden. Die tatsächliche Bedeutung der so ausgezeichneten Inhalte (Absätze, einzelne Worte bis zu multimedialen Daten) bleibt der Maschine verschlossen. Der Vorteil liegt in der automatischen Identifikation dieser Inhalte. Mit deren Identifikation sind gezielte Manipulationen möglich, wie das Ordnen nach Hausnummern oder das Anzeigen von Personen zu bestimmten Hausnummern. Die jeweiligen Internetdokumente werden bevorzugt im Format der so genannten Extensible Markup Language (XML) abgelegt, welches das heute vorherrschende HTML Format (Hypertext Markup Language) der Webseiten schrittweise ablöst.
Im Semantic Web werden Inhalte von Dokumenten und Verknüpfungen zwischen diesen Inhalten semantisch, das heisst sinngebend, ausgezeichnet. So können beispielsweise relevante Komponenten von Adressinformationen, wie in einer Datenbank, im Dokument selbst bezeichnet werden. Die tatsächliche Bedeutung der so ausgezeichneten Inhalte (Absätze, einzelne Worte bis zu multimedialen Daten) bleibt der Maschine verschlossen. Der Vorteil liegt in der automatischen Identifikation dieser Inhalte. Mit deren Identifikation sind gezielte Manipulationen möglich, wie das Ordnen nach Hausnummern oder das Anzeigen von Personen zu bestimmten Hausnummern. Die jeweiligen Internetdokumente werden bevorzugt im Format der so genannten Extensible Markup Language (XML) abgelegt, welches das heute vorherrschende HTML Format (Hypertext Markup Language) der Webseiten schrittweise ablöst.
Von Pfeilen zu Hinweisschildern
Jedes einzelne so identifizierbare Objekt kann wieder mit beliebig anderen in einer sinntragenden Beziehung stehen. Ein Hyperlink in HTML führt zu einer anderen Stelle im gleichen oder in einem anderen Dokument. Semantische Links beschreiben formal diese Verknüpfung. Bestehende Querverweise werden so um inhaltliche Angaben erweitert. Die einfachste Beziehung ist eine direkte Zuordnung (ist gleich) oder eine Hierarchie (ist Teil von). Semantische Links sind frei formulierbar: Bern «ist Hauptstadt der» Schweiz. Für eine spätere automatisierbare Nutzung wären eine einheitliche Definition und Anwendung dieser Beziehungstypen notwendig. Bei komplexeren Beziehungstypen spricht man von Ontologien, die dann verschiedene Wissensbereiche abbilden und zugleich Regeln für die richtige Anwendung definieren. Beziehungen und Beziehungstypen können im so genannten Resource Description Framework (RDF) formal beschrieben werden. Auf dieser Basis lassen sich komplexe Beziehungsnetze entwickeln. RDF wird hierdurch zum eigentlichen Herzstück des Semantic Web. Derartige, mittels RDF austauschbare Netze werden beispielsweise für die Inhalte der Wikipedia-Enzyklopädie entwickelt.
Verteiltes Wissensmanagement
Wie beim Aufbau und der redaktionellen Pflege der Wissensinhalte von Wikipedia müssen diese Beziehungen inklusive Beziehungstypen ebenfalls formuliert werden. Dabei vertraut man grundsätzlich auf einen verteilten Ansatz und eine ordnende Kraft der zahlreichen Redakteure, die Beziehungstypen einheitlich zu definieren und anzuwenden. Bei sachgerechter Anwendung und unter Einhaltung allgemeiner Regeln sind die Beziehungsnetze sprachübergreifend nutzbar. Weiterhin vorteilhaft ist die Verwendung von XML als Austauschformat des RDF, welches losgelöst von den Dokumenteninhalten standardisiert gepflegt werden kann. Information aus dem RDF stehen damit für unterschiedliche Anwendungen als Beziehungsnetze zur Verfügung.
Semantic Web: Schleichende Revolution im Internet
Bewegen im Semantic Web
Die Anwendungsmöglichkeiten semantisch ausgezeichneter und verknüpfter Dokumente sind enorm, bleiben aber zweckgebunden. Sie hängen vom Grad der Strukturierung beziehungsweise vom initialen redaktionellen Aufwand ab. Auf der Suche nach der Apotheke um die Ecke würde man nicht mehr eine zentrale Datenbank wie ein Branchenverzeichnis aufsuchen und sich durch ein Formularfeld quälen müssen. Der Nutzer würde über eine semantische Suche zuerst alle Webressourcen von Apothekern finden. In einem zweiten Schritt würden deren strukturierte Adressinformationen (Ort, Strasse, Hausnummer) ausgelesen und verarbeitet. Dieses praxisorientierte Beispiel soll verdeutlichen, dass
- Adressinformationen einheitlich ausgezeichnet sein müssen,
- nur Apotheken mit diesen einheitlichen Informationen potenziell gefunden -würden,
- die Logik für die Verarbeitung dieser Informationen vorhanden bzw. entwickelt sein muss,
-jegliche Datenbankanwendung auf ähnliche Weise im Semantic Web nachvollziehbar ist.
Die Probleme liegen zum einen im Aufwand und im Erreichen einer kritischen Masse an strukturierten Dokumenten. Damit bleiben aktuelle Anwendungen in dieser Richtung bislang von eingeschränktem Nutzen. Wir nähern uns schrittweise diesem rasant wachsenden Mehrwert.
Heute schon Realität
Redaktionelle Informationen zu bestimmten Wissensquellen, so genannte Metadaten für Nachrichten oder Blogs, sind schon heute maschinenlesbar verfügbar. Auf der Basis dieser Rich Site Summaries (RSS) können solche Informationskanäle nach individuell relevanten Inhalten durchsucht werden. Diese Nachrichtenströme lassen sich beliebig mit anderen Standard-Büroanwendungen nutzen. Neben dem einfachen Abonnieren ein oder mehrerer Kanäle bieten Plattformen wie digg.com ? für Technik und IT Experten in englischer Sprache ? oder www.lufee.de ? für vorwiegend deutschsprachige Nachrichten ? neben der Inhaltssuche auch Diskussionsfunktionen. Die zusätzliche Verschlagwortung durch den Leser nach einheitlichen Merkmalen, so genanntes Tagging, baut wiederum wertvolle Beziehungsnetze. In Zusammenhang mit dem semantischen Desktop der Zukunft sind Entwicklungen zur vollautomatisierten Verschlagwortung und Vernetzung der Wissensquellen interessant. Das Fraunhofer-Institut für integrierte Schaltungen verfolgt mit seiner Anwendung Conweaver den Weg, relevante Informationen automatisch aus den Texten zu extrahieren, um sie in einer Ontologie einordnen zu können. Diese Form der semantischen Suche löst sich von der Begriffsebene und nutzt auf einer Sinn-ebene die so gewonnenen abstrakten Themen. Die höhere Relevanz der Suchergebnisse führt unter anderem in Unternehmensnetzwerken zu -kollaborativem Wissen und Effizienzsteigerung.
Erfolgversprechende Zukunft
Das Semantic Web wird sich schrittweise entwickeln. Die technischen Grundlagen sind vorhanden, ausgereift und akzeptiert. Dabei wird der Computer komplexere Aufgaben selbstständig lösen. Diese Kompetenz liegt im sinnvollen Verknüpfen von Wissensquellen und nicht im eigentlichen Verstehen von Informationsinhalten. Auf diese Weise lassen sich die Vorteile der
Maschine, nämlich die Verarbeitung von grossen und für den Menschen unübersichtliche Datenmengen, gezielter nutzen. Ist einmal eine kritische Masse an aufbereiteten Informa-tionsquellen vorhanden, wird auch die Weiterverwendung für unterschiedliche Anwendungsbereiche interessant. Der hierfür nötige Aufwand lohnt sich für Unternehmen, für die das Informationsmanagement zu den Kernkompetenzen zählt.
Maschine, nämlich die Verarbeitung von grossen und für den Menschen unübersichtliche Datenmengen, gezielter nutzen. Ist einmal eine kritische Masse an aufbereiteten Informa-tionsquellen vorhanden, wird auch die Weiterverwendung für unterschiedliche Anwendungsbereiche interessant. Der hierfür nötige Aufwand lohnt sich für Unternehmen, für die das Informationsmanagement zu den Kernkompetenzen zählt.
Weitere Informationen
Semantik für Computer
Die Farbe der Hoffnung ist «grün». Wenn wir uns «nicht grün sind», verstehen wir uns laut dieser Redensart nicht. Und auf dem «Green» spielt man gemeinhin Golf. So selbstverständlich, wie diese Sinnzusammenhänge, können wir zwischen «Golf spielen», «Golf fahren» und «am Golf Krieg spielen» unterscheiden. Die Bedeutung erschliessen wir aus dem Kontext der entsprechenden Quellen. Der Mensch benutzt hierzu seinen Erfahrungsschatz, Textzusammenhänge und Wahrscheinlichkeiten. Der Computer ist dazu nur eingeschränkt in der Lage, obwohl ihm im WWW mehr Texte und Daten zur Verfügung stehen als jemals in einem Menschenleben erfassbar wären. Es fehlt aber dort an einer besonderen Art der Ordnung und der Logik, diese Ordnung sinnvoll und automatisierbar weiter zu verarbeiten. Beim Aufbau des Semantic Web will man einige dieser Mängel überwinden. Dazu müssen sowohl Inhalte in Webdokumenten als auch Zusammenhänge (Links) zwischen diesen Inhalten besser, d.h. sinnhaltig, beschrieben werden. Ziel ist es, den Computer in die Lage zu versetzen für spezielle Aufgaben wie eine Internetrecherche, diese Informationsquellen besser verknüpfen und auswerten zu können.
Die Farbe der Hoffnung ist «grün». Wenn wir uns «nicht grün sind», verstehen wir uns laut dieser Redensart nicht. Und auf dem «Green» spielt man gemeinhin Golf. So selbstverständlich, wie diese Sinnzusammenhänge, können wir zwischen «Golf spielen», «Golf fahren» und «am Golf Krieg spielen» unterscheiden. Die Bedeutung erschliessen wir aus dem Kontext der entsprechenden Quellen. Der Mensch benutzt hierzu seinen Erfahrungsschatz, Textzusammenhänge und Wahrscheinlichkeiten. Der Computer ist dazu nur eingeschränkt in der Lage, obwohl ihm im WWW mehr Texte und Daten zur Verfügung stehen als jemals in einem Menschenleben erfassbar wären. Es fehlt aber dort an einer besonderen Art der Ordnung und der Logik, diese Ordnung sinnvoll und automatisierbar weiter zu verarbeiten. Beim Aufbau des Semantic Web will man einige dieser Mängel überwinden. Dazu müssen sowohl Inhalte in Webdokumenten als auch Zusammenhänge (Links) zwischen diesen Inhalten besser, d.h. sinnhaltig, beschrieben werden. Ziel ist es, den Computer in die Lage zu versetzen für spezielle Aufgaben wie eine Internetrecherche, diese Informationsquellen besser verknüpfen und auswerten zu können.
Ralf Schweiger, Simon Hölzer