Semantic Web - das Web als künstliche Intelligenz?

In der Science-Fiction-Literatur ist das Suchen von Informationen ganz einfach: Ein Mensch gibt in seinen Computer eine Frage ein. Der Rechner blinkt und piepst ein wenig und liefert dann eine exakte Antwort. Die Realität ist heute etwas nüchterner: Wer heute Dinge im Internet sucht, muss sich trotz Fortschritten in den letzten Jahren oft den Weg durch einen wahren Dschungel der Suchergebnisse bahnen - besonders, wenn die Anfragen etwas komplexer sind. Doch die semantische Suche verspricht Abhilfe - auch ohne Blinken und Piepsen. Und: ohne künstliche Intelligenz - die Technologie basiert auf herkömmlicher Datenbank-Technik.

Das Semantic Web oder Semantische Web umfasst als Schlagwort eine Reihe von Techniken, die Inhalte von Websites und Webservices mit Hilfe von formaler Semantik, also logischen Beziehungen, zu strukturieren. So können die Daten von Computerprogrammen problemlos verarbeitet werden und der Nutzer profitiert von "intelligenteren" Diensten. Dazu gehört die "Semantische Suche": Suchmaschinen, die nicht nur nach Wörtern, sondern auch nach Bedeutungen suchen können.

Was ist damit gemeint? Viele Websites enthalten heute hauptsächlich Texte in natürlicher Sprache, die von Menschen verstanden werden, von Software jedoch nur sehr schwer interpretiert werden können. Die menschliche Sprache ist voll von Doppeldeutigkeiten und anderen Komplikationen. So ist es bis heute trotz eines halben Jahrhunderts Forschung ein Wunschtraum geblieben, Texte wirklich brauchbar per Computer zu übersetzen.

Auch Suchmaschinen haben mit dieser Schwierigkeit zu kämpfen. So investieren Firmen wie Google Milliarden in Algorithmen, die aus den Texten brauchbare Suchergebnisse extrahieren. Umgekehrt versuchen sich die Websitebetreiber durch SEO an diese Algorithmen anzupassen und auf den Ergebnisseiten so ganz vorne zu landen.

Der Clou beim Semantic Web besteht nun darin, schon auf der Website selbst Angaben über die Bedeutung zu machen. So kann bei jedem Wort markiert werden, um welche "Art von Ding" es sich handelt, sowie welche Beziehungen es zu anderen Worten sowie Daten (etwa Zahlen oder andere Werte) hat. So wird aus dem Semantic Web ein Netzwerk von logischen Beziehungen zwischen Begriffen.

Klingt kompliziert? Im nächsten Abschnitt gibt es ein konkretes Beispiel.

Das Semantic Web als Grafik - Das Bild stellt die Beziehungen zwischen Dateien und Websites dar

Ein Beispiel: Die Suche nach günstigen Flügen

Wir werden nun genau betrachten, wie diese sich auf eine alltägliche Suchsituation auswirken kann.

Bei einfachen Suchanfragen, etwa "Flüge von Frankfurt nach New York" sind durch die aktuelle Suchtechnik brauchbare Ergebnisse zu erzielen. Man bekommt tatsächlich eine Liste präsentiert, die aktuelle Flugangebote beinhaltet.

Man stelle sich aber eine nur wenig komplexere Suchanfrage vor, die eine eindeutige Antwort erwartet: "günstigster Flug von Frankfurt nach New York" (der Leser möge es selbst nachprüfen). Hier kann eine traditionelle Suchmaschine zwar alle Seiten auflisten, die "günstigster", "Flug", "Frankfurt" und "New York" enthalten, doch wäre höchstens durch Zufall der erste Treffer tatsächlich die Antwort auf die Frage.

Semantic-Web-Technologien ermöglichen es, diese Probleme zu lösen, indem der Website-Betreiber für bestimmte Worte eine Bedeutung angeben kann, die formal eindeutig definiert ist und dadurch durch einen Computer ausgewertet werden kann.

Mögliche Annotationen eines Flugangebots

So kann ein Anbieter von Flügen seine Flüge als solche markieren. Ebenfalls kann er festlegen, dass ein Flug einen bestimmten Preis hat, also beispielsweise das Flugangebot "Frankfurt-New York Lufthansa Economy Class" mit dem Preis "499 €" in Verbindung setzen. Dies geschieht mit Techniken wie Mikroformaten, HTML5 Microdata und RDF. Dazu wird das jeweils beschriebene Wort einfach in einen kleinen Schnipsel Code eingebettet, das angibt, um was es sich handelt, und in welcher Beziehung es zu einem anderen Wort oder einer Zahl steht. Diese Markierungen nennt man semantische Annotationen.

Mit HTML5 Microdata, einer der Semantic-Web-Techniken, kann der Anbieter nun mit itemtype sein Angebot einem Typ zuordnen und mit itemprop die Eigenschaften bestimmen. So kann er einfach seinen Flug mit dem Schnipsel itemtype="flugangebot" als Flugangebot markieren. Desgleichen kann er den Preis in den Code itemprop="preis" einbetten, um zu signalisieren, dass dies der Preis des Fluges ist. Weiterhin kann er Frankfurt mit itemprop="start" als Startpunkt und New York mit itemprop="ziel" als Ziel deklarieren.

Was macht nun eine "semantische Suchmaschine"? Sie sucht gezielt nach diesen Code-Schnipseln, und zwar nach denen, die am besten zur Suchanfrage passen. In unserem Fall sucht sie also alle Seiten, die itemtype="flugangebot"itemprop="preis" sowie entsprechende Annotationen für itemprop="start" verbunden mit "Frankfurt" sowie itemprop="ziel" verbunden mit "New York" enthalten. Anders als bei traditionellen Suchmaschinen werden andere Vorkommen von "Frankfurt" und "New York" ignoriert.

Dann muss die Suchmaschine aber auch verstehen, wie sie das Ergebnis verarbeiten soll. Sie muss also in unserem Fall wissen, dass die Anfrage "günstigster" den niedrigsten Preis suchen soll, was programmiertechnisch nicht allzu schwer ist - aber man muss es dem Programm beibringen. Sie vergleicht dann alle (zu dieser Zeit veröffentlichten) mit itemprop="preis" markierten Preise für Flüge zwischen Frankfurt und New York und kann so den günstigsten Preis heraussuchen.

(Anmerkung: Die hier angegebenen Microdata-Annotationen existieren in dieser Form nicht, es gibt heute allerdings immerhin standardisierte Codes für Produkte und Preise. Zum einfacheren Verständnis wurden  deutsche Namen angegeben - in der Realität sind sie derzeit fast ausnahmslos englisch..)

Die Gegenwart: Semantische Produktsuche, Schema.org und Ontologien

Für einfache Dinge wie Produkte oder Adressen von Unternehmen, die sich leicht markieren lassen, sind heute Semantic-Web-Technologien schon weit verbreitet. Bereits 2009 begann Google, mit "Rich Snippets" Mikroformat-Daten zu erkennen, hauptsächlich von Produktbeschreibungen - die nötigen Mikroformate sind heute in alle großen Shopsysteme standardmäßig integriert. Mikroformate bestehen aus einem kleinen Satz von Begriffen, die einem Wort oder einer Zahl eine festgelegte Bedeutung zuweisen, wie wir bereits beim Beispiel mit den Flügen gesehen haben. Diese Mengen von Begriffen nennt man Vokabulare.

Im Juni 2011 ging man einen Schritt weiter und erweiterte den verstandenen "Wortschatz" auf komplexere Dinge wie Filmbewertungen, Beschreibungen von Sehenswürdigkeiten sowie detaillierte Daten von Unternehmen, Vereinen und anderen Organisationen. Dazu verbündete sich Google mit Microsoft und Yahoo, um einen einheitliches Vokabular zu definieren, das auf der Website schema.org beschrieben wird. Dabei wird die Microdata-Technik verwendet, die Teil des HTML5-Standards ist und mehr Freiheit als die doch sehr eingeschränkten Mikroformate bietet.

Um die einzelnen Vokabulare zusammenzufügen und in ein großes Ganzes einzugliedern, kann man sogenannte Ontologien definieren. Dazu gibt es spezielle übergeordnete Vokabulare, wie RDF Schema und OWL. Mit OWL kann beispielsweise dargestellt werden, dass ein Flug eine Art des Transports ist, der in der Luft stattfindet. Derartige Ontologien sind bisher hauptsächlich in der Wissenschaft verbreitet.

Noch werden semantische Techniken außerhalb von Shop-Systemen und Web-Datenbanken sowie wissenschaftlichen und medizinischen Webdiensten nur selten verwendet. Auch im Bereich der reinen semantischen Suchmaschinen sind bisher nur bescheidene Erfolge erzielt worden. Die bekannteste dieser Suchmaschinen ist Wolfram Alpha, die aber bisher nur auf Englisch und nur in einigen Spezialgebieten gute Ergebnisse liefert. Google hat mit dem "Google Knowledge Graph" 2012 schrittweise ein ähnliches Angebot eingeführt, das als Quellen etwa die Wissensdatenbank Freebase und die Daten der Wikipedia verwendet. Aber auch der Marktführer bei den Suchmaschinen kann noch nicht einmal alles, was im Schema.org-Standard definiert wurde, sinnvoll darstellen - von OWL ganz zu schweigen.

Doch Googles Entscheidung, mit Schema.org und besonders dem "Google Knowledge Graph" vermehrt auf die Semantische Suche zu setzen, könnte in diesem Bereich einen Boom auslösen. Denn semantische Annotationen, die Google versteht, können sich bald zu einem Wettbewerbsvorteil für die Web-Angebote entwickeln. Womöglich strafen die Suchmaschinen bald sogar die Seiten ab, die keine Annotationen bieten.

Die Zukunft: Intelligente Assistenten

Was wären die Folgen, wenn nun alle Websites solche semantischen Techniken verwenden würden?

Das Web könnte zu einer riesigen Datenbank zusammenwachsen, in der man intelligent suchen kann, und zwar so genau, dass sich die Suche automatisieren ließe. Wir sind also von den in der Science-Fiction-Literatur angekündigten Assistenten nicht mehr weit entfernt. Diese könnten uns eine Menge Arbeit bei der Recherche abnehmen... und vielleicht sogar, um bei unserem Beispiel zu bleiben, nicht nur einen Flug suchen, sondern ihn auch gleich buchen. Das setzt natürlich voraus, dass die Technologien so robust sind, dass man nicht in die Fänge von Betrügern gerät.

Geht die Entwicklung so weiter, so haben wir bald vielleicht ein ganz neues Verhältnis zum Web: Nicht Websites sind dann die wichtigen Einheiten, sondern Daten und Bedeutungen. Wir werden also nicht die Suchmaschine anwerfen, um Seiten zu finden, sondern um gleich die Antworten geliefert zu bekommen. Eine semantische Suchmaschine könnte sogar ins Betriebssystem integriert werden und uns dann unsere Antworten ohne Werbung und andere Ablenkungen liefern. Ob Google, das ja ins Semantic Web durchstarten will, das so gut finden wird?

Allerdings muss man sich vor Augen halten, dass es traditionelle Websites auch in Zukunft geben wird, beispielsweise Onlinemagazine und alle Texte, die in erster Linie zum Lesen geschrieben sind. Einzelne Wörter könnten dort zwar semantisch markiert werden, um von semantischen Suchmaschinen gefunden zu werden. Aber wir müssten immer noch auf die Seiten selbst gehen, um sie zu lesen. Es ändert sich also nicht alles. Aber vielleicht wird einiges einfacher.

Laden ...
Fehler!