zum Hauptinhalt

SEMANTISCHES WEB: Der Mensch ist zurück an der Maschine

Das Web wird voller und schneller. Die Suchmaschinen setzen verstärkt auf natürliche Intelligenz

Von Anna Sauerbrey

Nachrichten vom Suchmaschinenmarkt waren 2009 eng getaktet. Kaum ein Monat verging, ohne dass neue Produkte und Projekte angekündigt wurden. Google startete unter anderem eine Musiksuche und nahm „Goggles“ in Betrieb, eine visuelle Suche, die Informationen zu einem mit der Handykamera aufgenommenen Bild liefert. Auch Bing schlief nicht und startete seine Twitter-Suche einige Wochen, bevor Google damit auf den Markt kam. Für dieses Jahr sind weitere Neuheiten zu erwarten. Das liegt zum einen am neuen Konkurrenzdruck. Die im Juni 2009 gestartete Microsoft-Suchmaschine Bing spielt zwar in Europa noch keine Rolle, hat aber in den USA bereits zehn Prozent Marktanteil ergattert. Das eifrige Entwickeln ist aber auch ein Zeichen dafür, dass die Suchriesen sich an das wandelnde Web anpassen. Denn das Netz wächst und wird immer schneller.

Neue Ansätze sind zuerst in der Relevanzbewertung nötig. Für die Rechenleistung der Server ist die Datenmenge des schier endlosen World Wide Webs kein Problem, wohl aber für den Nutzer, dessen Anfragen mit Tausenden oder Millionen von Treffern beantwortet werden. Der Suchmaschinenexperte Nova Spivack benutzt ein Bild aus der Rundfunktechnik, um das Problem zu beschreiben: „Es gibt sehr viele Hintergrundgeräusche. Die Aufgabe einer guten Suchmaschine ist es, da das Signal herauszufiltern.“

Unter Entwicklern setzt sich daher zunehmend die Erkenntnis durch, dass das Sortieren der Informationen nicht mehr allein von Algorithmen geleistet werden kann. „Die technologischen Möglichkeiten sind endlich“, sagt etwa Nelson Mattos, Vice President Engineering bei Google. Vermehrt wird deshalb auf das sogenannte „semantische Web“ gesetzt. Im semantischen Web sollen Informationen so aufbereitet werden, dass Computer ihre Bedeutung erkennen und sie damit sinnvoll sortieren oder miteinander verknüpfen können. Dafür müssen die Daten „strukturiert“ sein. Das heißt, dass Menschen Wörter oder Websites mit zusätzlichen Informationen versehen, die der Maschine Hinweise auf ihre Bedeutung geben oder nachgeordnete Informationen enthalten. Während herkömmliche Algorithmen bei der Suche nach „Golf“ Seiten finden, auf denen das Wort häufig vorkommt oder die oft mit ähnlichen Seiten verlinkt sind, würde bei Seiten mit strukturierten Daten deutlich, ob es sich um den Golfsport handelt, um das Auto oder um die geographische Angabe.

Microsoft hat seine Verkaufsstrategie bereits an das Problem der Informationsflut angepasst. Eine „Entscheidungsmaschine“ sei die Suchmaschine Bing, sagt Stefan Weitz, Search Director bei Microsoft. Die interessantesten Angebote der US-Version von Bing basieren bereits auf „strukturierten“ Daten. Wer etwa nach dem Wort „Digitalkamera“ sucht, bekommt eine Liste mit Eigenschaften, Preisen und aggregierten Bewertungen von Rezensionsportalen.

Auch Google testet eine vergleichbare Suche zurzeit auf „Google Labs“. „Squared“ heißt die Funktion. Gibt man das Wort „dog“ ein, erhält man eine Tabelle mit Hunderassen und ihren Eigenschaften. Auch über die Google-Funktionsleiste lassen sich Suchantworten strukturieren. Man kann sich etwa eine Grafik mit verwandten Suchanfragen anzeigen lassen oder eine Zeitleiste zu dem Suchbegriff.

Für diese Art der Datenaufbereitung ist menschliche Intelligenz gefragt. Die Daten müssen teilweise von Hand aufbereitet werden, das kostet Geld. Microsoft setzt auf Outsourcing und hat bereits im November eine Kooperation mit Wolfram Alpha, der semantischen Suchmaschine des Mathematikers Stephen Wolfram, begründet. Einen anderen Weg testete Nova Spivack mit seinem kalifornischen Unternehmen Radar Networks. Mit dem Portal „Twine“ setzte er darauf, dass die Nutzer die Informationen selbst ordnen. Twine, das keine Suchmaschine im engeren Sinne ist, sondern eine Art interaktives Stichwortverzeichnis, sollte von einer registrierten Community gepflegt werden, die die Themencluster mit Links und Bildern weiterentwickelt. Profitabel wurde Twine aber nie. Anfang dieses Jahres soll es daher durch den Nachfolger „T2“ ersetzt werden, eine Suchmaschine, die auf das Auslesen des semantischen Webs spezialisiert ist. Spivack hofft, dass T2 ebenfalls in eine der großen Suchmaschinen integriert wird.

Der zweite Wandlungsprozess im Web, an den sich die Suchriesen anpassen müssen, heißt Geschwindigkeit. „Das Netz ist schneller geworden“, sagt Nelson Mattos. Das regelmäßige vorsorgliche Absuchen von Seiten, wie es Suchmaschinen zurzeit betreiben um die Abfragezeit für den Nutzer zu verkürzen, reiche in Zeiten der ständig aktualisierten Informationsflut in sozialen Netzwerken nicht mehr aus. Google hat bereits reagiert und Verträge mit Facebook und Twitter geschlossen. Auch Bing hat schon einen Deal mit Facebook, durchsucht aber bislang nur Twitter.

Das Problem mit der „Echtzeitsuche“ ist für die Suchmaschinen bislang, dass viele Informationen in den sozialen Netzwerken zwar im Web sind, aber nicht öffentlich. Mit dem erwachten Interesse der Suchmaschinen steigt der Druck auf die Netzwerke, die wertvollen Daten zur Verfügung zu stellen. Für die Betreiber von Facebook und Co sind die Einnahmen aus den Verträgen mit Google und Bing lukrative Geschäfte. Twitter etwa strich nach Informationen des Wirtschaftsdienstes Bloomberg 25 Millionen Dollar von Google und Bing ein und wurde damit erstmals in der Unternehmensgeschichte profitabel. Kurz nachdem Google seinen Deal mit Facebook öffentlich machte, bat Facebook seine Nutzer, neue Privatsphäreneinstellungen zu übernehmen. Voreingestellt war ein großzügiger Umgang mit den eigenen Informationen. Familienstand, beruflicher Werdegang und alle Einträge wären sichtbar. Auch hier wird im nächsten Jahr also die menschliche Intelligenz besonders gefragt sein. Facebook-Gründer Mark Zuckerberg hat damit jedenfalls keine Probleme: „Die sozialen Normen haben sich in der Zeit weiterentwickelt“, rechtfertigt er die neuen Einstellungen.

Zur Startseite

showPaywall:
false
isSubscriber:
false
isPaid:
showPaywallPiano:
false