Forschung : Wie Google Books Trends aufdeckt

Dank Google Books kann man jetzt verborgene Trends in Geschichte, Kultur und Sprache online entdecken. Forscher der amerikanischen Harvard-Universität wollen in den Daten das "Erbgut" der Kultur entdeckt haben.

von
Die Grafik zeigt die häufigsten Wörter in zeitgenössischen englischsprachigen Büchern. Je häufiger ein Wort vorkommt, desto größer ist es geschrieben. Foto: wordle.org
Die Grafik zeigt die häufigsten Wörter in zeitgenössischen englischsprachigen Büchern. Je häufiger ein Wort vorkommt, desto größer...

Was, wenn jemand alle Bücher lesen könnte, die jemals geschrieben wurden? Was für ein Bild der Welt würde er bekommen? Und wie würde es sich im Laufe der Zeit wandeln? Wie haben sich Wortwahl, Grammatik, Ernährung, Kultur verändert? Genau das haben Forscher der Universität Harvard in Zusammenarbeit mit Google Books vier Jahre lang zu beantworten versucht.

Es hat zwar kein Mensch der Welt genug Zeit, um auch nur alle Bücher eines Jahrgangs zu lesen, aber mit der zunehmenden Digitalisierung von Büchern werden die Informationen von den Buchseiten gelöst und in eine computerverständliche Sprache übersetzt. Nicht alle etwa 129 Millionen Bücher, die jemals geschrieben wurden, sind digital verfügbar. Aber immerhin 15 Millionen Bücher will Internetgigant Google inzwischen in Universitätsbibliotheken rund um die Welt eingescannt haben.

Daraus wählte ein Team um den Wissenschaftler Erez Lieberman Aiden fast 5,2 Millionen Bücher aus, deren Text in guter Qualität vorlag und für die auch Metadaten verfügbar waren, also Angaben über Ort und Zeitpunkt der Publikation. Die Bücher gehen zurück bis ins 16. Jahrhundert und die Datenmenge ist wahrhaft astronomisch: 500 Milliarden Wörter, darunter 361 Milliarden in Englisch und 37 Milliarden in Deutsch. In einer geraden Linie würden sie zehnmal zum Mond und zurück reichen.

Indem die Forscher aus dieser Datenflut herausfiltern, wie häufig ein bestimmtes Wort in jedem Jahr auftaucht, können sie kulturelle und historische Trends herauslesen. Sie zeigen zum Beispiel, dass in englischen Büchern der Gebrauch des Wortes „Männer“ in den vergangenen 200 Jahren kontinuierlich abgenommen hat und der Gebrauch von „Frauen“ zugenommen hat. Die Häufigkeitsverteilung des Wortes „Influenza“ stimmt mit den großen Pandemien überein. Und das Wort „Gott“ wird seit 1850 immer seltener erwähnt. „Gott ist nicht tot, aber er benötigt einen neuen Publizisten“, schreiben die Wissenschaftler. Die Untersuchung endet allerdings im Jahr 2000. Ob die Erwähnung von Gott nach den Terroranschlägen im September 2001 wieder zugenommen hat, können die Forscher daher nicht beantworten. Sogar die Essgewohnheiten haben die Wissenschaftler untersucht. Demnach hat das Wort Eiscreme um 1950 seinen größten Erfolg gefeiert, Pasta und Pizza tauchen im Englischen erst danach auf und Sushi erst im letzten Viertel des Jahrhunderts.

Die Forscher sind ehrgeizig. Nichts weniger als ein neues Feld wollen sie schaffen: die Kulturomik, die quantitative Analyse menschlicher Kultur. „Bisher sind quantitative Herangehensweisen an die Erforschung von Kultur daran gescheitert, dass es keine geeigneten Daten gab“, sagt Jean-Baptiste Michel, einer der beteiligten Forscher. Das habe sich nun geändert. Und Jon Orwant von Google Books freut sich: „Jetzt ist es möglich, mit einer computergestützten Analyse verborgene Trends in Geschichte, Kultur, Sprache und Denken zu entdecken.“ Vorbild sind die Biologen, die im Feld der Genomik das Erbgut hunderter Individuen entziffern, um Unterschiede und Gemeinsamkeiten zu verstehen und den Grundlagen der menschlichen Biologie auf die Schliche zu kommen. Nun wollen die Wissenschaftler das Erbgut der menschlichen Kultur genauso in Daten fassen, eine Art Humangenomprojekt der Geisteswissenschaften.

„Das ist eine hervorragende Arbeit, die unseren Erkenntnisstand in einer Reihe von Punkten bereichert“, lobt Wolfgang Klein, Direktor des Max-Planck-Instituts für Psycholinguistik im niederländischen Nijmegen. So haben die Wissenschaftler auch die Größe des englischen Wortschatzes errechnet: 1900 gab es etwa 544 000 englische Wörter, im Jahr 2000 waren es 1 022 000. „Das überrascht sicher viele, weil immer behauptet wird, die Sprache werde ärmer und die Ausdrucksfähigkeit sinke. Aber das stimmt eben nicht“, sagt Klein. Seine eigene Arbeit am deutschen digitalen Wörterbuch zeige für das Deutsche, was die Arbeit aus Harvard für die englische Sprache zeige: „Wir verlieren sehr wenige Wörter und gewinnen sehr viele dazu.“ Und viele Neuzugänge haben ihren Weg noch nicht in die gängigen Wörterbücher gefunden. Mehr als die Hälfte aller englischen Wörter, die die Forscher fanden, sind lexikalische „dunkle Materie“.

Mithilfe der Daten lassen sich aber auch ganz andere Fragen beantworten. So haben die Wissenschaftler auch untersucht, wie sich die Erwähnung von berühmten Menschen mit der Zeit ändert. Ihr Ergebnis: Das Durchschnittsalter, in dem eine Person den Höhepunkt ihres Ruhmes erreicht, hat sich seit 1800 kaum geändert. Er wird mit etwa 75 Jahren erreicht. Das Alter, wenn Menschen erstmals berühmt werden, ist allerdings von 43 auf 29 Jahre gefallen, und die Berühmtheit steigt schneller an und erreicht ein höheres Maß. „Menschen werden heute berühmter als jemals zuvor, aber sie werden auch schneller vergessen“, resümieren die Wissenschaftler.

Die deutschen Bücher nutzten die Forscher vor allem, um zu zeigen, dass Zensur und Propaganda in der digitalen Bibliothek gut nachweisbar sind. So taucht der Name Marc Chagall (dessen Werke die Nazis als „entartete Kunst“ unterdrückten) zwischen 1936 und 1944 nur ein einziges Mal in den deutschen Werken auf. Im englischsprachigen Korpus verfünffachte sich seine Erwähnung in der gleichen Zeit.

Literaturforscher Wolfgang Klein glaubt, dass die Daten ein wertvolles Werkzeug auch für deutsche Forscher sind. „Damit können Germanisten herausfinden, wo es spannende Entwicklungen gibt, Fragen, die es sich lohnt, näher zu erforschen. Wie Geologen, die entscheiden, wo es sich lohnt, nach Öl zu bohren.“ Er glaubt aber nicht, dass die Daten von deutschen Forschern bald genutzt werden. „In Deutschland spielen quantitative Daten zum Beispiel in den Literaturwissenschaften immer noch eine viel zu kleine Rolle“, sagt Klein. Das sei in den USA und England aber auch nicht anders.

Kein Wunder also, dass die Veröffentlichung in „Science“ eher von Außenseitern geschrieben wurde. Die Autorenliste liest sich wie ein Who-is-Who der Harvard-Universität, aber multidisziplinärer geht es kaum. So ist Erez Lieberman Aiden ein Mathematiker, der sich vor allem mit der computergestützten Erforschung der Evolution einen Namen gemacht hat. Ihm standen Autoren von verschiedensten Instituten zur Seite: Systembiologen, Mathematiker, Computerwissenschaftenler und Sozialwissenschaftler. Auch der bekannte Linguist und Psychologe Steven Pinker findet sich unter den Autoren.

„Man muss aber auch die klaren Schwächen sehen“, sagt Klein. So sei das Einscannen von Texten nach wie vor fehleranfällig. „Gerade die deutschen Texte vor 1900 sind meist in Fraktur geschrieben und die werden von den Erkennungsprogrammen grotesk entstellt“, sagt er. Bis zu 30 Prozent der Wörter seien fehlerhaft. Außerdem sei es für eine wirkliche sprachliche Analyse wichtig, dass der Text annotiert sei, also zu jedem Wort auch die Information vorhanden sei, ob es sich zum Beispiel um ein Verb oder um ein Nomen handelt. „Gerade im Englischen, wo fast jedes Verb auch als Nomen verwendet werden kann, reduziert das sonst den Wert für sprachwissenschaftliche Analysen“, sagt Klein.

Luciano Floridi, Unesco-Professor für Informations- und Computerethik an der Universität Hertfordshire, hält die Herangehensweise für ein mächtiges Werkzeug, um Hypothesen über Geschichte oder Kultur zu überprüfen. Statt von „Kulturomik“ spricht er aber lieber von „Ideometrie“, der Vermessung von Ideen. Floridi selbst hat den Begriff 1995 eingeführt. „Die wirkliche Herausforderung wird es allerdings sein, intelligente und fruchtbare Fragen zu stellen“, sagt er. „Der Rest ist nur Unterhaltung.“ Dann werde Wissbegier zu reiner Neugier. „Die Schwierigkeit wird immer weniger darin liegen, so eine Datenbank aufzubauen und immer mehr darin, zu wissen, wie man sie intelligent nutzen kann, um unser Verständnis der Welt zu vergrößern.“ Nicht alle sind derart begeistert von den Forschungsergebnissen. So nennt der Linguist Geoffrey Nunberg von der Universität Berkeley die meisten Analysen „beinahe peinlich ungenau“.

Die Chefetage von Google dürfte es allerdings gefreut haben, als Erez Lieberman Aiden im Frühjahr 2007 in der Firmenzentrale im kalifornischen Mountain View vorsprach und das Projekt vorschlug. Für den Internetgiganten ist es vor allem eine Möglichkeit, Google Books in einem positiven Licht erscheinen zu lassen. Bisher machte das umstrittene Projekt, in dem alle Bücher der Welt digitalisiert werden sollen, vor allem mit Urheberrechtsstreitereien und Gerichtsverfahren Schlagzeilen. Da kommt eine Forschungsarbeit in Zusammenarbeit mit der altehrwürdigen Harvard-Universität gerade recht.

Pünktlich zur Veröffentlichung soll auch die Internetseite www.culturomics.org online gehen. Sie macht den Korpus aus 500 Milliarden Wörtern Nutzern aus aller Welt zugänglich. Wer ein Wort in die Suchmaske eingibt, erhält als Ergebnis eine Grafik, die die Häufigkeit des Wortes im Laufe der Jahre anzeigt.

Wer sucht, kann allerdings auch gefunden werden. Schließlich speichert Google die Suchanfragen. „Google schneidet zwar nach neun Monaten die IP-Adresse ab, aber das heißt nicht, dass die Suchanfragen nicht mehr einer Person zugeordnet werden können“, warnt Peter Schaar, der Bundesbeauftragte für Datenschutz. Jeder Suchende wird also selbst ein Datenpunkt. Und welche Fragen mit diesen Daten dann eines Tages beantwortet werden sollen, das weiß niemand so genau.

Autor

3 Kommentare

Neuester Kommentar
      Kommentar schreiben