Zeitung Heute : Gegen das Vergessen

Der Tagesspiegel

Von Niko Deussen

Das Internet leidet an Gedächtnisschwund. Laufend geben Websites ihren Geist auf. Allerdings, auf anderen Seiten existieren meist noch Verbindungshinweise (Hyperlinks) auf sie. Beim Anklicken läuft der Nutzer jedoch ins Leere. Die Links sind taub. Von seiner vergeblichen Suche kehrt der Browser nach ein paar Sekunden mit der fiesen Nachricht zurück: „Error 404. File not found." Manchmal blinkt auch ein neckisches „Oooops…“ vom Monitor.

Wie viele Websites derzeit den Cyberspace aufspannen, weiß niemand genau – vermutlich strebt die Zahl rasant gegen drei Milliarden. Experten schätzen, dass jeden Tag 1,5 Millionen neue Homepages ans Netz gehen. Doch bereits eine Woche nach dem Start sind 15 000 der Web-Frischlinge schon wieder sang- und klanglos von der Bildfläche verschwunden. Aber auch den andern ist meist kein langes Leben beschieden: im Durchschnitt ist eine Seite 75 Tage erreichbar. Dann wird sie von einer Nachfolgerin abgelöst – im günstigsten Fall mit identischer Internetadresse. Oft jedoch verwaisen die Websites oder entschwinden auf Nimmerwiedersehen aus dem Klick-Imperium.

Kürzlich fanden John Markwell und David Brook von der University of Nebraska in Licoln, USA, heraus, dass die Linkstruktur im Web ein Halbwertzeit von nur 55 Monaten hat: in dieser Frist wird die Hälfte der Hyperlinks unbrauchbar. Statt eines globalen Wissensspeichers ist das Internet längst zum schnelllebigen Medium mit einem flüchtigen Kurzzeitgedächtnis geworden.

Mitte der neunziger Jahre begann der amerikanische Internet-Pionier Brewster Kahle mit dem Sammeln von Websites, um dem modernsten der Kommunikationsmedien ein virtuelles Langzeitgedächtnis zu verschaffen. Zusammen mit einigen Unternehmern gründete er 1996 das Internet-Archiv ( www.archive.org ). „Das Archiv gibt einen Einblick in die Ursprünge und Entwicklung des Internet“, so Kahle, „sowie ein Spiegelbild unserer Gesellschaft als Ganzes am Ende eines Jahrtausends." Neuerdings dürfen auch private Nutzer im virtuellen Web-Museum herumstöbern: einfach „WaybackMachine“ in die Adressleiste des Browser tippen.

Für seine Archivierungen wertet das Team um den kalifornischen Informatiker die Datensammlungen einer Suchmaschine aus. Schon 1989 ersann Kahle, Spezialist für „data mining“, dem Schürfen in digitalen Datenbergen, Suchtechniken für das schnell wachsende Internet. Zusammen mit Bruce Gilliat entwickelte er schließlich das Suchprogramm Alexa ( www.alexa.com ), das sich nicht darauf beschränkt, schier endlose Fundlisten zu präsentieren. Die Software unterstützt vielmehr den Surfer mit eigenen Vorschlägen zur besseren Informationsgewinnung.

Suchdienste arbeiten prinzipiell alle nach demselben Schema. Ihre Web-Agenten hangeln sich unablässig durch das Netz. Sie starten bei einer beliebigen Einstiegsadresse und speichern die Seite auf dem eigenen Server. Anschließend werden alle darauf aufgeführten Links systematisch abgearbeitet. Auch von diesen Homepages werden Kopien in den Datenspeicher des Heimatrechners verfrachtet. Die einzelnen Seiten werden zudem bestimmten Schlagwörtern zugeordnet. Dem virtuellen Sammeltrieb sind allerdings Grenzen gesetzt. Zu Seiten mit Passwortschutz können die Roboter erst gar nicht vordringen. Zudem durchforsten selbst Meta-Suchmaschinen, die mehrere Suchdienste gleichzeitig nutzen, gerade einmal ein Drittel des weltweiten Netzes. Dennoch ist das Ergebnis eine riesige, allerdings dauernden Änderungen unterworfene Datenbank, die Anfragen aus dem Stand beantwortet.

Die Internet-Archivare machen etwa alle zwei Monate vom aktuellen Alexa-Archiv eine Momentaufnahme. Von jedem Dokument, das gerade in der Datenbank schlummert, wird eine Dublette gezogen. Gelagert werden die Safes in mehreren Großrechnern, die auf ihren Festplatten jeweils über 300 Gigabyte (300 Milliarden Byte) an Daten mit den Betriebssystemen Linux oder freeBSD verwalten.

Inzwischen haben sich gewaltige Datenberge angesammelt. „Heute besitzt das Internet-Archiv über zehn Milliarden Websites, die sonst verloren gegangen wären“, begeistert sich Brewster Kahle. Gesamtvolumen des digitalen Großgedächtnisses: über 100 Terabyte (hunderttausend Milliarden Byte, eine Eins mit 14 Nullen). Das entspricht einem Stapel von ungefähr 1,5 Millionen CDs. Nach jedem Schnappschuss wächst die Sammlung um weitere zwölf Terabyte. Damit ist das Internet-Archiv derzeit die umfangreichste Datenbank der Welt.

Zu herausragenden Ereignissen legt das Non-Profit-Projekt aus San Francisco außerdem Sondersammlungen an. Allein zu den Anschlägen vom 11. September trug das Inter-Museum 500 Millionen Websites zusammen. Die US-Wahl 2000 hielt es in 200 Millionen Homepages fest, darunter auch die digitalen Selbstanpreisungen der Bewerber auf den Präsidentenjob. Bereits 1998 schenkte Kahle der amerikanischen Kongressbibliothek einen Schnappschuss des Jahresanfangs 1997. „Wir wollten beweisen, dass das Internet erwachsen geworden ist und wir etwas Sinnvolles tun“, ließ der MIT-Absolvent verlauten. Größe des Geschenks: zwei Terabyte. „Eine der bedeutendsten Sammlungen von Gedanken und Ausdrucksformen, die aus einem neuen Medium hervorgegangen sind“, kommentierte die Bibliothek den Zuwachs an digitalem Kulturgut.

Die Zahl der Konzerne und Forschungseinrichtungen, die ihre Websites und deren Änderungen im Internet-Archiv gezielt dokumentieren, wächst ständig. Inzwischen können auch private Anwender ihre Seiten archivieren lassen, falls sie nicht schon erfasst sind.

Die Suche in der digitalen Vergangenheit ist simpel. Nach dem Aufruf erscheint eine Suchmaske, in die – wie üblich – einfach der Domain-Name eingegeben wird. Wird das Archiv fündig, präsentiert es eine zeitlich geordnete Liste der Museumskopien. Die aufgeführten Daten sind die Links zu den Altbeständen. Manchmal fehlen den aufgerufenen Seiten allerdings Grafiken oder Banner, manchmal funktioniert auch die zeitliche Zuordnung nicht so richtig.

Ärgerlich für Web-Archäologen ist aber, dass – wie gehabt – hinter manchen Links die Antwort lauert: „Not in Archive.“ Die Gründe dafür sind indes nicht unbedingt den Betreibern anzulasten. Denn jeder Eigner einer Homepage kann verlangen, dass seine Seiten wieder aus dem Archiv entfernt werden. Trotz dieser Mängel besitzt das Internet-Archiv eine historische Qualität. Schließlich handelt es sich um den ersten umfassenden Versuch, professionelle und populäre Online-Publikationen unabhängig von ihrer Bedeutungsschwere dauerhaft für die Nachwelt zu konservieren.

Vorbild für Brewster Kahle ist die große Bibliothek von Alexandria. In den weitläufigen Hallen der ägyptischen Stadt soll einst alles Wissen der antiken Welt verwahrt worden sein. Allerdings, der gesamte Bestand von rund 700 000 Papyrus-Rollen ging 47 vor Christi in Flammen auf und wurde restlos vernichtet. Doch auch ohne ein vergleichbares Desaster steht die Beständigkeit des Internet-Archivs in Frage. Denn digitale Datenträger sind nicht für die Ewigkeit geschaffen.

Am längsten lassen sich Bits und Bytes noch auf CD-ROM lagern, schätzungsweise hundert Jahre. Doch gibt es dann noch Geräte, mit denen sich die Daten auslesen lassen? Zurzeit jedoch macht den Cyber-Archivaren das rasante Wachstum der Datenmenge Kopfzerbrechen: „Wenn die Leute immer mehr Videos ins Internet geben“, befürchtet Brewster Kahle, „haben wir keine Chance mehr."

Das Verzeichnis im Netz:

www.archive.org

Hintergründe und Expertisen zu aktuellen Diskussionen: Tagesspiegel Causa, das Debattenmagazin des Tagesspiegels.

Hier geht es zu Tagesspiegel Causa!

0 Kommentare

Neuester Kommentar
      Kommentar schreiben