zum Hauptinhalt

Forschung am Hasso-Plattner-Institut: Gegen Hass im Internet

Am Hasso-Plattner-Institut wird an einer Software gearbeitet, die Hasspropaganda im Netz analysieren soll. Somit lassen sich Hass-Kommentare schneller finden und löschen.

Stand:

Potsdamer IT-Experten arbeiten an einem System, das die Auswertung von Texten und Filmen im Internet vereinfachen und beschleunigen soll. So könnte beispielsweise Hasspropaganda in den Sozialen Medien zügig erkannt und gegebenenfalls gelöscht werden. Die Wissenschaftler des Hasso-Plattner- Instituts (HPI) am Griebnitzsee setzen bei den semantischen Suchverfahren auf Erfahrungen aus der aktuellen Big-Data- Forschung.

Letztlich seien Hasskommentare eine negative Produktbewertung, stellt HPI-Experte Ralf Krestel fest. Nicht erst seitdem in Europa immer mehr Flüchtlinge ankommen, mehren sich in sozialen Netzwerken Äußerungen, die strafrechtliche Grenzen überschreiten. Wo die Abgrenzung zwischen einer erregten Meinungsäußerung und juristisch relevanter Volksverhetzung verläuft, ist allerdings nicht nur für Juristen und Politiker von Interesse.

Suche nach negativen Emotionen

Mit der Systematisierung von Daten in Foren und Blogs beschäftigt sich eine Forschungsrichtung, die schon länger im Fokus steht: Data Mining. Die Auswertung großer Datenmengen spielt in der Informatik eine immer größere Rolle. Dazu entwickeln Informatiker Textanalyseprogramme, mit denen Blogs und Mails beispielsweise nach Wörtern mit negativen Emotionen durchsucht werden oder bei denen die Ich-Form vermieden wird, weil der Verfasser sich von seinem eigenen Kommentar distanzieren will.

Auch Wahlergebnisse könnten mit Textanalyseprogrammen vorhergesagt werden, erklärt Krestel. Dazu würde in Blogs, Artikeln und Kommentaren für die vergangene Wahl in den USA nach den Wörtern Obama oder Romney gesucht und dann die positiven und negativen Begriffe herausgefiltert und gewichtet. So erhielte man eine repräsentative Stichprobe.

Die Software lernt selbstständig weiter

Die gegenwärtige Forschung am HPI widmet sich der Analyse von Blogs und sozialen Foren. „Wir haben uns mit Produktbewertungen, Tweets, Zeitungsartikeln, Patenten, Webseiten und auch mit Wikipedia befasst“, sagt Krestel. Untersucht würden ausschließlich Textdaten, auch Bildunterschriften, aber keine audiovisuellen Daten.

Der Ansatz für die Auswertung der Textinformationen reicht vom einfachen Zählen des Auftauchens einzelner Begriffe über die „Sentiment Analyse“, bei der die Wertung eines Begriffes erfasst wird, wie beispielsweise die abfällige Äußerung über bestimmte Volksgruppen, bis hin zu Argumentationsmustern. Lernfähige Software und Sprachmodelle sind dabei die Grundlage. Computerlinguisten unterstützen das HPI bei der Erstellung der Software. Trainingssets mit typischen Hasskommentaren, die von Experten klassifiziert worden sind, können der Ausgangspunkt sein. „Auf der so erstellten Grundlage von positiven und negativen Kommentaren kann die Software dann selbstständig weiterlernen“, erklärt Krestel.

Schwierigkeiten mit Ironie

Um die gefundenen Ergebnisse auswertbar zu machen, müsse ein „Goldstandard“ entwickelt werden, der die relevanten Parameter festlege, erläutert Patrick Hennig, Mitarbeiter am HPI. Es sei durchaus möglich, aus Informationen wie beispielsweise dem Alter des Autors eines Blogbeitrages, seinem Schreibstil und der Häufigkeit seiner Äußerungen Beziehungen zu anderen Autoren und Blogs herauszufiltern. „Wenn wir das festgelegt haben, ist es im Grunde kein großes Problem, bestimmte Blogs und soziale Medien zu analysieren“, so Hennig. Er betont, dass das HPI dabei ausschließlich auf öffentlich zugängliche Medien zugreife. „Mails oder Facebook-Einträge analysieren wir nicht.“ Mit einer Fehlerquote von rund 20 Prozent müsse allerdings gerechnet werden, dazu wäre dann eine manuelle Endkontrolle durch den Menschen notwendig. Insbesondere mit Ironie und Sarkasmus könnten entsprechende Systeme deutliche Schwierigkeiten haben, so Krestel. Grundsätzlich sei es aber möglich, bestimmte Benutzerprofile anzulegen und so einzelne Blogger erkennbar zu machen. Sprachbarrieren würden dagegen kein großes Problem darstellen, denn oft würden Lexika als Grundlage genutzt und die seien austauschbar.

Das Ergebnis sei nicht ein einzelner Algorithmus, mit dem die Kommentare gefiltert werden, sondern ein System, das aus verschiedenen Algorithmen und Komponenten bestehe. Auf Grundlage der HPI-Forschungsarbeit ist nun die Analyseplattform www.blog-intelligence.com entstanden, die sich noch in der Entwicklung befindet. Dort werden die verschiedenen Vernetzungen eines Blogeintrags grafisch dargestellt.

Derzeit ist die Analyse von Blogs und sozialen Medien noch ein reines Forschungsprojekt, das Wissenschaftler vom HPI bei Tagungen und in entsprechenden Veröffentlichungen vorstellen. Aber die Forschung habe auch eine kommerzielle Komponente. Denn grundsätzlich würde jedes größere Unternehmen, das Daten sammelt, diese auch auswerten wollen, nicht zuletzt um passende Werbung zu schalten und damit Geld zu verdienen, so der IT-Experte.

Richard Rabensaat

Zur Startseite

showPaywall:
false
isSubscriber:
false
isPaid:
console.debug({ userId: "", verifiedBot: "false", botCategory: "" })