Missbrauch von Statistik : Die fatale Macht des p-Wertes

Ob es Forschung in die Öffentlichkeit schafft, entscheidet häufig ein einziger statistischer Wert. Doch der ist anfällig für Fehler und Manipulation.

Martin Ballaschk
Zwischen einem einzelnen Apfel und einer einzelnen Birne besteht, wenn man den statistischen "p-Wert" als Maß nimmt, kein signifikanter Unterschied.
Zwischen einem einzelnen Apfel und einer einzelnen Birne besteht, wenn man den statistischen "p-Wert" als Maß nimmt, kein...Foto: Markus Mainka Fotolia

Muss ich auf rotes Fleisch verzichten? Wie schädlich sind Autoabgase wirklich? Auf solche Fragen verspricht die Wissenschaft Antworten. Doch was gestern als sicher galt, ist heute schon wieder überholt. Als Grund dafür wird gerne der stete Fortschritt in der Forschung genannt, der altes Wissen ständig korrigiert.

Doch das ist nicht die ganze Wahrheit, kritisiert John Ioannidis. Der Arzt und Statistikprofessor von der Stanford University School of Medicine, derzeit Gastwissenschaftler am Berlin Institute of Health (BIH), stört sich an der Qualität von wissenschaftlichen Arbeiten, zum Beispiel in der Ernährungsforschung. Laien-Diskussionen zum Thema Ernährung bestünden generell zu etwa "95 Prozent aus Voreingenommenheit". In der wissenschaftlichen Ernährungsforschung sehe es aber kaum besser aus , ätzte er etwa im vergangenen Jahr auf einer Schweizer Tagung von Ernährungswissenschaftlern.

Ioannidis sieht Missstände allerorten

Schlechtes Studiendesign, große Messfehler, Probleme mit der Statistik und finanzielle Verstrickungen mit der Lebensmittelindustrie warf er den Anwesenden vor. Die Wissenschaftler wehrten sich und warfen dem Statistiker ihrerseits "schwere Verdrehungen" ihrer Profession vor. Eine Teilnehmerin beschwerte sich mit zitternder Stimme über Ioannidis' „Wahnsinnsbehauptungen, die zehn Jahre ehrlicher Arbeit“ gewissermaßen „wegwerfen“ würden.

Ioannidis lächelte unter seinem Schnurrbart und konterte, dass er inzwischen sogar das Vertrauen in eine der umfangreichsten Ernährungsstudien über die mediterrane Diät mit fast 7500 Probanden verloren habe. Diese "Predimed-Studie" musste im vergangenen Sommer zurückgezogen werden, denn einer Expertenkommission waren gravierende Fehler in der Statistik und in den Versuchsprotokollen aufgefallen. Trotz Korrekturen stellen diese Fehler nun das ganze Projekt infrage.

Mit ihren Missständen ist die Ernährungswissenschaft nicht allein. Auch andere wissenschaftliche Disziplinen stecken in handfesten Krisen. Viele spektakuläre Forschungsergebnisse in der Biomedizin, den Sozialwissenschaften und der Psychologie lassen sich nicht reproduzieren. Ioannidis erörtert diese Ausfälle in Aufsätzen mit Titeln wie "Weshalb die meisten veröffentlichten Forschungsergebnisse falsch sind" oder "Weshalb die meiste klinische Forschung unbrauchbar ist". Wegen dieser Schriften ist er inzwischen einer der meistgelesenen und -zitierten wissenschaftlichen Autoren.

Allzweckwaffe p-Wert

Ioannidis gehört zu einer Handvoll rebellischer Statistiker, die seit Jahrzehnten einen Kampf für belastbarere Studien ausfechten. Im März gab die weltgrößte Vereinigung der Zunft, die American Statistical Association (ASA), eine Stellungnahme heraus, in der sie vor einem grassierenden Missbrauch der Statistik in der Wissenschaft warnt. Dies wirke sich nicht nur auf die Forschung selbst aus, sondern auch auf "die öffentliche Ordnung, Journalismus und Gesetzgebung".

Eines ist den Statistikern seit jeher ein besonderer Dorn im Auge: einfach anzuwendende Signifikanztests, die äußerst verbreitet sind und häufig falsch genutzt werden. Sie sollen bei der Entscheidung zwischen zwei formalen Annahmen helfen: etwa, ob zwei Messreihen im wesentlichen gleich sind (die "Nullhypothese") oder ein signifikanter Unterschied zwischen ihnen besteht (die "Alternativhypothese"). Einfacher formuliert: ob ein wissenschaftliches Ergebnis einigermaßen sicher "echt" ist.

Das ist beispielsweise nützlich, um herauszufinden, ob sich der Blutdruck in einer Gruppe Probanden nach Einnahme eines Medikamentes tatsächlich verändert hat. Testet der Forscher also Messreihen von unbehandelten und behandelten Blutdruckpatienten, spuckt der Test einen Wahrscheinlichkeitswert aus, den sogenannten p-Wert. Liegt dieser unter einer bestimmten Grenze – traditionell bei im Grunde willkürlich festgelegten 0,05 – dann gilt das Ergebnis als "statistisch signifikant". Und damit als echt und bedeutsam.

Wichtig ist vor allem Sorgfalt beim Experiment

Wie groß der Effekt des Blutdruckmedikaments wirklich ist, verrät der p-Wert allerdings nicht. Er ist lediglich ein Anhaltspunkt dafür, mit welcher Wahrscheinlichkeit ein Ergebnis nicht auch zufällig zustande gekommen sein kann. Er kann daher Werte von Null bis Eins annehmen. Je kleiner der Wert, desto stärker entspricht das Ergebnis der Alternativhypothese, also dass sich etwa zwei Messreihen unterscheiden. Der p-Wert gilt nur in dem engen Rahmen, den die mathematischen Formeln des Tests vorgeben und hängt zum Beispiel auch von der Anzahl Datenpunkte in der Messreihe ab. "Ein p-Wert ohne Kontext oder weitere wissenschaftliche Belege bietet nur wenig Information", schreibt die ASA.

Der p-Wert ist eine schöne, einfache Zahl und wird oft als Maß für die Größe eines gemessenen Effektes dargestellt. Doch das kann der Wert nicht leisten. Selbst kleine Unterschiede zwischen Messreihen können hochsignifikant sein, besonders, wenn viele Datenpunkte vorliegen. Auch über den Grad der Wahrscheinlichkeit, mit der ein Studienergebnis durch Zufall entstanden sein könnte, sagt er nichts aus – anders, als viele auch in der Wissenschaft meinen. So bedeutet ein besonders hoher p-Wert knapp unter oder über der 0,05-Grenze eben nicht, dass das Studienergebnis eher durch Zufall entstanden sein könnte als bei einer Testreihe mit besonders niedrigen p-Wert. Der p-Wert ist also keine Maßeinheit, nur ein Fingerzeig.

Es klingt banal, ist aber nicht selbstverständlich: Will man wissen, ob ein Blutdruckmittel wirkt, ist nicht Statistik-Expertise, sondern vor allem experimentelle Sorgfalt wichtig. Je kontrollierter etwa die Testbedingungen sind, desto besser. Auch wenn mehr Probanden teilnehmen, macht das die Studie belastbarer. Je gründlicher durchmischt die Teilnehmergruppen sind – etwa hinsichtlich des Alters – desto wahrscheinlicher ist es, dass ein Durchschnittswert auch etwas mit dem Medikament zu tun hat. Und je weniger finanzielles Eigeninteresse die Macher einer Studie an deren "Erfolg" haben, desto eher kann man davon ausgehen, dass sie auch die Realität abbildet. Gute Studien sind extrem aufwendig und verschlingen nicht ohne Grund Millionen Euro.

Der p-Wert als Abkürzung zum Ruhm

Doch der p-Wert liefert mitunter eine willkommene und erfolgversprechende Abkürzung, die über schwer in Zahlen zu fassende Defizite einer Studie hinwegtäuscht. Eine besonders perfide Praxis ist das "p-hacking". Erreicht ein Experiment nicht den gewünschten Wert, wird es mitunter einfach so häufig wiederholt, bis der p-Wert "stimmt", also zufällig unter den Schwellenwert fällt und den Test als statistisch signifikant besteht. Ein so erlangtes Ergebnis schafft es dann in die Fachliteratur und vielleicht auch in die Medien. Der Rest der Messwerte verschwindet in der Schublade. Tatsächlich sind solche Resultate wissenschaftlich allerdings völlig wertlos.

"Der Missbrauch von p-Werten ist so einfach und automatisiert, dass es die Forscher süchtig macht", sagt Ioannidis. Denn signifikante Ergebnisse lassen sich veröffentlichen, und mit veröffentlichten Ergebnissen lassen sich wiederum neue Forschungsprojekte begründen. "Wir sollten die Forscher, die diese Sturzfluten von p-Werten produzieren, als Drogenabhängige betrachten, die Entzug und Rehabilitation benötigen."

Denn nicht immer geschieht der Statistik-Missbrauch aus niederen Beweggründen. Viele wissen es schlicht nicht besser. "Die meisten, die Statistik falsch anwenden, sind einfach kaum dafür ausgebildet", so der Statistiker. Einige Fachzeitschriften wie "Basic and Applied Social Psychology" haben die Notbremse gezogen und p-Werte einfach komplett verbannt. Sie fordern stattdessen etwa "starke deskriptive Statistik" wie Grafiken und Diagramme.

Statistiker sprechen selten mit einer Stimme

In den letzten Jahren hat es im Kampf gegen den Statistik-Missbrauch ein paar Etappensiege gegeben. Laut Ioannidis gibt es zumindest eine "Sensibilisierung bezüglich des Ausmaßes der Herausforderung, vor der wir stehen". Mehr Transparenz und Offenheit helfen ebenfalls, denn so fallen Fehler schneller auf. Dass es keine größeren Erfolge gibt, liegt auch daran, dass auch professionelle Statistiker nicht mit einer Stimme sprechen. "Die Experten sind sich uneinig, wie sich das Problem lösen lässt", sagt Ioannidis.

In einem Kommentar im Fachblatt "Nature" haben kürzlich 800 seiner Kollegen einen Anti-Signifikanz-Aufruf unterzeichnet: "Wir fordern, das gesamte Konzept der statistischen Signifikanz abzuschaffen", steht dort. Statt Ja-oder-Nein-Aussagen sollen statistische Parameter wie p-Werte detailliert analysiert und diskutiert werden. Ioannidis hält das für keine gute Idee, sogar für naiv. "Statistische Signifikanz ist wie eine ineffiziente und korrupte Friedensmacht in einem wilden Land", sagt er. "Sie führt nicht zu vollständigem Frieden und Wohlstand, aber ohne sie kommt es zum Krieg."

Guter Rat? Oft nicht im Angebot

Von solchen epischen Schlachten der Statistiker und Statistik-Anwender ahnt der Konsument von Nachrichten aus der Forschung gemeinhin nichts. Er möchte einfach nur wissen, wie er sich am besten ernährt, oder ob er angesichts feinstaubbelasteter Städte aufs Land ziehen soll.

Mehr zum Thema

Doch dieser gute Rat ist oft nicht nur teuer, sondern gleichsam gar nicht im Angebot. "Die Leute sind in einer prekären Situation und es ist für sie nicht leicht, das Ganze zu durchblicken", sagt Ioannidis. "Sie sollten fragen: Ist es eine große Studie? Ist sie randomisiert? Wurde das Ergebnis in weiteren Studien bestätigt? Gibt es Interessenskonflikte?" Solche Fragen können helfen, der Wahrheit näherzukommen. Oder eben der Einsicht, dass manches Forschungsergebnis vielleicht eher ein interessanter Hinweis ist, aber selten eine letztgültige Wahrheit.

Twitter

Folgen Sie unserer Wissen und Forschen Redaktion auf Twitter: