Gesundheit : „Viel gerechnet, aber wenig nachgedacht“

Pisa-Forscher Manfred Prenzel wehrt sich gegen neue Vorwürfe, die Pisa-Ergebnisse gäben ein verzerrtes Bild der deutschen Schulwirklichkeit

-

Am Institut für Informatik der Freien Universität ist eine Dissertation abgeschlossen worden, die sich kritisch mit den internationalen PisaTests und ihrer Übertragung auf Deutschland auseinander setzt. Im Kern lautet der Vorwurf des Verfassers der Dissertation, Frank Gaeth: Die Stichprobenauswahl an den Schulen sei ebenso wie die Auswahl der Altersgruppe der 15-Jährigen fehlerhaft gewesen. Die Ergebnisse der Pisatests seien nicht vergleichbar und daher falsche Schlussfolgerungen gezogen worden. Gaeth hat die Fachwelt auf seine Dissertation „PISA – eine statistisch-methodische Evaluation“ über einen E-Mail-Verteiler mit 12000 Mails hingewiesen. Sie ist online einzusehen unter www.pisa2000.de. Wir konfrontieren Manfred Prenzel vom Institut für die Pädagogik der Naturwissenschaften in Kiel, verantwortlich für die Pisa-Auswertung 2003, mit der Kritik.

Herr Prenzel, deutsche Schüler werden später eingeschult als ausländische Schüler im Pisavergleich. Deswegen sind 15-Jährige aus Deutschland meist in der neunten Klasse, ihre Konkurrenten aus dem Ausland häufig in der zehnten Klasse. Sind diese Unterschiede bei der Aufgabenstellung berücksichtigt worden?

Deutsche Schüler wiederholen auch häufig Klassenstufen und sind deshalb in der achten oder neunten Klasse schon älter als in vielen anderen Ländern. Selbstverständlich sind Schüler aus höheren Klassen weiter. Aber auch die Schüler, die in Deutschland ohne Wiederholung die Schulzeit durchlaufen haben, lesen und rechnen schlechter als ihre finnischen Altersgenossen. Wenn ein Viertel der Fünfzehnjährigen in Deutschland die Schullaufbahn mit Verzögerung durchläuft, wirkt sich das auf die Durchschnittsleistung aus. Nur ist das unser Problem, wenn wir in einen internationalen Vergleich treten, der untersucht, was Fünfzehnjährige können. Pisa fragt, wie wir die Lebenszeit nutzen. Deshalb ist es geradezu grotesk, nun statistisch die Klassenstufe kontrollieren zu wollen. Dann führen die wenigen leistungsstarken Schüler, die sich in Deutschland auf der 10. Klassenstufe – meist des Gymnasiums – befinden, zu einer Überschätzung unseres Könnens.

Diese Unterschiede können das Ergebnis also nicht so verzerren, dass die deutschen Schüler von vornherein schlechter abschneiden mussten?

Nein. Frank Gaeth verzerrt mit seinen Rechnungen die Ergebnisse. Im Übrigen sei darauf hingewiesen, dass sich zum Beispiel in Dänemark und Finnland mit 87 Prozent sehr viel mehr Fünfzehnjährige auf der 9. Klassenstufe befinden als in Deutschland mit weniger als 60 Prozent. Und es gibt eine Anzahl weiterer Staaten mit vergleichbaren Anteilen, die besser als Deutschland abschneiden.

Wenn es nicht auf die Leistungen in einer bestimmten Klasse ankam, was wollte Pisa dann ermitteln?

Wir vergleichen Kompetenzen, die im Verlauf einer bestimmten Lebenszeit entwickelt wurden. Andere Länder nutzen diese Zeit effizienter als wir. Wir müssen uns fragen, wie sie das tun. Zum Beispiel schulen einige Länder früher ein, verzichten auf Klassenwiederholungen, passen den Unterricht an individuelle Voraussetzungen besser an.

Gaeth beruft sich auch auf die Kritik des Würzburger Statistik-Professors Elart von Collani, dass mindestens 16 Länder, darunter die Niederlande, aus dem internationalen Test hätten ausgeschlossen werden müssen.

Es gibt bei Pisa klar definierte Anforderungen an die Teilnahmequoten in den Staaten, um die Vergleichbarkeit der Stichproben sicherzustellen. Die Niederlande verfehlten 2000 diese Kriterien, das Vereinigte Königreich 2003. Beide Staaten wurden vom Bericht ausgeschlossen. Gelegentlich gibt es Grenzfälle. Dann prüfen externe Experten, inwieweit die Stichproben in diesem Land doch repräsentativ sind. Das kann man in einigen Ländern relativ gut abschätzen, wenn man Vergleichsdaten aus anderen Schulstudien hat. So konnte man für die USA anhand von Daten aus anderen Quellen nachweisen, dass die Stichprobe beim Pisatest repräsentativ war, obwohl sie nicht in allen Punkten den internationalen Kriterien entsprach.

Was ist von der Aussage zu halten, die Kategorie der Nichtleser sei ein statistischer Fehlschluss. Schließlich habe Japan, obwohl es die meisten Nichtleser in der Freizeit hat, die besten Testergebnisse im Lesen erzielt?

Weder im internationalen noch im nationalen Bericht ist ein kausaler Zusammenhang zwischen Leseinteresse und Lesekompetenz behauptet worden. Es wurde klar gesagt, dass in einigen Ländern gute Leserinnen und Leser auch gerne und von sich aus lesen, in anderen Ländern nicht. Für Deutschland kann man feststellen, dass Jugendliche, die selten aus eigenen Stücken lesen, insgesamt schlechtere Leseleistungen erbringen.

Wie beurteilen Sie die These, die Grobunterscheidung in Land/Stadt bei der Auswahl der Stichproben erlaube Manipulationen bei der Schulauswahl?

Wenn Frank Gaeth von Manipulationsmöglichkeiten spricht, dann hat er das Verfahren nicht verstanden. Leitprinzip der Stichprobenziehung ist, dass alle Schulen sowie Schülerinnen und Schüler die gleiche Chance haben, in die Stichprobe zu gelangen. Die Stichprobenziehung erfolgt zentral durch das Statistikinstitut Westat. Die so genannte Stratifizierung wird genutzt, um auf ökonomische Weise Stichproben zu ziehen. Dabei werden zum Beispiel Besonderheiten der Bildungssysteme berücksichtigt. Bei diesem Verfahren haben die Staaten keine Möglichkeit, bei der Auswahl von Schulen zu manipulieren.

Was ist von der Kritik zu halten, die Auswahl der Testaufgaben in Mathematik halte wissenschaftlichen Kriterien nicht stand, weil in einer Aufgabe unter mehreren vorgegebenen Antworten nur eine als richtig anzugeben war, während mehrere richtig gewesen wären?

Die bei Pisa verwendeten Testaufgaben sind auf die Fähigkeiten von fünfzehnjährigen Schülerinnen und Schülern bezogen, und nicht auf fortgeschrittene Studierende, aus deren Perspektive manchmal auch andere Lösungen denkbar sind. Die Tests enthalten eine Mischung von Aufgaben mit offenem Antwortformat und von Auswahlfragen mit Antwortalternativen, von denen nur eine als richtig gewertet wird. In Pilotuntersuchungen und im Feldtest wird empirisch geprüft, inwieweit die Aufgaben trennscharf sind und die zu untersuchende Fähigkeit messen. Eine Debatte über die Frage, ob die eine oder andere Aufgabe problematisch ist, muss man in Kauf nehmen.

Gaeth moniert auch, es sei nicht gelungen, entsprechend der Drei- oder Viergliedrigkeit des Schulwesens in den Ländern repräsentative Stichproben zu ziehen, zum Beispiel über die Leistungen der Schüler an Gesamtschulen?

Wenn man die Anteile der Schüler an allgemein bildenden Schulen betrachtet, dann sind diese in der Stichprobe bei Pisa den Schulformen entsprechend sehr gut abgebildet worden. Die Stichproben für die Bundesländer können als repräsentativ gelten sowohl für die Gymnasien, Real- und Hauptschulen als auch für die Gesamtschulen.

Besteht die Gefahr, dass durch nachträgliche Gewichtung der Testergebnisse in Deutschland die Ergebnisse von Pisa 2000 zum Negativen und die von Pisa 2003 zum Positiven verschoben worden sind, wie Gaeth behauptet?

Tatsächlich werden Stichproben immer gewichtet, um repräsentative Ergebnisse zu erhalten. Nur so können Effekte einer geschichteten Stichprobenziehung, von Stichprobenerweiterungen oder einer Nichtteilnahme von Schülerinnen und Schülern ausgeglichen werden. Frank Gaeth sollte eigentlich wissen, dass Gewichtungen nicht nachträglich vorgenommen werden, sondern Bestandteil der Datenanalyse sind.

Was ist von der Kritik zu halten, weil es kein internationales Kerncurriculum in Deutsch, Mathematik oder Naturwissenschaften gebe, werde nach einem pragmatisch zusammengestellten Testcurriculum verfahren, das für Deutschland nur begrenzt aussagefähig sei?

International gibt es kein kodifiziertes Kerncurriculum. Darauf würde sich kein Staat oder Land einlassen. Allerdings findet man international eine sehr große Übereinstimmung unter den Schulexperten, den Mathematik- und Naturwissenschaftsdidaktikern über die Schwerpunkte, die man in einem Test bei 15-Jährigen abfragen sollte. Bezugspunkt bei Pisa sind Kompetenzen, die man aktuell für eine Teilhabe an der Gesellschaft braucht und die für das Weiterlernen in der Schule und im Beruf bedeutsam sind. Den Tests bei Pisa liegen sehr ausgefeilte theoretische Konzeptionen zugrunde, die von internationalen Expertengruppen ausgearbeitet wurden. Für Deutschland können wir sagen, dass der größte Teil der Aufgaben beherrscht werden müsste, wenn man den Anforderungen deutscher Lehrpläne bis zur 9. Klassenstufe folgt.

Was halten Sie insgesamt von der Kritik des Berliner Statistikers? Können aus seiner Dissertation grundsätzliche Zweifel an dem Mathematik-Test Timss aus dem Jahre 1997 oder an Pisa abgeleitet werden?

Die Dissertation spiegelt die Misere wider, auf die Timss und Pisa aufmerksam gemacht haben: In Deutschland wird viel gerechnet, aber wenig nachgedacht. Offensichtlich wurde die Studie auch nicht richtig gelesen. So geht die Kritik, die auf viel Papier ausgeführt wird, an der Studie vorbei. Leider findet man in der Arbeit auch keine Anregungen, wie man eine Studie wie Pisa in Zukunft verbessern könnte.

Das Interview führte Uwe Schlicht

Manfred Prenzel (53) ist Direktor des Leibniz-Instituts für die Pädagogik der Naturwissenschaften (IPN) an der Universität Kiel und leitete die Pisa-Studie 2003 in Deutschland.

0 Kommentare

Neuester Kommentar
      Kommentar schreiben