Stichwort Diagnosekompetenzen: Wie gut können Lehrkräfte die Leistungen ihrer SchülerInnen einschätzen?

Hat Ihr Kind wieder einmal eine schlechte Note erhalten, obwohl es gut vorbereitet schien? Oder kennen Sie das aus Ihrer eigenen Schulzeit? Und stellt sich Ihnen da manchmal die Frage, wie fair die Notenvergabe der Lehrerin oder des Lehrers eigentlich ist? Mit der Frage, wie angemessen Lehrkräfte die Leistungen ihrer SchülerInnen beurteilen können, beschäftigen sich auch WissenschaftlerInnen intensiv, spätestens seit der Veröffentlichung der PISA-Ergebnisse im Jahr 2001. Erforscht wird dabei auch, ob manche SchülerInnen systematisch benachteiligt werden, etwa aufgrund ihrer familiären Herkunft.

Als Ende 2001 die Ergebnisse der internationalen Schulleistungsvergleichsstudie PISA (Programm for International Student Assessment) veröffentlicht wurden, schrieben Zeitschriften wie der Focus dem „Fehlen der diagnostischen Kompetenz“ von Lehrkräften eine Schlüsselrolle für das mittelmäßige Abschneiden deutscher SchülerInnen zu: „Deren [der Lehrkräfte] entscheidendes Manko, so entlarvte Pisa, ist die Unfähigkeit, die Schwächen ihrer Schüler zu erkennen“ (FOCUS Online, 2001). In der PISA-Studie hatten Hauptschullehrkräfte diejenigen SchülerInnen ihrer Klasse benennen sollen, die im Lesen deutlich schwächer waren als ihre MitschülerInnen und von denen man annehmen konnte, dass sie später ernsthafte Schwierigkeiten beim Übergang in den Beruf bekommen würden. Es zeigte sich, dass diese Aufgabe den LehrerInnen nicht sehr gut gelang: Sie erkannten einen Großteil der SchülerInnen nicht, die in den PISA-Lesetestaufgaben schwach abgeschnitten hatten (Artelt, Stanat, Schneider & Schiefele, 2001). Auch wenn die Ergebnisse vorsichtig interpretiert werden sollten, da die untersuchte LehrerInnenstichprobe nicht für die gesamte Lehrerschaft repräsentativ war[1], so war es dennoch ein wichtiger Befund, der auch in der Öffentlichkeit wahrgenommen wurde. Das Ergebnis wurde in vielen Tages- und Wochenzeitungen diskutiert. Und auch die spätere Bundesministerin für Bildung und Forschung, Annette Schavan, forderte mit den Worten „ohne Diagnose keine Therapie“ (TAZ Online, 2001) eine intensivere Vermittlung von Diagnosekompetenzen in der Lehramtsausbildung. Fast zwanzig Jahre nach der Veröffentlichung der ersten PISA-Ergebnisse möchten wir in diesem Beitrag einen Überblick geben über den aktuellen Forschungsstand zum Thema Diagnosekompetenzen von Lehrkräften.

Für die optimale Förderung von Kindern, benötigen Lehrkräfte Diagnosekompetenzen. Foto: coyot via pixabay (https://pixabay.com/de/schule-zeichnen-zeichnung-bildung-1974369/, CC: https://pixabay.com/de/service/license/).Für die optimale Förderung von Kindern, benötigen Lehrkräfte Diagnosekompetenzen. Foto: coyot via pixabay (https://pixabay.com/de/schule-zeichnen-zeichnung-bildung-1974369/, CC: https://pixabay.com/de/service/license/).

Forschung zur Urteilsgüte von Lehrkräften

Der Begriff Diagnosekompetenzen (oder diagnostische Kompetenzen) bezeichnet die Fähigkeiten von Lehrkräften, die Leistungen ihrer SchülerInnen – aber auch deren Lernmotivation, Leistungsangst und andere für die Schule relevante Merkmale – zutreffend beurteilen zu können. Zudem wird darunter auch die Fähigkeit der Lehrkräfte verstanden, die Schwierigkeit von Aufgaben angemessen einschätzen zu können. Wie exakt die Urteile von Lehrkräften ausfallen, untersuchen WissenschaftlerInnen, indem sie die Leistungen der SchülerInnen in Leistungstests mit den Leistungsbeurteilungen der Lehrkräfte vergleichen. Ähnlich kann auch die von den SchülerInnen berichtete Lernmotivation, Leistungsangst, etc. mit Lehrkräfteeinschätzungen abgeglichen werden. Dabei werden häufig verschiedene Gütemaße der Beurteilung verwendet. Einerseits wird geprüft, inwiefern Lehrkräfte die SchülerInnen ihrer Klasse in eine korrekte Rangreihe bringen können – ob sie also bspw. leistungsstärkere von leistungsschwächeren SchülerInnen unterscheiden können (sog. Rangkomponente der Diagnosekompetenzen). Andererseits wird bestimmt, wie zutreffend Lehrkräfte das Niveau der gesamten Schulklasse einschätzen können, d. h. dass sie bspw. sagen können, ob ihre Klasse im Vergleich zu anderen Klassen derselben Jahrgangsstufe durchschnittliche, unter- oder überdurchschnittliche Leistungen zeigt (sog. Niveaukomponente der Diagnosekompetenzen).

Empirische Studien, die sich mit der Güte von Leistungsbeurteilungen befassen, deuten darauf hin, dass es Lehrkräften typischerweise gut gelingt, die Leistungen der SchülerInnen ihrer Klasse in eine Rangreihe zu bringen (z. B. Südkamp, Kaiser & Möller, 2012). Sie können also recht zuverlässig einschätzen, wer die Matheasse oder die RechtschreibkönigInnen der Klasse sind und welche SchülerInnen eher Schwierigkeiten beim Rechnen und Schreiben haben. Hingegen wird das Leistungsniveau der Klasse mehrheitlich überschätzt (zusammenfassend: van Ophuysen, 2010). Dies gilt allerdings nicht für besonders leistungsstarke Schulklassen, etwa am Gymnasium, die von ihren Lehrkräften oft unterschätzt werden (z. B. Leucht, Tiffin-Richards, Vock, Pant & Köller, 2012).

Die Einschätzung des Leistungsniveaus ist für Lehrkräfte insbesondere deshalb schwierig, weil meist kein externer Maßstab zur Verfügung steht (Artelt, 2009). Denn es liegen nur für bZeugnisse. Foto: Eigentum der Autorin (Andrea Westphal).Zeugnisse. Foto: Eigentum der Autorin (Andrea Westphal).estimmte Fächer und ausgewählte Jahrgangsstufen Standards vor, die beschreiben, was SchülerInnen zu diesem Zeitpunkt in ihrer Schullaufbahn bereits wissen und können sollen. Daher orientieren sich Lehrkräfte bei der Bewertung von Schulleistungen häufig an den Leistungen der SchülerInnen in ihrer Schulklasse. Da Schulklassen ganz unterschiedlich leistungsstark sind, kann dieser klassenbezogene Bewertungsmaßstab leicht zu Fehleinschätzungen des Leistungsniveaus führen. Er wird deshalb auch als Achillesferse der Lehrkräftebeurteilung bezeichnet (Artelt, 2009). Wenn es um die Einschätzung des Leistungsniveaus der Schulklasse geht, wird auch ein Dilemma der Notengebung offensichtlich: Noten sollen helfen, die leistungsstärkeren SchülerInnen einer Klasse von den leistungsschwächeren SchülerInnen zu unterscheiden. Daher würde es auch keinen Sinn ergeben, wenn Lehrkräfte in einer leistungsstarken Klasse ausschließlich Bestnoten verteilen würden. De facto bekommt deshalb ein/e SchülerIn in einer eher leistungsschwachen Klasse bessere Noten, als er/sie in einer leistungsstärkeren Klasse für dieselbe Leistung erhalten würde. Diese Abhängigkeit der Notenvergabe vom mittleren Leistungsniveau der Klasse wird auch als Big-Fish-Little-Pond-Effekt (oder Fischteicheffekt) bezeichnet. Somit läuft das Ziel, zwischen SchülerInnen einer Klasse zu differenzieren, dem Ziel entgegen, zwischen Schulklassen zu differenzieren.

Werden bestimmte SchülerInnengruppen systematisch unter- oder überschätzt?

Wenn die Leistungseinschätzungen von LehrerInnen nicht immer zutreffend sind, stellt sich die Frage, wie es zu Fehlurteilen kommt und wovon sich Lehrkräfte bei ihren Einschätzungen leiten lassen. Kommen Fehlurteile eher zufällig zustande, oder sind es bestimmte Eigenschaften von SchülerInnen, die an sich nichts mit der schulischen Leistungsfähigkeit zu tun haben, die Lehrkräfte aber eher zu Fehlurteilen verleiten? Möglich wäre, dass Lehrkräfte Annahmen über bestimmte Personengruppen im Kopf haben – etwa, dass Mädchen besser schreiben und Jungen besser rechnen können – die zu systematisch verzerrten Leistungsbeurteilungen führen. In diesem Beispiel würden somit Mädchen bei der Notenvergabe in Deutsch und Jungen bei der Notenvergabe in Mathematik systematisch gegenüber dem jeweils anderen Geschlecht bevorzugt.

Tatsächlich sind die Leistungserwartungen von Lehrkräften teilweise von solchen Stereotypen geprägt. So trauen Lehrkräfte SchülerInnen aus einkommensstarken Familien offenbar höhere Leistungen zu als SchülerInnen aus einkommensschwachen Familien und haben für die sozial besser gestellten SchülerInnen positivere Lehrerin teilt SchülerInnen Noten mit. Foto: rawpixel via Pixabay (https://pixabay.com/de/aktivit%C3%A4t-brett-brainstorming-3408114/, CC: https://pixabay.com/de/service/license/).Lehrerin teilt SchülerInnen Noten mit. Foto: rawpixel via Pixabay (https://pixabay.com/de/aktivit%C3%A4t-brett-brainstorming-3408114/, CC: https://pixabay.com/de/service/license/).Zukunftserwartungen (Boone & van Houtte, 2013). In Studien in den USA konnte gezeigt werden, dass Lehrkräfte dort von SchülerInnen asiatischer Abstammung höhere Leistungen erwarten, während sie glauben, dass afroamerikanische SchülerInnen eher leistungsschwach sein werden (Tenenbaum & Ruck, 2007).

 Sind stereotype Beurteilungen zutreffend?

Solche stereotypen Erwartungen erscheinen auf den ersten Blick sehr ungerecht zu sein. Jedoch haben einige WissenschaftlerInnen die Frage aufgeworfen, ob die stereotypen Erwartungen der Lehrkräfte nicht auch ein Stück weit zutreffend sein könnten. So trägt ein Fachzeitschriftenartikel den provokativen Titel “The unbearable accuracy of stereotypes“ (zu Deutsch etwa: Die unerträgliche Genauigkeit von Stereotypen; Jussim, Cain, Crawford, Harber & Cohen, 2009). Die WissenschaftlerInnen argumentieren, dass die Erwartungen der Lehrkräfte sich aufgrund von Erfahrungen mit bestimmten Schülergruppen herausbilden. Bspw. könnten Lehrkräfte immer wieder erleben, dass SchülerInnen, deren Eltern AkademikerInnen sind, sehr gute Leistungen erzielen und deshalb in der Folge generell höhere Erwartungen an diese Schülergruppe entwickeln.




[1] Auf Repräsentativität war bei PISA bei der Auswahl der SchülerInnen- Stichprobe geachtet worden, was aber nicht zwingend bedeutet, dass auch deren LehrerInnen eine repräsentative Abbildung der Lehrerschaft darstellen.

Sind stereotype Leistungserwartungen somit unproblematisch und erbringen im Wesentlichen faire Bewertungen? Oder führen sie zu systematischen und damit ungerechten Fehleinschätzungen? Zumindest im Fach Deutsch werden Mädchen oft besser bewertet als Jungen, auch dann, wenn sie de facto ähnlich leistungsstark sind (z. B. Ready & Wright, 2011). Möglicherweise erhalten Mädchen für objektiv gleiche Leistungen im Fach Deutsch etwas bessere Noten als Jungen, weil sprachliche Begabungen eher Mädchen zugeschrieben werden. Im Fach Mathematik finden sich solche Geschlechterunterschiede hingegen nur vereinzelt (z. B. Westphal et al., 2016a). Inwiefern systematische Unterschiede in der Bewertung von SchülerInnen aus einkommensstarken und einkommensschwachen Familien bzw. SchülerInnen verschiedener ethnischer Herkunft tatsächliche Leistungsunterschiede widerspiegeln, lässt sich hingegen noch nicht eindeutig beantworten. Die Forschungsbefunde dazu sind uneinheitlich. Einige Untersuchungen kommen zu dem Ergebnis, dass Lehrkräfte im Großen und Ganzen richtigliegen und die Leistungen von SchülerInnen aus wenig gebildeten Familien (oder die Leistungen afroamerikanischer SchülerInnen in den USA) in zutreffender Weise negativer beurteilen. Andere Studien finden hingegen eine systematische Benachteiligung von SchülerInnen, die einer ethnischen Minderheit angehören oder aus wenig gebildeten bzw. sozioökonomisch schwachen Familien stammen. So offenbarte eine Untersuchung mit über 9000 SchülerInnen US-amerikanischer Kindergartenklassen, dass Lehrkräfte die Lesekompetenz von sozioökonomisch schlechter gestellten SchülerInnen negativer einschätzten Bunte Vielfalt. Foto: SKECCIO via Pixabay (https://pixabay.com/de/kreide-pastell-bunte-farbe-schule-2162075/, CC: https://pixabay.com/de/service/license/).Bunte Vielfalt. Foto: SKECCIO via Pixabay (https://pixabay.com/de/kreide-pastell-bunte-farbe-schule-2162075/, CC: https://pixabay.com/de/service/license/).(Ready & Wright, 2011). Dies galt selbst dann, wenn die Muttersprache der SchülerInnen Englisch war, sie keiner Minderheit angehörten, ähnlich alt waren und über ähnliche Lesefähigkeiten verfügten wie die sozioökonomisch besser gestellten SchülerInnen. Aus einer Studie mit deutschen GrundschülerInnen gibt es zudem Hinweise, dass solche systematischen Unterschiede in den Leistungsbewertungen auch nicht durch eine geringere Motivation oder ein unangemessenes Sozialverhalten von sozioökonomisch schlechter gestellten SchülerInnen erklärt werden können (z. B. Westphal et al., 2016a).

Unter welchen Umständen sind Beurteilungen präzise?

Im Schulalltag können Lehrkräfte natürlich nicht immerzu jeder/m SchülerIn ihre gesamte Aufmerksamkeit widmen. Zwar können Lehrkräfte, die über gute Diagnosekompetenzen verfügen, ihren Unterricht vermutlich besser auf die Bedürfnisse ihrer SchülerInnen abstimmen (Westphal, Gronostaj, Vock, Emmrich & Harych, 2016b). Dennoch ist es unrealistisch von Lehrkräften zu erwarten, dass sie jederzeit über alle Verständnisfehler ihrer SchülerInnen informiert sind. Im schulischen Alltag sind Ungenauigkeiten in der Beurteilung daher vermutlich nicht gänzlich zu vermeiden und das muss auch nicht immer schlimm sein, da einzelne nicht ganz faire Beurteilungen keine gravierenden Auswirkungen für SchülerInnen haben. Hingegen sind adäquate Leistungsbeurteilungen dann relevant, wenn sie mit wichtigen Entscheidungen über die Schullaufbahn verbunden sind – etwa, wenn Zeugnisnoten darüber entscheiden, welche weiterführende Schulform ein Kind besuchen kann oder welchen Studien- oder Ausbildungsplatz Jugendliche erhalten.

Tatsächlich scheinen Lehrkräfte – insbesondere, wenn sie bereits über einige Berufserfahrung verfügen – je nach dem Anlass der Beurteilung unterschiedlich ressourcenintensive Entscheidungsprozesse zu nutzen. Soll lediglich ein erster Eindruck formuliert werden, verlassen sich Lehrkräfte häufiger auf stereotype Informationen (Krolak-Schwerdt, Böhmer & Gräsel, 2012). Geht es aber um relevante Beurteilungen, die mit wichtigen Konsequenzen für die SchülerInnen einhergehen, ziehen Lehrkräfte viele individuelle Informationen über die Leistungen der SchülerInnen heran (Krolak-Schwerdt et al., 2012).

Erfahrene Lehrkräfte können offenbar je nach Situation bzw. dem Anlass der Leistungsbeurteilung gezielt die entsprechende Verarbeitungsart auswählen, während Lehramtsstudierende ohne Berufserfahrung noch nicht über diese Fähigkeit verfügen (Krolak-Schwerdt et al., 2012). Auch erfahrene Lehrkräfte unterscheiden sich aber in ihrer Fähigkeit, SchülerInnenleistungen zu beurteilen (Leucht et al., 2012; Westphal et al., 2016b). Während viele Lehrkräfte über hervorragende Diagnosekompetenzen verfügen, sind die Beurteilungen mancher Lehrkräfte weniger adäquat. Zudem sind gute Diagnosekompetenzen einer Lehrkraft keine generelle Fähigkeit für die Beurteilung sämtlicher SchülerInnenmerkmale (z. B. Lorenz & Artelt, 2009). Eher ist es so, dass eine Lehrkraft zum Beispiel zwar perfekt dazu in der Lage sein kann, SchülerInnenleistungen in Mathematik zu beurteilen und recht gut darin sein kann, die Motivation ihrer SchülerInnen einzuschätzen, aber in Physik Schwierigkeiten bei der Bewertung hat. Entsprechend ist vermutlich nicht nur pädagogisches Wissen über Leistungsbeurteilungen (z. B. über die ideale Vorgehensweise beim Sammeln von diagnostischen Informationen), sondern auch spezifisches fachdidaktisches Wissen (z. B. über typische SchülerInnenfehler beim Bruchrechnen) relevant für hohe Diagnosekompetenzen (siehe auch Lorenz & Artelt, 2009). Zusätzlich benötigen Lehrkräfte für die Einschätzung der Lernmotivation, Leistungsängstlichkeit oder der Fähigkeitsselbstwahrnehmungen vermutlich Wissen darüber, wie sich zum Beispiel solche SchülerInnen verhalten, die nur über geringe Fähigkeitsselbstwahrnehmungen verfügen. Allerdings gibt es derzeit noch wenige empirische Studien, die explizit prüfen, welche professionellen Voraussetzungen von Lehrkräften zu angemesseneren Leistungsbeurteilungen führen.

Es lässt sich somit festhalten, dass Diagnosekompetenzen fach- und domänenspezifisch sind und erfahrene LehrerInnen insbesondere dann viele individuelle (statt stereotyper) SchülerInnenmerkmale berücksichtigen, wenn ihre Urteile für die weitere Bildungslaufbahn der SchülerInnen relevant sind. Gleichzeitig ist es empfehlenswert, wenn LehrerInnen immer wieder überprüfen, wie angemessen ihre Leistungserwartungen eigentlich sind. Dafür können LehrerInnen standardisierte Leistungstests nutzen, wie sie bspw. im Rahmen von Vergleichsarbeiten durchgeführt werden, oder in Form von Testbatterien erworben werden können. So kann es hilfreich sein, wenn LehrerInnen ihre Leistungserwartungen für die SchülerInnen der Klasse – vor der Testung – schriftlich festhalten und sie anschließend mit den tatsächlichen Ergebnissen der SchülerInnen abgleichen. Darüber hinaus werden aktuell an einigen Universitäten spezifische Trainingsprogramme entwickelt und evaluiert, mithilfe derer LehrerInnen ihre Diagnosekompetenzen bereits im Studium, aber auch in Weiterbildungen noch gezielter fördern können.

Insgesamt hat die Forderung, die Annette Schavan im Jahr 2001 formulierte (TAZ Online) immer noch Relevanz: Um die Qualität der Diagnosekompetenzen von zukünftigen LehrerInnen zu stärken, sollten Bewertungsstrategien und Diagnosemethoden ein noch zentralerer Bestandteil der Lehramtsausbildung werden.

Literaturverzeichnis

Artelt, C. (2009). Diagnostische Urteile von Lehrkräften im Bereich der Lesekompetenz. In A. Bertschi-Kaufmann & C. Rosebrock (Hrsg.), Literalität. Bildungsaufgabe und Forschungsfeld (S. 125–136). Weinheim: Juventa.

Artelt, C., Stanat, P., Schneider, W., & Schiefele, U. (2001). Lesekompetenz: Testkonzeption und Ergebnisse. In J. Baumert, E. Klieme, M. Neubrand, M. Prenzel, U. Schiefele, W. Schneider, P. Stanat, K.-J. Tillmann, & M. Weiß (Hrsg.), PISA 2000 Basiskompetenzen von Schülerinnen und Schülern im internationalen Vergleich (S. 69–137). Opladen: Leske + Budrich.

Boone, S., & van Houtte, M. (2013). Why are teacher recommendations at the transition from primary to secondary education socially biased? A mixed-methods research. British Journal of Sociology of Education, 34(1), 1–19.

FOCUS online (2001). PISA-Studie. Die große Schulaufgabe. Zugriff am 12.06.2018. Verfügbar unter http://www.focus.de/politik/deutschland/pisa-studie-die-grosse-schulaufg...

Jussim, L., Cain, T., Crawford, J., Harber, K., & Cohen, F. (2009). The unbearable accuracy of stereotypes. In T. Nelson (Hrsg.), Handbook of prejudice, stereotyping, and discrimination (S. 199–227). Hillsdale, NJ: Erlbaum.

Krolak-Schwerdt, S., Böhmer, M., & Gräsel, C. (2012). Leistungsbeurteilungen von Schulkindern. Zeitschrift für Entwicklungspsychologie und pädagogische Psychologie, 44(3), 111–122.

Leucht, M., Tiffin-Richards, S., Vock, M., Pant, H. A., & Köller, O. (2012). Diagnostische Kompetenz von Englischlehrkräften bei der Bewertung von Schülerleistungen mit Hilfe des Gemeinsamen Europäischen Referenzrahmens für Sprachen. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 44(4), 163–177.

Lorenz, C., & Artelt, C. (2009). Fachspezifität und Stabilität diagnostischer Kompetenz von Grundschullehrkräften in den Fächern Deutsch und Mathematik. Zeitschrift für Pädagogische Psychologie, 23(3-4), 211–222.

Ready, D. D., & Wright, D. L. (2011). Accuracy and inaccuracy in teachers’ perceptions of young children’s cognitive abilities. American Educational Research Journal, 48(2), 335–360.

Südkamp, A., Kaiser J., & Möller, J. (2012). Accuracy of teachers’ judgments of students’ academic achievement: A meta-analysis. Journal of Educational Psychology, 104(3), 743–762.

TAZ online (2001). Kaum Bildung und noch weniger Geld. Zugriff am 12.06.2018. Verfügbar unter http://www.taz.de/1/archiv/print-archiv/printressorts/digi-artikel/?ress...

Tenenbaum, H. R., & Ruck, M. D. (2007). Are teachers’ expectations different for racial minority than for European American students? A meta-analysis. Journal of Educational Psychology, 99(2), 253–273.

van Ophuysen, S. (2010). Professionelle pädagogisch-diagnostische Kompetenz – eine theoretische und empirische Annäherung. In N. Berkemeyer, W. Bos, H. G. Holtappels, N. McElvany, & R. Schulz-Zander (Hrsg.), Jahrbuch der Schulentwicklung. Daten, Beispiele und Perspektiven (16. Aufl., S. 203–234). Weinheim: Juventa.

Westphal, A., Becker, M., Vock, M., Maaz, K., Neumann, M., & McElvany, N. (2016a). The link between teacher-assigned grades and classroom socioeconomic composition: The role of classroom behavior, motivation, and teacher characteristics. Contemporary Educational Psychology, 46, 218–227.

Westphal, A., Gronostaj, A., Vock, M., Emmrich, R., & Harych, P. (2016b). Differenzierung im gymnasialen Mathematik- und Deutschunterricht – vor allem bei guten Diagnostiker/innen und in heterogenen Klassen? Zeitschrift für Pädagogik, 62(1), 131-148.

Autor*innen