Bekomme ich immer schlechtere Bewertungen weil ich als Erster dran bin? Das Problem der Kalibrierung in Wettkampf- und Prüfungssituationen

Starte ich in einem Turnwettkampf als Erster, werde ich selten zu den Gewinnern gehören. Möchte ich erfolgreich den Eignungstest der Sporthochschule Köln absolvieren, stehen meine Chancen allerdings zu einem früheren Zeitpunkt besser, denn am zweiten Test-Tag sind die Durchfallquoten um etwa fünf Prozent höher. Diese Beispiele zeigen, dass in wichtigen Wettkampf- und Prüfungssituationen die Position an welcher ich in einer Reihe starte, einen Einfluss darauf haben kann, wie ich bewertet werde. Es stellt sich die Frage wie es dazu kommt und wie sich dieser Einfluss vermeiden lässt um Prüfungen fairer zu gestalten.

Problematik subjektiver Bewertungen in Urteilssituationen

Praktische und mündliche Prüfungen haben in allen Ausbildungsinstanzen (z. B. Schule, Universität) eine große Bedeutung. Ob Eignungstests oder Abiturprüfungen, meist präsentieren Prüflinge nach einander ihre Leistungen und werden unmittelbar nach ihrer Prüfung von einer/m PrüferIn oder einem Prüfungsgremium beurteilt. In Sportarten wie dem Turnen oder Eiskunstlaufen finden sich solche seriellen Bewertungssituationen ebenfalls wieder. In einem Wettkampf präsentiert ein/e AthletIn ihre/seine Leistung und wird direkt im Anschluss daran von den KampfrichterInnen beurteilt, bevor die nächsten AthletInnen folgen. Wie die PrüferInnen in mündlichen Prüfungen haben auch die KampfrichterInnen keine präzisen physikalischen Informationen (Zeiten, Höhen) zur Verfügung, welche eine Zuordnung der gesehenen Leistungen zu absoluten Kategorien (Noten, Punkte) ermöglicht. Wie gehen PrüferInnen oder KampfrichterInnen nun mit solchen Urteilssituationen um, in welchen Leistungen nacheinander bewertet werden? Wie kann gewährleistet werden, dass jeder Prüfling seiner Leistung entsprechend fair bewertet wird?

Da physikalische Größen fehlen, müssen die PrüferInnen auf einer internen Bewertungsskala, diese könnte im Turnen oder Eiskunstlaufen ein Notensystem sein, die dargebotenen Leistungen kategorisieren. In der psychologischen Forschung zur Urteils- und Entscheidungsfindung gibt es mehrere Ansätze welche diese Kategorisierung beschreiben. Zum einen wird davon ausgegangen, dass Urteile und Bewertungen immer im Vergleich von Personen oder Leistungen getroffen werden (Festinger, 1954). Zum anderen führen weitere theoretische Überlegungen zu der Annahme, dass in einer Bewertungssituation alle Urteile zwischen der besten und der schlechtesten Leistung dieser aktuellen Situation getroffen werden. Die beste und schlechteste Leistung stecken somit die Bezugspunkte bei subjektiven Bewertungen ab (Parducci 1965, 1968). Ebenfalls gilt als wichtiges Kriterium für subjektive Bewertungen die Konsistenz vergebener Urteile. Konsistenz meint in

Grand Prix Gymnastics 2009 von Alasdair Middleton via Flickr (https://www.flickr.com/photos/alza06/3808107615/in/photolist-6Nvso6-6NvxHR-6NzBPh-6NzAB1-6NzEw1-6NzGtN-6NzDcu-6NvyPR-6NzyYy-9zF2bK-9zEVfv-9zHWrq-9zEWjR-9zF18X-9zHXHd), cc (https://creativecommons.org/licenses/by/2.0/)

diesem Fall, dass gleiche Leistungen die gleiche Bewertung bekommen und unterschiedliche Leistungen auch unterschiedlich bewertet werden (Haubensak, 1992). Aufbauend auf die theoretischen Überlegungen lässt sich erklären wie zum Beispiel KampfrichterInnen im Turnen ihre interne Bewertungsskala entwickeln beziehungsweise vorgegebene Notensystem auf den aktuellen Wettkampf anwenden. Memmert, Unkelbach, Ertmer und Rechner (2008) sowie Unkelbach und Memmert (2008) entwickelten hierzu alternativ die Idee diese Skalenentwicklung als Kalibrierungsprozess darzustellen. Dieser Kalibrierungsprozess hat jedoch systematische Tendenzen in der Urteilsgebung zur Folge, sodass Prüflinge abhängig davon bewertet werden, ob sie als erster oder erst später die Prüfung absolvieren. Damit wäre eine faire und unabhängige Bewertung eines jeden Prüflings gefährdet.

Die Idee der Kalibrierung

An einem kurzen Beispiel soll nun erläutert werden wie sich die Kalibrierungsidee auf Urteilsprozesse in der Praxis anwenden ließe. In Sportarten wie dem Turnen präsentieren die AthletInnen ihre Leistungen nacheinander und werden direkt von den KampfrichterInnen bewertet. Für die KampfrichterInnen tritt mit dieser auf einander folgenden Leistungspräsentation ein interessantes Problem auf. Hier lassen sich zur Urteilsbildung keine objektiven Werte (z. B. Zeiten) heranziehen. Nach der Kalibrierungsidee setzt deshalb das Urteil über die Leistung in einem Wettkampf einen Bezugspunkt für alle folgenden Leistungen und Urteile. Alle folgenden Leistungen können besser oder schlechter sein als die Erste. Sollten die KampfrichterInnen ein extremes Urteil (beste oder schlechteste Punktzahl) für die erste Leistung vergeben ergibt sich ein Problem. Für folgende Leistungen wäre es nur noch möglich in eine Richtung auf der Notenskala zu unterscheiden. Um jedoch für weitere Urteile in beide Richtungen auf der Notenskala noch unterscheiden zu können ist nach der Kalibrierungsidee davon auszugehen, dass KampfrichterInnen im ersten Urteil vermehrt extreme Urteile vermeiden. Sie bewahren damit ihre Freiheitsgrade für folgende Urteile, da sowohl bessere und schlechtere Urteile noch möglich sind. Somit werden zu Beginn eines Wettkampfes vermehrt mittlere Noten vergeben. Nach mehreren Urteilen sollten die KampfrichterInnen ihre interne Bewertungsskala soweit auf den aktuellen Leistungsstand des aktuellen Wettkampfes kalibriert haben, dass sie extreme Urteile fällen können ohne Rücksicht auf ihre Freiheitsgrade nehmen zu müssen. Dies hätte zur Folge, dass AthletInnen welche an der ersten Position in einem Wettkampf starten und sehr gute Leistungen zeigen, tendenziell eher schlechter bewertet werden als wenn sie später im Starterfeld an der Reihe wären. Eine schwache Leistung würde zu Beginn allerdings auch besser bewertet werden als später im Wettkampf.

Aktueller Forschungsstand zur Kalibrierung

Wenn Fußballschiedsrichter Foulszenen im Spielverlauf oder isoliert voneinander bewerteten zeigte sich, dass sich die Vergabe von gelben Karten bei der Bewertung der gleichen Szenen deutlich unterscheidet. Foulszenen vom Beginn eines Spiels welche im realen Spielverlauf (mit Information über die Spielzeit) präsentiert wurden, wurden nicht mit einer gelben Karte bewertet. Die gleichen Szenen wurden, wenn sie isoliert aus dem Spielverlauf (ohne Information über die Spielzeit) präsentiert wurden, konsequent mit einer gelben Karte bewertet (Unkelbach & Memmert, 2008, Experiment 1). Begründet wurde dieser Effekt damit, dass Schiedsrichter im realen Spielverlauf bestrebt sind ihre Freiheitsgrade zu Beginn des Spiels zu bewahren. Ein Schiedsrichter schränkt mit der frühen Vergabe einer gelben Karte seine Freiheitsgrade ein. Er muss für jedes gleichwertige folgende Foul ebenfalls Gelb zeigen, was zu überdurchschnittlich vielen Verwarnungen im Spielverlauf führen würde. Diese experimentell gewonnenen Ergebnisse stützen die Befunde einer Analyse von mehr als 1800 Fußballspielen (Memmert et al., 2008, Studie 1). In dieser konnte gezeigt werden, dass zu Beginn eines Spiels signifikant weniger gelbe Karten vergeben werden (vgl. Abb. 1). Ebenfalls wurde gezeigt, dass überdurchschnittlich viele gelbe Karten vergeben werden, wenn direkt zu Beginn eines Spiels Gelb gezeigt wurde. Bekommt ein Schiedsrichter wie bei Unkelbach und Memmert (2008) die Szenen nun unabhängig voneinander und isoliert aus dem realen Spielverlauf (ohne Information über die Spielzeit) präsentiert, muss er seine Freiheitsgrade nicht bewahren was zu den konsequent unterschiedlichen Entscheidungen im Vergleich mit denen im realen Spielverlauf (mit Information über die Spielzeit) führt.

Ähnlich wie ein Schiedsrichter Foulszenen im realen Verlauf eines Spiels nacheinander bewerten muss, gibt es an Schulen oder Universitäten, die Situation, dass LehrerInnen oder PrüferInnen mündliche Prüfungen auf einander folgend abnehmen und bewerten müssen. Bringt man die Idee der Kalibrierung und der damit zusammenhängenden Bewahrung von Freiheitsgraden zu Beginn einer Prüfungsserie auf die Situation von mündlichen Prüfungen, sollte sich folgendes interessantes Phänomen zeigen: Sehr gute Prüfungen zu Beginn müssten demnach schwächer bewertet werden, als wenn sie später in der Serie präsentiert werden. Umgekehrt würden schlechte Prüfungen zu Beginn besser und erst später mit der entsprechend schlechten Note bewertet werden. In mehreren experimentellen Studien untersuchten Unkelbach, Ostheimer, Fasold und Memmert (2012) diese hypothetische Annahme. PrüferInnen bekamen Videos von sechs mündlichen Prüfungen (Studierende der Sportwissenschaft) hintereinander präsentiert. Gute Prüfungsleistungen an der ersten Position in der Prüfungsserie wurden schlechter bewertet als wenn sie an der fünften Position präsentiert wurden. Diese Tendenz zur Mitte der Bewertungsskala zu Beginn der Prüfungsserie zeigte sich auch bei schlechten Prüfungen (Experiment 1). Eine zweite Studie mit gleichem Aufbau, die jedoch Abschriften dieser mündlichen Prüfungen als zu bewertende Leistung enthielt, zeigte die gleichen Ergebnisse. Dass eine große Expertise und Erfahrungswerte in Prüfungssituationen nicht per se vor einem Kalibrierungsprozess schützen, zeigte eine dritte experimentelle Untersuchung. ExpertInnen (DozentInnen im Fachbereich Sport) ließen genauso wie NovizInnen (Studierende der Sportwissenschaft) und Laien (Studierende der Psychologie) die bereits in den ersten beiden Experimenten gefundene Tendenz zur Mitte in ihren Bewertungen zu Beginn der Prüfungsserie erkennen. In einem abschließenden Experiment wurde die Frage aufgeworfen, wie sich der Kalibrierungsprozess verhält, wenn die Bewertungen nicht nach jeder gezeigten Leistung sondern erst am Ende der Prüfungssequenz, das heißt nach der Präsentation aller Leistungen, abgegeben werden. Diese End-of-Sequence Bewertungsmethode führte zwar immer noch zu leichten Tendenzen zur Mitte zu Beginn der Prüfungsserie, welche sich jedoch so gering waren, dass sie sich statistisch nicht mehr belegen ließen.

AutorInnen

Facebook