Bekomme ich immer schlechtere Bewertungen weil ich als Erster dran bin? Das Problem der Kalibrierung in Wettkampf- und Prüfungssituationen

Starte ich in einem Turnwettkampf als Erster, werde ich selten zu den Gewinnern gehören. Möchte ich erfolgreich den Eignungstest der Sporthochschule Köln absolvieren, stehen meine Chancen allerdings zu einem früheren Zeitpunkt besser, denn am zweiten Test-Tag sind die Durchfallquoten um etwa fünf Prozent höher. Diese Beispiele zeigen, dass in wichtigen Wettkampf- und Prüfungssituationen die Position an welcher ich in einer Reihe starte, einen Einfluss darauf haben kann, wie ich bewertet werde. Es stellt sich die Frage wie es dazu kommt und wie sich dieser Einfluss vermeiden lässt um Prüfungen fairer zu gestalten.

Problematik subjektiver Bewertungen in Urteilssituationen

Praktische und mündliche Prüfungen haben in allen Ausbildungsinstanzen (z. B. Schule, Universität) eine große Bedeutung. Ob Eignungstests oder Abiturprüfungen, meist präsentieren Prüflinge nach einander ihre Leistungen und werden unmittelbar nach ihrer Prüfung von einer/m PrüferIn oder einem Prüfungsgremium beurteilt. In Sportarten wie dem Turnen oder Eiskunstlaufen finden sich solche seriellen Bewertungssituationen ebenfalls wieder. In einem Wettkampf präsentiert ein/e AthletIn ihre/seine Leistung und wird direkt im Anschluss daran von den KampfrichterInnen beurteilt, bevor die nächsten AthletInnen folgen. Wie die PrüferInnen in mündlichen Prüfungen haben auch die KampfrichterInnen keine präzisen physikalischen Informationen (Zeiten, Höhen) zur Verfügung, welche eine Zuordnung der gesehenen Leistungen zu absoluten Kategorien (Noten, Punkte) ermöglicht. Wie gehen PrüferInnen oder KampfrichterInnen nun mit solchen Urteilssituationen um, in welchen Leistungen nacheinander bewertet werden? Wie kann gewährleistet werden, dass jeder Prüfling seiner Leistung entsprechend fair bewertet wird?

Da physikalische Größen fehlen, müssen die PrüferInnen auf einer internen Bewertungsskala, diese könnte im Turnen oder Eiskunstlaufen ein Notensystem sein, die dargebotenen Leistungen kategorisieren. In der psychologischen Forschung zur Urteils- und Entscheidungsfindung gibt es mehrere Ansätze welche diese Kategorisierung beschreiben. Zum einen wird davon ausgegangen, dass Urteile und Bewertungen immer im Vergleich von Personen oder Leistungen getroffen werden (Festinger, 1954). Zum anderen führen weitere theoretische Überlegungen zu der Annahme, dass in einer Bewertungssituation alle Urteile zwischen der besten und der schlechtesten Leistung dieser aktuellen Situation getroffen werden. Die beste und schlechteste Leistung stecken somit die Bezugspunkte bei subjektiven Bewertungen ab (Parducci 1965, 1968). Ebenfalls gilt als wichtiges Kriterium für subjektive Bewertungen die Konsistenz vergebener Urteile. Konsistenz meint in

Grand Prix Gymnastics 2009 von Alasdair Middleton via Flickr (https://www.flickr.com/photos/alza06/3808107615/in/photolist-6Nvso6-6NvxHR-6NzBPh-6NzAB1-6NzEw1-6NzGtN-6NzDcu-6NvyPR-6NzyYy-9zF2bK-9zEVfv-9zHWrq-9zEWjR-9zF18X-9zHXHd), cc (https://creativecommons.org/licenses/by/2.0/)

diesem Fall, dass gleiche Leistungen die gleiche Bewertung bekommen und unterschiedliche Leistungen auch unterschiedlich bewertet werden (Haubensak, 1992). Aufbauend auf die theoretischen Überlegungen lässt sich erklären wie zum Beispiel KampfrichterInnen im Turnen ihre interne Bewertungsskala entwickeln beziehungsweise vorgegebene Notensystem auf den aktuellen Wettkampf anwenden. Memmert, Unkelbach, Ertmer und Rechner (2008) sowie Unkelbach und Memmert (2008) entwickelten hierzu alternativ die Idee diese Skalenentwicklung als Kalibrierungsprozess darzustellen. Dieser Kalibrierungsprozess hat jedoch systematische Tendenzen in der Urteilsgebung zur Folge, sodass Prüflinge abhängig davon bewertet werden, ob sie als erster oder erst später die Prüfung absolvieren. Damit wäre eine faire und unabhängige Bewertung eines jeden Prüflings gefährdet.

Die Idee der Kalibrierung

An einem kurzen Beispiel soll nun erläutert werden wie sich die Kalibrierungsidee auf Urteilsprozesse in der Praxis anwenden ließe. In Sportarten wie dem Turnen präsentieren die AthletInnen ihre Leistungen nacheinander und werden direkt von den KampfrichterInnen bewertet. Für die KampfrichterInnen tritt mit dieser auf einander folgenden Leistungspräsentation ein interessantes Problem auf. Hier lassen sich zur Urteilsbildung keine objektiven Werte (z. B. Zeiten) heranziehen. Nach der Kalibrierungsidee setzt deshalb das Urteil über die Leistung in einem Wettkampf einen Bezugspunkt für alle folgenden Leistungen und Urteile. Alle folgenden Leistungen können besser oder schlechter sein als die Erste. Sollten die KampfrichterInnen ein extremes Urteil (beste oder schlechteste Punktzahl) für die erste Leistung vergeben ergibt sich ein Problem. Für folgende Leistungen wäre es nur noch möglich in eine Richtung auf der Notenskala zu unterscheiden. Um jedoch für weitere Urteile in beide Richtungen auf der Notenskala noch unterscheiden zu können ist nach der Kalibrierungsidee davon auszugehen, dass KampfrichterInnen im ersten Urteil vermehrt extreme Urteile vermeiden. Sie bewahren damit ihre Freiheitsgrade für folgende Urteile, da sowohl bessere und schlechtere Urteile noch möglich sind. Somit werden zu Beginn eines Wettkampfes vermehrt mittlere Noten vergeben. Nach mehreren Urteilen sollten die KampfrichterInnen ihre interne Bewertungsskala soweit auf den aktuellen Leistungsstand des aktuellen Wettkampfes kalibriert haben, dass sie extreme Urteile fällen können ohne Rücksicht auf ihre Freiheitsgrade nehmen zu müssen. Dies hätte zur Folge, dass AthletInnen welche an der ersten Position in einem Wettkampf starten und sehr gute Leistungen zeigen, tendenziell eher schlechter bewertet werden als wenn sie später im Starterfeld an der Reihe wären. Eine schwache Leistung würde zu Beginn allerdings auch besser bewertet werden als später im Wettkampf.

Aktueller Forschungsstand zur Kalibrierung

Wenn Fußballschiedsrichter Foulszenen im Spielverlauf oder isoliert voneinander bewerteten zeigte sich, dass sich die Vergabe von gelben Karten bei der Bewertung der gleichen Szenen deutlich unterscheidet. Foulszenen vom Beginn eines Spiels welche im realen Spielverlauf (mit Information über die Spielzeit) präsentiert wurden, wurden nicht mit einer gelben Karte bewertet. Die gleichen Szenen wurden, wenn sie isoliert aus dem Spielverlauf (ohne Information über die Spielzeit) präsentiert wurden, konsequent mit einer gelben Karte bewertet (Unkelbach & Memmert, 2008, Experiment 1). Begründet wurde dieser Effekt damit, dass Schiedsrichter im realen Spielverlauf bestrebt sind ihre Freiheitsgrade zu Beginn des Spiels zu bewahren. Ein Schiedsrichter schränkt mit der frühen Vergabe einer gelben Karte seine Freiheitsgrade ein. Er muss für jedes gleichwertige folgende Foul ebenfalls Gelb zeigen, was zu überdurchschnittlich vielen Verwarnungen im Spielverlauf führen würde. Diese experimentell gewonnenen Ergebnisse stützen die Befunde einer Analyse von mehr als 1800 Fußballspielen (Memmert et al., 2008, Studie 1). In dieser konnte gezeigt werden, dass zu Beginn eines Spiels signifikant weniger gelbe Karten vergeben werden (vgl. Abb. 1). Ebenfalls wurde gezeigt, dass überdurchschnittlich viele gelbe Karten vergeben werden, wenn direkt zu Beginn eines Spiels Gelb gezeigt wurde. Bekommt ein Schiedsrichter wie bei Unkelbach und Memmert (2008) die Szenen nun unabhängig voneinander und isoliert aus dem realen Spielverlauf (ohne Information über die Spielzeit) präsentiert, muss er seine Freiheitsgrade nicht bewahren was zu den konsequent unterschiedlichen Entscheidungen im Vergleich mit denen im realen Spielverlauf (mit Information über die Spielzeit) führt.

Ähnlich wie ein Schiedsrichter Foulszenen im realen Verlauf eines Spiels nacheinander bewerten muss, gibt es an Schulen oder Universitäten, die Situation, dass LehrerInnen oder PrüferInnen mündliche Prüfungen auf einander folgend abnehmen und bewerten müssen. Bringt man die Idee der Kalibrierung und der damit zusammenhängenden Bewahrung von Freiheitsgraden zu Beginn einer Prüfungsserie auf die Situation von mündlichen Prüfungen, sollte sich folgendes interessantes Phänomen zeigen: Sehr gute Prüfungen zu Beginn müssten demnach schwächer bewertet werden, als wenn sie später in der Serie präsentiert werden. Umgekehrt würden schlechte Prüfungen zu Beginn besser und erst später mit der entsprechend schlechten Note bewertet werden. In mehreren experimentellen Studien untersuchten Unkelbach, Ostheimer, Fasold und Memmert (2012) diese hypothetische Annahme. PrüferInnen bekamen Videos von sechs mündlichen Prüfungen (Studierende der Sportwissenschaft) hintereinander präsentiert. Gute Prüfungsleistungen an der ersten Position in der Prüfungsserie wurden schlechter bewertet als wenn sie an der fünften Position präsentiert wurden. Diese Tendenz zur Mitte der Bewertungsskala zu Beginn der Prüfungsserie zeigte sich auch bei schlechten Prüfungen (Experiment 1). Eine zweite Studie mit gleichem Aufbau, die jedoch Abschriften dieser mündlichen Prüfungen als zu bewertende Leistung enthielt, zeigte die gleichen Ergebnisse. Dass eine große Expertise und Erfahrungswerte in Prüfungssituationen nicht per se vor einem Kalibrierungsprozess schützen, zeigte eine dritte experimentelle Untersuchung. ExpertInnen (DozentInnen im Fachbereich Sport) ließen genauso wie NovizInnen (Studierende der Sportwissenschaft) und Laien (Studierende der Psychologie) die bereits in den ersten beiden Experimenten gefundene Tendenz zur Mitte in ihren Bewertungen zu Beginn der Prüfungsserie erkennen. In einem abschließenden Experiment wurde die Frage aufgeworfen, wie sich der Kalibrierungsprozess verhält, wenn die Bewertungen nicht nach jeder gezeigten Leistung sondern erst am Ende der Prüfungssequenz, das heißt nach der Präsentation aller Leistungen, abgegeben werden. Diese End-of-Sequence Bewertungsmethode führte zwar immer noch zu leichten Tendenzen zur Mitte zu Beginn der Prüfungsserie, welche sich jedoch so gering waren, dass sie sich statistisch nicht mehr belegen ließen.

Purple Sea von Janine Dupree via flickr (https://www.flickr.com/photos/neaners/144836834/in/photolist-dNmtz-dNk1X-dNk5j-dNkgX-dNkcA-dNjWN-dNk98-dNmxK-dNmwf-dNkpM-dNkAP-Nyv7a-dNkzi-dNm6W-dNjQf-dNjLQ-dNjSN-dNmgB-dNmoo-dNkuu-dNkrh-dNkkd-dNjGW-dNkPE-dNkE7-Nyviv-dNmjC-dNmbM-dNkU4-dNkFW-dNmzx-dNm5g-dNkRe-dNm9T-dNmdA-dNm2P-dNmC5-Nyvua-dNkxF-dNkNe-dNmrq-dNmHF-dNmFE-dNkC9-dNmKd-dNkWA-dNkYW-dNkT4-dNmE1-dNkK9), cc (https://creativecommons.org/licenses/by/2.0/)

Neben den aufgeführten, sehr spezifischen Studien zur Bewertung von Foulszenen und mündlichen Prüfungen sagt die Kalibrierungshypothese auch einen weiteren sehr interessanten Effekt vorher: Gehen PrüferInnen davon aus, mehrere Urteile in Folge zu fällen, bewahren sie mit mittleren Urteilen zu Beginn der Urteilsserie ihre Freiheitsgrade für folgende Urteile. Die Kalibrierungshypothese sagt dementsprechend jedoch auch voraus, dass wenn PrüferInnen nur eine Leistung bewerten sollen und somit auf Freiheitsgrade keine Rücksicht nehmen müssen, sie auch extreme Bewertungen auf ihrer Urteilsskala vergeben. In einer experimentellen Studie konnte dieser Erwartungseffekt gezeigt werden (Fasold, Memmert & Unkelbach, 2012). ProbandInnen die davon ausgingen nur eine Leistung (Turn-Kür) zu bewerten, vergaben signifikant häufiger extreme Bewertungen als ProbandInnen die davon ausgingen, im Anschluss noch weitere Leistungen zu bewerten. Beide Probandengruppen bekamen die gleiche Leistung präsentiert, einzig die Erwartung ob sie eine oder mehrere Leistungen bewerten sollen, unterschied die Gruppen.

Mögliche Interventionen zur Vermeidung unfairer Prüfungsbewertungen

Die in experimentellen Studien gezeigten Kalibrierungsprozesse und Erwartungseffekte bringen die Kalibrierungsidee als alternativen Erklärungsansatz für Urteilstendenzen in seriellen Bewertungssituationen auf. Sind KampfrichterInnen oder PrüferInnen zu Beginn des Wettkampfes oder der Prüfung nicht ausreichend auf den aktuellen Leistungsstand kalibriert, entstehen zu Beginn Tendenzen zur Mitte der Urteilsskala, was die Gefahr birgt, dass der Wettkampf oder die Prüfung nicht für jeden gleich fair ist. Sollte den KampfrichterInnen oder PrüferInnen jedoch die Möglichkeit gegeben werden, ihre Urteilsskala auf den aktuellen Leistungsstand zu kalibrieren bevor die Leistungsbewertung startet, könnten auch die AhtletInnen oder Prüflinge welche an der ersten Position ihre Leistung präsentieren dieser entsprechend und vor allen Dingen fair bewertet werden.

IMG_1661-01 von Raphael Goetter via flickr (https://www.flickr.com/photos/goetter/960831783/in/photolist-2sRaUR-4UNSXt-2sUvPe-4UT6Aq-4b98dm-6FssM2-6FssK8-9SXYPn-9T1NwN-9SiZzi-9SA8Mt-9SiZFZ-9SA8WF-9SD2KG-9SA8nc-9SD1Zy-9SmSN1-9SmSY1-9SD2QL-9SmSTw-9SD2Y7-9SmSw3-9SD2Cy-9SD2nY-9SXZkk), cc (https://creativecommons.org/licenses/by/2.0/)Wie lässt sich nun dafür sorgen, dass eine endgültige Kalibrierung zu Beginn des Wettkampfes oder der Prüfung gewährleistet wird? Die in Unkelbach et al. (2012) untersuchte End-of-Sequence Bewertungsmethode stellt eine Möglichkeit dar. Sie verliert jedoch in dem Moment ihre Umsetzbarkeit, in dem die Anzahl der Prüfungen die Anforderung an das Gedächtnis der PrüferInnen übersteigt. Eine Durchführung von zwei Bewertungsdurchgängen könnte eine Alternative sein, welche jedoch aus zeitökonomischen Gründen mit Sicherheit nicht in allen Situationen machbar ist. Eine weitere Möglichkeit wäre eine video-basierte Vorprüfung in welcher die PrüferInnen oder KampfrichterInnen Leistungen aus vorangegangenen gleichen Wettkämpfen oder Prüfungen präsentiert bekommen. Anzumerken ist hierbei, dass die neue Bewertungssituation einen neuen Leistungsstand darstellt welcher sich mehr oder weniger stark vom vorhergegangenen Leistungsstand unterscheiden kann und damit natürlich auch eine erneute Kalibrierung erfordern müsste. Es sollte allerdings davon auszugehen sein, dass sich der Leistungsstand vor allem in den gleichen sportlichen Wettkämpfen nicht in dem Maße verändert, dass eine komplette Neu- Kalibrierung erforderlich ist. Einfacher und zeitökonomisch sinnvoller erscheint jedoch einzig die Präsentation der Leistungsskala vergangener Wettkämpfe: Es werden die besten und schwächsten Leistungen vorangegangener Wettkämpfe präsentiert. Das Wissen über die Leistungsskala sollte eine Kalibrierung nicht erforderlich machen, da zu Beginn der Bewertungssituation ein Bezugsrahmen vorliegt, an welchem auch die ersten AthletInnen oder Prüflinge auf der Bewertungsskala fair bewertet werden können.

Fazit und Ausblick

Ziel dieses Artikels war es, einen kurzen Einblick in die Idee der Kalibrierung als Erklärung für systematische Tendenzen in wichtigen seriellen Urteilssituationen zu geben. KampfrichterInnen oder PrüferInnen bewahren zu Beginn eines Wettkampfes oder einer Prüfung ihre Freiheitsgrade für folgende Urteile, indem sie tendenziell eher mittlere Urteile fällen. Erst nach einer entsprechenden Kalibrierung auf den aktuellen Leistungsstand eines Wettkampfes oder einer Prüfung werden die Bewertungen differenzierter. Dieser Kalibrierungsprozess hat zur Folge, dass Leistungen abhängig von ihrer Position in einer Prüfungsserie beurteilt werden und es somit zu unfairen Urteilen kommen kann. Die vorgeschlagenen Interventionen (video-basierte Vorprüfung, video-basierte Leistungsskala-Präsentation) lassen den logischen Schluss zu, dass sich damit Kalibrierungsprozesse vermeiden lassen. Ein wissenschaftlicher Beleg über die Effektivität und Funktionalität solcher Maßnahmen steht jedoch noch aus und sollte Schwerpunkt weitergehender Forschungen sein, denn eine fairere Gestaltung nicht nur von Kampfrichterurteilen sondern vor allem auch von bedeutungsvollen Prüfungen wie Eignungstests oder Talentsichtungen sollte jederzeit erstrebenswert sein.

Literaturverzeichnis

  • Fasold, F., Memmert, D. & Unkelbach, C. (2012). Extreme judgments depend on the expectation of following judgments: A calibration analysis. Psychology of Sport and Exercise, 13, 197-200.

  • Festinger, L. (1954). A theory of social comparison processes. Human Relations, 7, 117-140.
  • Haubensak, G. (1992). The Consistency Model: A Process Model for Absolute Judgments. Journal of Experimental Psychology: Human Perception and Performance, 18, 303–309.
  • Memmert, D., Unkelbach, C., Rechner, M., & Ertmer, J. (2008). Gelb oder kein Gelb? Persönliche Verwarnungen im Fußball als Kalibrierungsproblem. Zeitschrift für Sportpsychologie, 15, 1-11.
  • Parducci, A. (1968). The relativism of absolute judgment. Scientific American, 219, 84-90.
  • Parducci, A. & Wedell, D. (1986). The category effect with rating scales: Number of categories, number of stimuli, and method of presentation. Journal of Experimental Psychology: Human Perception and Performance, 12, 496-516.
  • Unkelbach, C. & Memmert, D. (2008). Game-management, context-effects and calibration: The case of yellow cards in soccer. Journal of Sport & Exercise Psychology, 30, 95-109.
  • Unkelbach, C., Ostheimer, V., Fasold, F. & Memmert, D. (2012, in press). A calibration explanation of serial position effects in evaluative judgments. Organizational Behavior and Human Decision Processes.

Autor*innen