E-Klausuren für die Hochschule: Zeit der Veränderung

Haben Sie sich einmal erzählen lassen, wie Hochschulklausuren in Deutschland vor fünfzig Jahren abliefen? Die Erzählungen werden Sie vielleicht überraschen: Nicht sehr viel anders als vielerorts noch heute! Elektronische Klausuren ( E-Klausuren) finden derzeit jedoch im Rahmen von Digitalisierungsbewegungen verstärkt Eingang in deutsche Hochschulen und bringen frischen Wind ins Prüfungswesen. Im Zusammenhang mit der Einführung von E-Klausuren lassen sich eine ganze Reihe von sinnvollen Verbesserungen der derzeitigen Prüfungspraxis beschreiben und die Psychologie kann dabei wichtige Beiträge liefern.

Wer sich von älteren Studierendengenerationen den Ablauf von Hochschulklausuren von vor fünfzig Jahren in Deutschland beschreiben lässt, wird feststellen, wie wenig sich im Prüfungswesen an Hochschulen seit dieser Zeit getan hat. Haarschnitte und das Geschlechterverhältnis haben sich gewandelt, doch in Prozesse der Konstruktion, der Durchführung und der Bewertung von Hochschulklausuren ist an vielen Universitäten in Deutschland auch nach der Bologna-Reform nur wenig Bewegung gekommen. Seit kurzer Zeit ändert sich dies nun aber sehr deutlich. Elektronische Prüfungsformate und speziell elektronische Klausuren ( E-Klausuren) finden im Rahmen von Digitalisierungsbewegungen derzeit verstärkt Eingang in deutsche Hochschulen. Sie scheinen sich zum Katalysator für die Umsetzung einer ganzen Reihe von sinnvollen Verbesserungen der derzeitigen Prüfungspraxis zu entwickeln. Im Rahmen eines vom Bundeministerium für Bildung und Forschung finanzierten Forschungsprojektes wurde jüngst ein neues Konzept für elektronische Hochschulklausuren vorgelegt, welches vier zentrale Verbesserungen vorschlägt (Spoden & Frey, 2021):

1. Die ernsthafte Konzeption von Klausuren als Instrumente zum Messen des Umfangs des Kompetenzerwerbs (so wie dies eigentlich im Rahmen der Bologna-Reform vorgesehen, aber oftmals noch nicht konsequent umgesetzt ist). Um die Lernziele einer Lehrveranstaltung bei einer Klausur angemessen abzubilden, ist es notwendig, diese Lernziele zunächst explizit darzulegen. Beispielsweise ist es denkbar, den Gegenstand der Klausur als eine Kombination von Inhaltsbereichen und unterschiedlichen kognitiven Anforderungen in Form einer Matrix anzuordnen. Die Anforderungen lassen sich aus sogenannten Lehrzieltaxonomien wie jener von Bloom (1956) ableiten, welche als Vorlage zur Strukturierung von Lehrzielen dient. Die Zellen dieser Matrix können von den Prüfenden anschließend dann systematisch mit (nicht zwangsläufig gleich vielen) konstruierten Aufgaben gefüllt werden, die die jeweilige Kombination realisieren. Dieses Vorgehen stellt sicher, dass auch wirklich alle relevanten Anforderungen geprüft werden. Bild 1 zeigt, wie eine solche Matrix für Inhaltsbereiche einer forschungsmethodischen Grundlagenveranstaltung in der Psychologie (oder einem anderen sozialwissenschaftlichen Fach) und von links nach rechts zunehmend anspruchsvolleren kognitiven Anforderungen nach Bloom (1956) aussehen könnte. Für die Konstruktion von guten Aufgaben, die einen Rückschluss auf Kompetenzen der Studierenden ermöglichen, liegen verschiedene Empfehlungen (z. B. Haladyna & Rodriguez, 2013) vor, denen Prüfende folgen können und sollten. Das computerbasierte Format erlaubt aber gerade auch die Nutzung innovativer Aufgabenformate (z. B. mit Videosequenzen oder kleinen Simulationen) sowie das Bereitstellen fachspezifischer Hilfsmittel (z. B. Statistiksoftware), welche oftmals eine noch realistischere Überführung der Kompetenzanforderungen in Klausuraufgaben erlauben, da sich viele Anforderungen nicht gut in papierbasierten Klausuren umsetzen lassen.


Bild 1: Beispiel einer Matrix von Inhaltsbereichen und kognitiven Anforderungen von Klausuraufgaben.Bild 1: Beispiel einer Matrix von Inhaltsbereichen und kognitiven Anforderungen von Klausuraufgaben.

2. Die auf das Erreichen festgelegter Lernziele und Kompetenzanforderungen ausgerichtete Interpretation der Klausurergebnisse. Eine sogenannte kriteriumsorientierte Bewertung ist zielführend, um das Erreichen von Lernzielen bei Hochschulklausuren zu beurteilen. Dabei werden die individuellen Leistungen der Studierenden unabhängig von jenen der jeweiligen Studierendenkohorte bewertet. Klausurbewertungen nach dem Normalverteilungsprinzip (z. B. „Die besten 10% bekommen eine Eins, die nächsten 25 % eine Zwei, die nächsten 40 % eine Drei…“) finden unzweifelhaft vielerorts noch Anwendung, sind aber für die Konstruktion kompetenzorientierter Klausuren nicht geeignet. Genauso wenig geeignet ist die Orientierung an einem Anteil richtig bearbeiteter Aufgaben, zum Beispiel die öfters genutzte Festlegung, dass man zum Bestehen einer Klausur mindestens 50% der Aufgaben richtig beantwortet haben muss. Zielführend ist vielmehr die Konstruktion von Klausuren im Sinne des in der Psychologie und der Bildungsforschung genutzten Konzepts des kriteriumsorientierten Testens (vgl. Herzberg & Frey, 2011) und die Auswertung der Klausuren mit Hilfe der Item Response Theory (IRT; van der Linden, 2016), die zum Beispiel auch bei internationalen Schulleistungsvergleichen wie PISA zum Einsatz kommt. Die IRT beinhaltet statistische Modelle, die Aussagen dazu ermöglichen, mit welcher Wahrscheinlichkeit die einem Lernziel entsprechenden Aufgabenanforderungen von Studierenden mit einer bestimmten (geschätzten) Kompetenz bewältigt und die Aufgaben gelöst werden können. Sie liefert somit eine formale Grundlage zur Verknüpfung von Kompetenzanforderungen und Studierendenkompetenz. Es ist dann lediglich anhand inhaltlicher Überlegungen festzulegen, welche Lösungswahrscheinlichkeit als sicheres Beherrschen der Anforderungen interpretiert wird. Auch für die rationale Festlegung der Grenzwerte zwischen Notenstufen und die Überführung der geschätzten Kompetenzausprägungen in diese gibt es bereits Lösungen aus den Schulleistungsvergleichen (sogenannte Verfahren des Standard Settings wie z. B. die Bookmark-Methode), die bislang jedoch (noch) nicht zu den üblichen Empfehlungen zur Konstruktion von Hochschulklausuren gehören.

3. Die Verbesserung der Fairness der Notengebung über verschiedene Studierendenkohorten durch Konstanthaltung des Bewertungsmaßstabs (unter der Voraussetzung weitgehend konstanter, zu prüfender Inhalte). Um die Anforderungen zum Erreichen verschiedener Notenstufen über verschiedene Studierendenkohorten konstant zu halten und so eine auch für Studierende wahrnehmbare Fairness herzustellen, können sogenannte Equating-Methoden (Kolen & Brennan, 2014) genutzt werden. Sie ermöglichen es, den Bewertungsmaßstab einer Klausur auf die Klausurbewertungen in Nachklausuren und in Folgejahren zu übertragen und dabei Unterschiede in der Schwierigkeit zwischen verschiedenen Klausurzusammenstellungen bei der Bestimmung der Notenstufen zu berücksichtigen. Vereinfacht ausgedrückt: Sofern eine nachfolgende Studierendenkohorte im Vergleich zur vorherigen Kohorte durchschnittlich etwas schwierigere Aufgaben erhält, resultieren bei gleicher Anzahl richtig gelöster Aufgaben etwas bessere Kompetenzausprägungen; wenn die nachfolgende Studierendenkohorte hingegen durchschnittlich etwas leichtere Aufgaben erhält, fallen die Kompetenzausprägungen etwas niedriger aus. Die Voraussetzungen sind hierbei, dass ein kleiner Teil der Aufgaben aus vorangegangenen Klausuren erneut eingesetzt werden kann und keine systematischen Verzerrungen in der Schwierigkeit der Aufgaben (z. B. durch Bekanntwerden der Aufgaben und mögliches gezieltes Vorbereiten der Aufgabenlösung durch Studierende vor der Klausur) identifiziert werden. Dies kann dadurch sichergestellt werden, dass die Klausuraufgaben grundsätzlich geheim gehalten und lediglich ähnliche Aufgaben zur Vorbereitung freigegeben werden. Mit der Konstanthaltung des Bewertungsmaßstabs besitzen Prüfende überzeugende Argumente gegen die häufig vorgebrachten Beschwerden über eine (im Vergleich zu Vorjahren) zu hohe Schwierigkeit der aktuellen Klausur. Für die Studierenden erübrigt es sich, eine anstehende Klausur zugunsten einer vermeintlich leichteren Nachklausur auszulassen. Als Nebeneffekt sollte damit auch das Prokrastinieren, also das chronische Aufschieben unliebsamer aber notwendiger Tätigkeiten, beim Lernen reduziert werden.

4. Die noch belastbarere Benotung mit Hilfe einer computerisiert-adaptiven Aufgabenauswahl im individuellen Kompetenzbereich der Studierenden. Während bei üblichen Klausuren alle Aufgaben allen Studierenden ohne Berücksichtigung ihrer Leistungsfähigkeit und Kompetenz vorgegeben werden, werden beim computerisierten adaptiven Testen (CAT; z. B. Frey, 2020) die Klausuraufgaben vom Computer individuell im Hinblick auf die genaue Bestimmung der Kompetenz der Studierenden Bild 2: Flussdiagramm zum Grundprinzip des computerisierten adaptiven Testens (nach Frey, 2020). Anm.: Als Abbruchkriterium für die Beendigung einer Klausur dient üblicherweise die Bearbeitung einer vorher festgelegten Aufgabenanzahl (z. B. 30 Aufgaben), das Überschreiten einer Zeitvorgabe zur Klausurbearbeitung (z. B. 90 Minuten) oder das Erreichen einer gewissen Sicherheit bei der Schätzung der Studierendenkompetenz durch das Unterschreiten einer zuvor festgelegten Größe des Standardfehlers.Bild 2: Flussdiagramm zum Grundprinzip des computerisierten adaptiven Testens (nach Frey, 2020). Anm.: Als Abbruchkriterium für die Beendigung einer Klausur dient üblicherweise die Bearbeitung einer vorher festgelegten Aufgabenanzahl (z. B. 30 Aufgaben), das Überschreiten einer Zeitvorgabe zur Klausurbearbeitung (z. B. 90 Minuten) oder das Erreichen einer gewissen Sicherheit bei der Schätzung der Studierendenkompetenz durch das Unterschreiten einer zuvor festgelegten Größe des Standardfehlers.ausgewählt. Der Ablauf (Bild 2) entspricht in etwa dem vieler mündlicher Prüfungen: Hat sich eine Studentin oder ein Student bei den ersten Aufgaben als kompetent erwiesen, so werden nachfolgend systematisch schwierigere Aufgaben ausgewählt; hat die Person jedoch Schwierigkeiten bei der Lösung der ersten Aufgaben, so wählt der Computer im Anschluss leichtere Aufgaben zur Vorlage aus. Die darauffolgende Auswahl schwierigerer oder leichterer Aufgaben wird dann wiederum von der richtigen oder falschen Beantwortung der zuvor vorgegebenen Aufgaben abhängig gemacht. Bei der Berechnung der Studierendenleistung wird die Schwierigkeit der vorgegebenen Aufgaben natürlich berücksichtigt, jedoch erhalten Studierende keine individuell zu schwierigen oder zu leichten Aufgaben. Geprüft wird also im individuellen Kompetenzbereich der Studierenden, was es ermöglicht, die Kompetenzausprägungen genauer (heißt konkret: mit geringerem Messfehler, der die Genauigkeit der Kompetenzschätzung angibt) in Notenstufen zu überführen. 

AutorInnen

Facebook