E-Klausuren für die Hochschule: Zeit der Veränderung
Haben Sie sich einmal erzählen lassen, wie Hochschulklausuren in Deutschland vor fünfzig Jahren abliefen? Die Erzählungen werden Sie vielleicht überraschen: Nicht sehr viel anders als vielerorts noch heute! Elektronische Klausuren ( E-Klausuren) finden derzeit jedoch im Rahmen von Digitalisierungsbewegungen verstärkt Eingang in deutsche Hochschulen und bringen frischen Wind ins Prüfungswesen. Im Zusammenhang mit der Einführung von E-Klausuren lassen sich eine ganze Reihe von sinnvollen Verbesserungen der derzeitigen Prüfungspraxis beschreiben und die Psychologie kann dabei wichtige Beiträge liefern.
Wer sich von älteren Studierendengenerationen den Ablauf von Hochschulklausuren von vor fünfzig Jahren in Deutschland beschreiben lässt, wird feststellen, wie wenig sich im Prüfungswesen an Hochschulen seit dieser Zeit getan hat. Haarschnitte und das Geschlechterverhältnis haben sich gewandelt, doch in Prozesse der Konstruktion, der Durchführung und der Bewertung von Hochschulklausuren ist an vielen Universitäten in Deutschland auch nach der Bologna-Reform nur wenig Bewegung gekommen. Seit kurzer Zeit ändert sich dies nun aber sehr deutlich. Elektronische Prüfungsformate und speziell elektronische Klausuren ( E-Klausuren) finden im Rahmen von Digitalisierungsbewegungen derzeit verstärkt Eingang in deutsche Hochschulen. Sie scheinen sich zum Katalysator für die Umsetzung einer ganzen Reihe von sinnvollen Verbesserungen der derzeitigen Prüfungspraxis zu entwickeln. Im Rahmen eines vom Bundeministerium für Bildung und Forschung finanzierten Forschungsprojektes wurde jüngst ein neues Konzept für elektronische Hochschulklausuren vorgelegt, welches vier zentrale Verbesserungen vorschlägt (Spoden & Frey, 2021):
1. Die ernsthafte Konzeption von Klausuren als Instrumente zum Messen des Umfangs des Kompetenzerwerbs (so wie dies eigentlich im Rahmen der Bologna-Reform vorgesehen, aber oftmals noch nicht konsequent umgesetzt ist). Um die Lernziele einer Lehrveranstaltung bei einer Klausur angemessen abzubilden, ist es notwendig, diese Lernziele zunächst explizit darzulegen. Beispielsweise ist es denkbar, den Gegenstand der Klausur als eine Kombination von Inhaltsbereichen und unterschiedlichen kognitiven Anforderungen in Form einer Matrix anzuordnen. Die Anforderungen lassen sich aus sogenannten Lehrzieltaxonomien wie jener von Bloom (1956) ableiten, welche als Vorlage zur Strukturierung von Lehrzielen dient. Die Zellen dieser Matrix können von den Prüfenden anschließend dann systematisch mit (nicht zwangsläufig gleich vielen) konstruierten Aufgaben gefüllt werden, die die jeweilige Kombination realisieren. Dieses Vorgehen stellt sicher, dass auch wirklich alle relevanten Anforderungen geprüft werden. Bild 1 zeigt, wie eine solche Matrix für Inhaltsbereiche einer forschungsmethodischen Grundlagenveranstaltung in der Psychologie (oder einem anderen sozialwissenschaftlichen Fach) und von links nach rechts zunehmend anspruchsvolleren kognitiven Anforderungen nach Bloom (1956) aussehen könnte. Für die Konstruktion von guten Aufgaben, die einen Rückschluss auf Kompetenzen der Studierenden ermöglichen, liegen verschiedene Empfehlungen (z. B. Haladyna & Rodriguez, 2013) vor, denen Prüfende folgen können und sollten. Das computerbasierte Format erlaubt aber gerade auch die Nutzung innovativer Aufgabenformate (z. B. mit Videosequenzen oder kleinen Simulationen) sowie das Bereitstellen fachspezifischer Hilfsmittel (z. B. Statistiksoftware), welche oftmals eine noch realistischere Überführung der Kompetenzanforderungen in Klausuraufgaben erlauben, da sich viele Anforderungen nicht gut in papierbasierten Klausuren umsetzen lassen.
2. Die auf das Erreichen festgelegter Lernziele und Kompetenzanforderungen ausgerichtete Interpretation der Klausurergebnisse. Eine sogenannte kriteriumsorientierte Bewertung ist zielführend, um das Erreichen von Lernzielen bei Hochschulklausuren zu beurteilen. Dabei werden die individuellen Leistungen der Studierenden unabhängig von jenen der jeweiligen Studierendenkohorte bewertet. Klausurbewertungen nach dem Normalverteilungsprinzip (z. B. „Die besten 10% bekommen eine Eins, die nächsten 25 % eine Zwei, die nächsten 40 % eine Drei…“) finden unzweifelhaft vielerorts noch Anwendung, sind aber für die Konstruktion kompetenzorientierter Klausuren nicht geeignet. Genauso wenig geeignet ist die Orientierung an einem Anteil richtig bearbeiteter Aufgaben, zum Beispiel die öfters genutzte Festlegung, dass man zum Bestehen einer Klausur mindestens 50% der Aufgaben richtig beantwortet haben muss. Zielführend ist vielmehr die Konstruktion von Klausuren im Sinne des in der Psychologie und der Bildungsforschung genutzten Konzepts des kriteriumsorientierten Testens (vgl. Herzberg & Frey, 2011) und die Auswertung der Klausuren mit Hilfe der Item Response Theory (IRT; van der Linden, 2016), die zum Beispiel auch bei internationalen Schulleistungsvergleichen wie PISA zum Einsatz kommt. Die IRT beinhaltet statistische Modelle, die Aussagen dazu ermöglichen, mit welcher Wahrscheinlichkeit die einem Lernziel entsprechenden Aufgabenanforderungen von Studierenden mit einer bestimmten (geschätzten) Kompetenz bewältigt und die Aufgaben gelöst werden können. Sie liefert somit eine formale Grundlage zur Verknüpfung von Kompetenzanforderungen und Studierendenkompetenz. Es ist dann lediglich anhand inhaltlicher Überlegungen festzulegen, welche Lösungswahrscheinlichkeit als sicheres Beherrschen der Anforderungen interpretiert wird. Auch für die rationale Festlegung der Grenzwerte zwischen Notenstufen und die Überführung der geschätzten Kompetenzausprägungen in diese gibt es bereits Lösungen aus den Schulleistungsvergleichen (sogenannte Verfahren des Standard Settings wie z. B. die Bookmark-Methode), die bislang jedoch (noch) nicht zu den üblichen Empfehlungen zur Konstruktion von Hochschulklausuren gehören.
3. Die Verbesserung der Fairness der Notengebung über verschiedene Studierendenkohorten durch Konstanthaltung des Bewertungsmaßstabs (unter der Voraussetzung weitgehend konstanter, zu prüfender Inhalte). Um die Anforderungen zum Erreichen verschiedener Notenstufen über verschiedene Studierendenkohorten konstant zu halten und so eine auch für Studierende wahrnehmbare Fairness herzustellen, können sogenannte Equating-Methoden (Kolen & Brennan, 2014) genutzt werden. Sie ermöglichen es, den Bewertungsmaßstab einer Klausur auf die Klausurbewertungen in Nachklausuren und in Folgejahren zu übertragen und dabei Unterschiede in der Schwierigkeit zwischen verschiedenen Klausurzusammenstellungen bei der Bestimmung der Notenstufen zu berücksichtigen. Vereinfacht ausgedrückt: Sofern eine nachfolgende Studierendenkohorte im Vergleich zur vorherigen Kohorte durchschnittlich etwas schwierigere Aufgaben erhält, resultieren bei gleicher Anzahl richtig gelöster Aufgaben etwas bessere Kompetenzausprägungen; wenn die nachfolgende Studierendenkohorte hingegen durchschnittlich etwas leichtere Aufgaben erhält, fallen die Kompetenzausprägungen etwas niedriger aus. Die Voraussetzungen sind hierbei, dass ein kleiner Teil der Aufgaben aus vorangegangenen Klausuren erneut eingesetzt werden kann und keine systematischen Verzerrungen in der Schwierigkeit der Aufgaben (z. B. durch Bekanntwerden der Aufgaben und mögliches gezieltes Vorbereiten der Aufgabenlösung durch Studierende vor der Klausur) identifiziert werden. Dies kann dadurch sichergestellt werden, dass die Klausuraufgaben grundsätzlich geheim gehalten und lediglich ähnliche Aufgaben zur Vorbereitung freigegeben werden. Mit der Konstanthaltung des Bewertungsmaßstabs besitzen Prüfende überzeugende Argumente gegen die häufig vorgebrachten Beschwerden über eine (im Vergleich zu Vorjahren) zu hohe Schwierigkeit der aktuellen Klausur. Für die Studierenden erübrigt es sich, eine anstehende Klausur zugunsten einer vermeintlich leichteren Nachklausur auszulassen. Als Nebeneffekt sollte damit auch das Prokrastinieren, also das chronische Aufschieben unliebsamer aber notwendiger Tätigkeiten, beim Lernen reduziert werden.
4. Die noch belastbarere Benotung mit Hilfe einer computerisiert-adaptiven Aufgabenauswahl im individuellen Kompetenzbereich der Studierenden. Während bei üblichen Klausuren alle Aufgaben allen Studierenden ohne Berücksichtigung ihrer Leistungsfähigkeit und Kompetenz vorgegeben werden, werden beim computerisierten adaptiven Testen (CAT; z. B. Frey, 2020) die Klausuraufgaben vom Computer individuell im Hinblick auf die genaue Bestimmung der Kompetenz der Studierenden ausgewählt. Der Ablauf (Bild 2) entspricht in etwa dem vieler mündlicher Prüfungen: Hat sich eine Studentin oder ein Student bei den ersten Aufgaben als kompetent erwiesen, so werden nachfolgend systematisch schwierigere Aufgaben ausgewählt; hat die Person jedoch Schwierigkeiten bei der Lösung der ersten Aufgaben, so wählt der Computer im Anschluss leichtere Aufgaben zur Vorlage aus. Die darauffolgende Auswahl schwierigerer oder leichterer Aufgaben wird dann wiederum von der richtigen oder falschen Beantwortung der zuvor vorgegebenen Aufgaben abhängig gemacht. Bei der Berechnung der Studierendenleistung wird die Schwierigkeit der vorgegebenen Aufgaben natürlich berücksichtigt, jedoch erhalten Studierende keine individuell zu schwierigen oder zu leichten Aufgaben. Geprüft wird also im individuellen Kompetenzbereich der Studierenden, was es ermöglicht, die Kompetenzausprägungen genauer (heißt konkret: mit geringerem Messfehler, der die Genauigkeit der Kompetenzschätzung angibt) in Notenstufen zu überführen.
Darüber hinaus ist die computerbasierte Durchführung geeignet, große Teile der Klausurdurchführung und -auswertung zu automatisieren und somit den enorm hohen Prüfungsaufwand mit bis zu vierstelligen Studierendenzahlen in Grundlagenveranstaltungen größerer Universitäten besser zu bewältigen.
Diese vier genannten grundlegenden Prinzipien adaptiver kompetenzorientierter E-Klausuren (Bild 3) versprechen nicht nur, Klausuren ins digitale Zeitalter, sondern auch die hohen Qualitätsstandards der mit dem Prüfen und Testen befassten Teildisziplinen der Psychologie (Psychologische Diagnostik, Psychometrie) in die Hochschullehre zu überführen. Mit ihnen werden Hochschulklausuren dann wirklich kompetenzorientiert, fair und in der Notengebung noch belastbarer. Doch wie werden diese Veränderungen von Prüfenden und Studierenden wahrgenommen? Um diese Frage zu beantworten, wurden eine Reihe von Erprobungsstudien durchgeführt.
Ergebnisse zur Erprobung adaptiver kompetenzorientierter E-Klausuren
Online-Befragung bei Prüfenden
Um zu untersuchen, welche Faktoren für die Prüfenden über den Einsatz adaptiver E-Klausuren entscheiden, wurden bekannte theoretische Modelle zur Technologieakzeptanz (z. B. Davis, Bagozzi & Warshaw, 1989) adaptiert und auf Basis einer großen Online-Befragung (fast 500 Prüfende von 74 deutschen Hochschulen aus 35 verschiedenen Fachbereichen) empirisch geprüft (Spoden, Frey, Fink & Naumann, 2020). In der Studie wurden die Bereitschaft digitale Medien in Lehrveranstaltungen zu nutzen, subjektive Normen im Hinblick auf die Nutzung, die wahrgenommene Nützlichkeit und auch begünstigende Rahmenbedingungen wie organisationale und technische Ressourcen erfragt. Es wurde untersucht, inwiefern diese mit der Absicht zur Nutzung adaptiver kompetenzorientierter E-Klausuren in Verbindung stehen.
Die Ergebnisse zum Modell standen in Einklang mit bekannten Befunden und legten nahe, dass die wahrgenommene Nützlichkeit von adaptiven kompetenzorientierten E-Klausuren von entscheidender Bedeutung für die Ausprägung einer Nutzungsabsicht ist. Dies ist im Hinblick auf die erfolgreiche Umsetzung des Konzeptes an deutschen Hochschulen ein gutes Ergebnis, da die Einschätzung der Nützlichkeit durch die Prüfenden beispielsweise anhand der Vermittlung der Vorteile adaptiver kompetenzorientierter E-Klausuren im Rahmen von Veranstaltungen der Hochschuldidaktik beeinflussbar ist (siehe unten). Subjektive Normen der Prüfenden, die als die durch das soziale Umfeld geprägten positiven oder negativen Einstellungen zur Nutzung digitaler Medien in der Lehre zu verstehen sind, wirkten sich nur leicht (positiv) auf die wahrgenommene Nützlichkeit aus, beeinflussten hingegen nicht direkt die Nutzungsabsicht. Infrastrukturtechnische Rahmenbedingungen spielten keine Rolle. Letzterer Befund könnte dadurch zu erklären sein, dass die digitalisierungsspezifische Infrastruktur (z. B. PC-Pools zur Durchführung von E-Klausuren) an Hochschulen tatsächlich schon weiter ausgebaut ist als gemeinhin angenommen oder die Prüfenden zumindest von ihrem zeitnahen Ausbau überzeugt sind, sodass sie dies nicht als relevanten Faktor bezüglich ihrer Absicht zur Nutzung des Konzeptes wahrnehmen.
Workshop-Evaluation
Um Möglichkeiten zur Steigerung der eingeschätzten Nützlichkeit des Konzeptes zu erproben, wurde an der Goethe-Universität Frankfurt am Main ein eintägiger Workshop (in Präsenz) zum Konzept für Lehrende und Prüfende an Hochschulen durchgeführt und evaluiert. In diesem Workshop wurden verschiedene Elemente des Konzeptes erläutert und an Beispielen illustriert. Die Umsetzung des beschriebenen Vorgehens wurde dabei in Übungen trainiert und reflektiert. Es wurde insbesondere untersucht, (1) wie die Teilnehmenden auf den Workshop reagierten, (2) ob Wissenszuwächse nachzuweisen waren, (3) ob die Veranstaltung als nützlich eingeschätzt wurde und ob (4) die Teilnehmenden beabsichtigen, kriteriumsorientierte computerbasierte Klausuren in der Zukunft einzusetzen. Die Ergebnisse verdeutlichten, dass die Teilnehmenden positiv auf den Workshop reagierten und in der Tat einen Lernzuwachs nach der Workshop-Durchführung aufwiesen. Insbesondere aber wurde das Konzept von der deutlichen Mehrheit als nützlich eingeschätzt und es wurde Interesse am Einsatz des Konzeptes in der abschließenden Befragung zum Ausdruck gebracht. Die Ergebnisse ergänzten die Befragung bei Prüfenden und gaben einen klaren Hinweis dahingehend, dass die eingeschätzte Nützlichkeit (als Schlüsselmerkmal zur Erhöhung der Nutzungsabsicht) durch Vermittlung der Vorteile adaptiver kompetenzorientierter E-Klausuren tatsächlich verbessert werden kann. Der Workshop ist auch als Video über die Projektwebseite https://kat-hs.uni-frankfurt.de/materialien/workshop/ verfügbar
Studierendenbefragung
Schließlich wurde das Konzept auch im regulären Klausurbetrieb an der Friedrich-Schiller-Universität Jena erprobt (Spoden, Fink & Frey, 2021). In einer Befragung verglichen Studierende ihre üblichen emotionalen Erfahrungen und ihre wahrgenommene Kontrollerfahrung bei Klausuren (Vorab-Befragung), welche die Überzeugung der Beeinflussbarkeit des Klausurergebnisses aufgrund eigener Kompetenz und Anstrengung beschreibt, mit jenen bei der neuartigen Klausurkonzeption (Befragung durchgeführt nach der Klausur). Die Ergebnisse verdeutlichten leicht geringere Ausprägungen, sowohl bei positiven als auch bei negativen Emotionen nach der Klausur. Diese stärkere Indifferenz könnte durch die Erschöpfung nach der kognitiv anspruchsvollen Tätigkeit zu erklären sein. Auch wurde die wahrgenommene Kontrollerfahrung im Vergleich zu konventionellen Klausuren niedriger eingeschätzt, was allerdings aufgrund der adaptiven Testdurchführung, die ein Vor- und Zurückspringen zwischen Aufgaben während der Klausur ausgeschlossen hatte, zu erwarten war. Bei der Bewertung der Ergebnisse ist ferner zu berücksichtigen, dass der Klausurinhalt Statistik zu den unbeliebten Inhalten in sozial- und verhaltenswissenschaftlichen Studiengängen zählt (z. B. Gal & Ginsburg, 1994), sodass hier von einem gewissen negativen Bias, also einer Tendenz zu einer negativeren Bewertung in den Antworten auszugehen war. In der Zusammenschau weisen die Ergebnisse jedoch nicht darauf hin, dass grundlegende Konflikte mit Studierenden bei der Nutzung des neuartigen Konzeptes adaptiver kompetenzorientierter E-Klausuren zu erwarten sind. Die Ergebnisse geben aber Hinweise auf weitere Verbesserungsmöglichkeiten, etwa der Ermöglichung einer Korrektur der Aufgabenlösung bei der computerisiert-adaptiven Durchführung der Klausur (vgl. z. B. Cui, Liu, He & Chen, 2018) zur Stärkung der wahrgenommenen Kontrollerfahrung.
Fazit
In der Zusammenfassung der bisherigen Ergebnisse liegt ein bei verschiedenen Interessengruppen inzwischen gut erprobtes Konzept für E-Klausuren (Spoden & Frey, 2021) vor, welches erfolgsversprechende Möglichkeiten einer digitalen Hochschullehre nutzt. Die Automatisierung bei Klausurdurchführung, Dateneingabe, - auswertung und Ergebnisrückmeldung ermöglicht es, den in vielen Studiengängen enormen Prüfungsaufwand mit bis zu vierstelligen Studierendenzahlen in Grundlagenveranstaltungen sehr deutlich zu reduzieren. Das Zurückgreifen auf etablierten Verfahren, wie sie etwa in internationalen Schulleistungsvergleichen bereits seit langer Zeit genutzt werden, liefert eine stabile wissenschaftliche Basis für die Festlegung von Qualitätsstandards für eine moderne Klausurgestaltung und die Rückmeldung fairer Klausurergebnisse. Insbesondere Studierende werden diese Verbesserungen der Prüfungspraxis an den transparenten Anforderungen, der auch über Kohorten hinweg fairen Benotung und der möglichen Reduktion der Prüfungszeit durch CAT festmachen können, die entsprechend der oben beschriebenen Studierendenbefragung nicht durch eine deutlich negative Bewertung der Klausurdurchführung (z. B. aufgrund von Technologieängstlichkeit) getrübt wird. Die rechtlichen Rahmenbedingungen im deutschen Hochschulwesen erlauben darüber hinaus eine optimistische Einschätzung der Möglichkeiten zur Nutzung des Konzeptes (Frey, Spoden, Fink & Born, 2020). Auch wenn vermutlich nicht alle Elemente dieser Konzeption in absehbarer Zeit bereits flächendeckender Standard der Prüfungspraxis sein werden, stellt doch bereits die Umsetzung einzelner dieser Handlungsprinzipien wahrnehmbare Verbesserungen gegenüber der langjährigen Prüfungspraxis dar. Eine erfolgsversprechende Umsetzung dürfte insbesondere dann zu erwarten sein, wenn Prüfenden die Gelegenheit geboten wird, sich im Rahmen von hochschuldidaktischen Fortbildungen auch zu testtheoretisch fundierten Methoden der Prüfungskonzeption fortzubilden. Die Umsetzung aller oben dargestellten Prinzipien, gegebenenfalls mit Unterstützung der für E-Klausuren verantwortlichen Personen in der Hochschuldidaktik, untermauert die während der Covid-19- Pandemie oftmals aus der Not heraus geborene Umstellung auf digitale Prüfungssysteme mit einer wissenschaftlich tragfähigen Konzeption. Die neuartige Konzeption von E-Klausuren ist somit ein gutes Beispiel dafür, dass die Psychologie neben wichtigen Forschungsinhalten auch durch starke angewandte Methodik (hier konkret: Verfahrensweisen der Testkonstruktion) Lösungen zu gesellschaftlich relevanten Herausforderungen bereitstellt.
Bildquellen
Bild 1: Erstellt von den Autoren.
Bild 2: Erstellt von den Autoren nach Frey (2020).
Bild 3: Erstellt von den Autoren.
Literaturverzeichnis
Bloom, B. (Ed.) (1956). Taxonomy of Educational Objectives, the classification of educational goals – Handbook I: Cognitive Domain. McKay.
Cui, Z., Liu, C., He, Y., & Chen, H. (2018). Evaluation of a new method for providing full review opportunities in computerized adaptive testing—computerized adaptive testing with salt. Journal of Educational Measurement, 55, 582-594. https://doi.org/10.1111/jedm.12193
Davis, F.D., Bagozzi, R.P., & Warshaw, P.R. (1989). User acceptance of computer technology: a comparison of two theoretical models. Management Science, 35, 982–1003. https://doi.org/10.1287/mnsc.35.8.982
Frey, A. (2020). Computerisiertes adaptives Testen. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (3.Aufl., S. 501 524). Springer.
Frey, A., Spoden, C., Fink, A. & Born, S. (2020). Kompetenzorientierte individualisierte Hochschulklausuren und deren prüfungsrechtliche Einordnung. eleed, 13. Verfügbar unter: urn:nbn:de:0009-5-51197
Gal, I., & Ginsburg, L. (1994). The role of beliefs and attitudes in learning statistics: Towards an assessment framework. Journal of Statistics Education, 2(2), 1–15. https://doi.org/10.1080/10691898.1994.11910471
Haladyna, T. M., & Rodriguez, M. C. (2013). Developing and validating test items. Taylor & Francis.
Herzberg, P. Y., & Frey, A. (2011). Kriteriumsorientierte Diagnostik. In L. F. Hornke, M. Amelang, & M. Kersting (Hrsg.), Enzyklopädie der Psychologie: Methoden der Psychologische Diagnostik: Serie2/ Bd. 2 (S. 281-324). Hogrefe.
Kolen, M. J., & Brennan, R. L. (2014). Test Equating, Scaling and Linking: Methods and Practices (3rd ed.). Springer.
Spoden, C., Fink, A., & Frey, A. (2021). Psychometrically sound technology-based assessment on a regular basis: evaluating the innovative approach of criterion-referenced adaptive university e-exams. Manuscript in preparation.
Spoden, C., & Frey, A. (Hrsg.) (2021). Psychometrisch fundierte E-Klausuren für die Hochschule. Pabst Science Publishers.
Spoden, C., Frey, A., Fink, A., & Naumann, P. (2020). Kompetenzorientierte elektronische Hochschulklausuren im Studium des Lehramts. In K. Kaspar, M. Becker-Mrotzeck, J. Hofhues, J. König & D. Schmeinck (Hrsg.), Bildung, Schule und Digitalisierung (S. 184–189). Waxmann. Verfügbar unter: https://www.waxmann.com/index.php?eID=download&buchnr=4246
van der Linden, W. J. (Ed.). (2016). Handbook of item response theory. Volume one: Models. Chapman & Hall/CRC. https://doi.org/10.1201/9781315374512