Wenn wir der KI unsere Symptome schildern: Weniger Details, mehr Risiko?

Stell dir vor, du hast plötzlich starke Kopfschmerzen. Um abzuklären, ob du ärztliche Unterstützung benötigst, schilderst du deine Symptome einem Chatbot. Aber würdest du dem Chatbot deine Symptome genauso beschreiben wie einem Arzt oder einer Ärztin?

Medizinische Beratung beginnt fast immer gleich: Patient:innen schildern ihre Beschwerden. Diese Informationen bilden dann die Grundlage für jede weitere Einschätzung. Doch würden Patient:innen ihre Symptome auf die gleiche Weise schildern, wenn sie anstatt eines Arztes oder einer Ärztin mit einer KI interagieren? Genau diese Frage stand im Fokus einer kürzlich erschienen Studie unserer Würzburger Arbeitsgruppe, die in Kooperation mit Wissenschaftler:innen aus Berlin und Cambridge durchgeführt wurde (Reis et al., 2026).

Wir haben ein Online-Experiment mit 500 Teilnehmenden durchgeführt, die Symptomberichte für zwei weitverbreitete Krankheitsbilder verfassen sollten (ungewöhnliche Kopfschmerzen und Grippesymptome). Die Teilnehmenden wurden zufällig einer von zwei Gruppen zugewiesen: Entweder sollten sie diese Symptomberichte für die Einschätzung durch einen menschlichen Arzt oder eine Ärztin verfassen oder für einen KI-basierten Chatbot. Die Qualität dieser Beschreibungen wurde danach, unter anderem durch Ärzt:innen mit jeweiliger Fachexpertise, hinsichtlich ihrer Eignung für eine medizinische Ersteinschätzung bewertet.

Dabei haben wir herausgefunden, dass Teilnehmende, die dachten, sie kommunizierten mit einem KI-Chatbot, schlechtere Symptombeschreibungen lieferten als jene, die einen menschlichen Arzt oder eine Ärztin als Empfänger:in vermuteten. Die Qualität der Berichte war in der KI-Gruppe um 8% niedriger – also ein eher kleiner Effekt, der aufgrund der zunehmenden Nutzung von KI in diesem Bereich aber trotzdem von großer Relevanz sein kann.

Besonders aufschlussreich: Die Symptomberichte für die vermeintliche KI waren signifikant weniger detailliert als in der Ärzt:innen-Gruppe. Medizinische Laien wissen nicht unbedingt, welche Informationen zur Einschätzung ihres Falles relevant sind. Es scheint also, dass bei der Interaktion mit der KI Informationen, die zur Einschätzung der medizinischen Dringlichkeit eigentlich essenziell wären, unvollständig waren oder komplett gefehlt haben. Gründe für diesen Effekt könnten generelle Vorbehalte gegenüber KI sein, sowie Datenschutzbedenken oder auch die Annahme, dass eine KI andere Informationen benötigt als ein menschlicher Arzt oder eine Ärztin. Um diesem Effekt entgegenzuwirken könnte das konkrete Design der Benutzeroberfläche der KI eine wichtige Rolle spielen. Darüber hinaus könnte das Bereitstellen konkreter Beispiele für hochqualitative Symptomberichte oder das explizite Nachfragen fehlender Details helfen, potenzielle Qualitätsunterschiede zu reduzieren.

Gleichzeitig beinhaltet unsere Studie auch verschiedene Limitationen. Insbesondere verwendeten wir für die Studie hypothetische Szenarien, die Teilnehmenden haben also nicht zwangsläufig tatsächlich an den entsprechenden Symptomen gelitten. Um diese Einschränkung zu adressieren, haben wir eine Nachbefragung unserer Teilnehmenden durchgeführt und unsere Analysen für die Teilstichprobe wiederholt, welche zum Studienzeitpunkt tatsächlich die entsprechende Symptomatik aufwies. Hierbei konnten wir unsere zentralen Befunde replizieren. Dennoch besteht ein wichtiger nächster Schritt darin, zu klären, ob sich dieser Effekt auch auf reale klinische Situationen übertragen lässt und inwiefern KI-Diagnosen durch die verringerte Qualität der Symptombeschreibungen beeinflusst werden.

Zusammengefasst betonen unsere Ergebnisse, im Einklang mit einer weiteren kürzlich erschienenen Studie (Bean et al., 2026), dass technische Leistung nicht die größte (oder alleinige) Herausforderung für den Einsatz von KI in der Medizin darstellt. Eine zentrale Herausforderung könnte vielmehr in der Art und Weise liegen, wie Menschen mit solchen Anwendungen interagieren.

Literaturverzeichnis

Bean, A. M., Payne, R. E., Parsons, G., Kirk, H. R., Ciro, J., Mosquera-Gómez, R., ... & Mahdi, A. (2026). Reliability of LLMs as medical assistants for the general public: A randomized preregistered study. Nature Medicine, 32, 609-615. https://doi.org/10.1038/s41591-025-04074-y

Reis, M., Reis, F., Kim, Y. J., Demir, A., Lim, J., Gröschel, M. I., ... & Kunde, W. (2026). Reduced symptom reporting quality during human–chatbot versus human–physician interactions. Nature Health. https://doi.org/10.1038/s44360-026-00116-y

Bildquelle

nci via unsplash