Können Roboter uns helfen, andere zu verstehen?

Was denkt mein Gegenüber über mich? Wie fühlt sich die andere Person gerade? Für uns Menschen ist Kommunikation ein elementarer Bestandteil des Alltags. Doch nicht alle Menschen sind in der Lage, die Signale ihres Gegenübers richtig zu deuten. Besonders Menschen mit psychischen Erkrankungen fehlen hierfür oftmals wichtige mentale Voraussetzungen. Doch inzwischen können Roboter helfen, andere besser zu verstehen.

Wir Menschen stehen täglich im Austausch mit unserer sozialen Umgebung: wenn wir morgens in der Bäckerei Brötchen kaufen, mittags bei der Arbeit eine Präsentation halten, nachmittags mit unseren Kindern spielen oder am Abend einen Instagram-Beitrag kommentieren. Kommunikation verbindet uns mit der Welt. So alltäglich, wie soziale Interaktionen für uns Menschen sind, so komplex sind sie auch. In einer Interaktion treffen zwei oder mehr Personen mit unterschiedlichen Persönlichkeiten, Erfahrungen und Zielen aufeinander. Diese können aus unterschiedlichen Generationen und Kulturen stammen. Sie haben nicht immer das gleiche Geschlecht oder sprechen die gleiche Sprache. Sie haben meist nicht die gleichen Ziele. Sie fühlen sich unterschiedlich und diese Gefühle können sich im Verlauf des Gesprächs sogar verändern. Das erkennt man zum Beispiel am Gesichtsausdruck. Menschen nutzen viel oder wenig Körpersprache. Sie meinen nicht immer das, was sie sagen. Oder sagen nicht das, was sie meinen.
Wie machen wir Menschen das? Woran erkennen wir sofort, wie es unserer Freundin geht, wenn sie uns am Telefon begrüßt? Wie schlussfolgern wir, dass der Herr, der nach dem Weg zur nächsten Bank fragt, einen Geldautomaten statt einer Parkbank meint? Und wie verstehen wir andere sogar dann, wenn gar nichts gesagt wird?

Bild 1: Interaktion sieht einfach aus, ist jedoch sehr komplex.Bild 1: Interaktion sieht einfach aus, ist jedoch sehr komplex.

Perspektivenübernahme: Andere Menschen verstehen

Die meisten Menschen entwickeln mit etwa fünf Jahren eine Fähigkeit, über die kein anderes Lebewesen in dieser Form verfügt: die Fähigkeit zur Perspektivenübernahme (oder auch: Theory of mind, ToM; Premack & Woodruff, 1978). Durch diese Fähigkeit gelingt es uns, anderen Menschen mentale Zustände wie Gefühle, Gedanken und Handlungsabsichten zuzuschreiben. Dadurch können wir ihr Verhalten vorhersagen und erklären (Premack & Woodruff, 1978). Das ist eine wichtige Voraussetzung für eine gelungene soziale Interaktion. Wir erkennen, dass eine andere Person eine andere Perspektive hat als wir. Das bedeutet, mein Wissen unterscheidet sich von dem der anderen Person. Ich muss mich also mitteilen, damit sie mich verstehen kann. Wenn beispielsweise eine andere Person die Straße überqueren möchte und ein heranfahrendes Auto nicht bemerkt, kann und sollte ich sie warnen. Ich kann also ihr Verhalten beeinflussen. Auch kann ich ihre Gefühle beeinflussen, wenn ich zum Beispiel meiner Freundin ihre Lieblingsblumen mitbringe, da ich weiß, dass sie sich darüber freut.

Es gibt inzwischen zahlreiche Studien zur Entwicklung der Perspektivenübernahmefähigkeit, die deren Wichtigkeit verdeutlichen (Wellman, 2008). So hat diese beispielsweise einen bedeutsamen Einfluss darauf, ob Kinder Freundschaften entwickeln und wie beliebt Kinder sind (Slaughter, Imuta, Peterson & Henry, 2015). Auch sagt sie die akademischen Leistungen von Schüler*innen vorher (Lecce, Caputi & Pagnin, 2014). Im Alltag schlussfolgern gesunde Personen automatisch, was andere fühlen und denken. Wie wichtig diese Fähigkeit ist, bemerken wir vor allem dann, wenn sie nicht oder nicht vollständig vorhanden ist.

Eingeschränkte Fähigkeit zur Perspektivenübernahme bei Autismus-Spektrums-Störungen

Die größten Auffälligkeiten in der Perspektivenübernahmefähigkeit finden sich bei Personen mit Autismus-Spektrums-Störungen (ASS; Baron-Cohen, 2001).  Vergleiche der Test-Ergebnisse von autistischen Kindern mit denen von gesunden Gleichaltrigen zeigen, dass es autistischen Kindern schwerer fällt, anhand der Blickrichtung einer Person vorherzusagen, welches Objekt diese Person gerne haben möchte. Autistische Kinder können jedoch durchaus benennen, worauf diese Person schaut (Baron-Cohen, 2000).

Autistische Erwachsene zeigen in standardisierten Testsituationen oftmals keine oder nur wenige Auffälligkeiten (Attwood, 2005): Sie haben (meist mühsam) Strategien erlernt, die einen Mangel in der Perspektivenübernahmefähigkeit in einfachen sozialen Situationen ausgleichen können. Diese Strategien helfen ihnen, andere zu „lesen“. Befinden sie sich allerdings in komplexen Situationen, beispielsweise auf einer Party mit vielen Menschen, werden sie mit einer Vielzahl sozialer Informationen konfrontiert. Eine Anwendung der erlernten Strategien ist dann oft nicht möglich. Betroffene unterbrechen ihr Gegenüber dann beispielsweise an unpassenden Stellen. Manchmal antworten sie erst, nachdem sie über die Aussage des Gegenübers nachgedacht und diese verstanden haben. Dadurch geraten Gespräche ins Stocken (Attwood, 2005). Viele Betroffene wünschen sich Unterstützung, insbesondere im Hinblick auf soziale Interaktionen und Kommunikation, einschließlich der Perspektivenübernahmefähigkeit (Gawronski, Pfeiffer & Vogeley, 2012).Bild 2: Roboter sind in der Lage, die Gefühle von Menschen zu erkennen. Könnten sie dann nicht auch therapeutisch unterstützen?Bild 2: Roboter sind in der Lage, die Gefühle von Menschen zu erkennen. Könnten sie dann nicht auch therapeutisch unterstützen?

Die aktuellen Therapien für Personen mit einer ASS haben vor allem zum Ziel, soziale Interaktionen zu trainieren und die dafür notwendigen Fähigkeiten zu verbessern. So lernen Personen mit ASS in der Behandlung, Hinweise wie Gesichtsausdrücke in sozialen Situationen zu analysieren (Gawronski et al., 2012). Die Methoden sind wirksam, sind jedoch mit erheblichem Zeit- und Kostenaufwand verbunden. Und sie führen zwar zu einer Verbesserung der Lebenssituation der Betroffenen, aber nicht zur Heilung (Bölte, 2009). Eine intuitive Perspektivenübernahme kann nach bisherigen Kenntnissen nicht erworben und durch regelmäßigen Einsatz erlernter Strategien nur teilweise ausgeglichen werden. Trotz jahrzehntelanger Forschung ist größtenteils noch unklar, welche Ursachen den Schwierigkeiten zur Perspektivenübernahmefähigkeit zugrunde liegen. Dabei ist das Thema aktueller denn je.

Künstliche Perspektivenübernahmefähigkeit: Wie Roboter Menschen verstehen können

Die Perspektivenübernahmefähigkeit wird seit einigen Jahren im Bereich der künstlichen Intelligenz intensiv beforscht. Denn nur durch eine gelungene Kommunikation zwischen Roboter und Mensch kann ein Roboter einen Menschen erfolgreich unterstützen. Ein Roboter ist dabei ein „künstlicher Agent“. Als künstlichen Agenten bezeichnet man ein künstliches (von Menschen erschaffenes) System, das Aufgaben weitgehend selbstständig und zielgerichtet bearbeiten kann. Dabei tauscht sich ein Roboter mit seiner Umgebung und anderen Agenten aus. Für diese Interaktion benötigt er bestimmte Voraussetzungen: Ein Roboter, der einen Menschen hilfreich unterstützen soll, muss die mentalen Zustände des Menschen erkennen. Er muss einschätzen können, welche Informationen für den Menschen neu und wichtig sind. Zu wenige oder unwichtige Informationen würden dem Menschen nicht weiterhelfen. Zu viele Informationen könnten ihn dagegen verärgern oder stören. Der Herr, der nach dem Weg zur nächsten Bank fragt, möchte vermutlich nicht die Koordinaten einer Parkbank erhalten. Er möchte auch keine zehn Wegbeschreibungen zu einer Bankfiliale, sondern eine. In der Forschung zu künstlichen Systemen werden daher Ansätze erarbeitet und geprüft, die eine menschenähnliche Perspektivenübernahmefähigkeit abbilden.

Künstliche Agenten können die Umgebung und den Menschen beobachten, wenn sie sich in einer Interaktionssituation befinden. Durch Sensoren wie Kamerabilder und Mikrophone lassen sich Informationen über Stimmlage, Sprache, Mimik, Blickrichtung und Körperhaltung einer Person analysieren. So kann der künstliche Agent anhand dieser Informationen beispielsweise erkennen, in welcher emotionalen Lage sich eine Person befindet. Im Anschluss kann damit eine Einschätzung zum mentalen Zustand dieser Person erfolgen und die Prüfung: Was soll kommuniziert werden? Wann soll kommuniziert werden? Und wie soll kommuniziert werden? Bild 3: Durch Sensoren nehmen Roboter eine Vielzahl an Informationen auf. Mit diesen Informationen können sie die mentalen Zustände von Menschen berechnen. Bild 3: Durch Sensoren nehmen Roboter eine Vielzahl an Informationen auf. Mit diesen Informationen können sie die mentalen Zustände von Menschen berechnen.

Hierfür wurden komplexe Modelle entwickelt, die sich in Echtzeit durch die Beobachtung von Menschen und der Umwelt anpassen. Die Modelle bestehen aus Berechnungen von Wahrscheinlichkeiten und Erwartungen (siehe beispielsweise Pöppel & Kopp, 2019): Der künstliche Agent berechnet aufgrund seiner Beobachtungen die Reaktion, die mit höchster Wahrscheinlichkeit zum bestmöglichen Ergebnis führt. Dabei wägt er die Kosten und den Nutzen seiner Reaktion gegeneinander ab: Könnte es vielleicht besser sein, nochmal nachzufragen? Oder wäre es besser, eine falsche Reaktion in Kauf zu nehmen?

Möchte eine Person zum Beispiel ein neues Kochrezept ausprobieren und vertauscht sie beim Kochen die Gewürze, wäre es wichtig und relevant, dass der künstliche Agent den Fehler erkennt (= Beobachtung der Umwelt). Er sollte auch bemerken, dass die Person den Fehler noch nicht wahrgenommen habe (= Rückschluss auf mentalen Zustand). So kann er die Person unterbrechen und auf Fehler hinweisen (= Reaktion), damit das Gericht gelungen zubereitet werden kann (= bestmögliches Ergebnis).

Dabei muss der künstliche Agent nicht unbedingt das ideale Ergebnis herausfinden. Sondern er soll ein Ergebnis liefern, das gut genug ist. Im Fall der Wegbeschreibung zur nächsten Bank würde also eine möglichst einfache Beschreibung ausreichen. Es braucht nicht die schönste und sonnigste Strecke sein. Der künstliche Agent zieht immer die einfachste Lösung vor, bis eine komplexere Lösung notwendig ist.