Diese Künstliche Intelligenz soll unsere Emotionen und sogar Krankheiten hören

Noch sind die meisten Maschinen gefühlskalt. Sie merken nicht, ob wir traurig, wütend oder müde sind. Doch sollen sie wirklich einmal Kollegen, Assistenten oder gar Freunde werden, müssen sie lernen, auf unsere Emotionen einzugehen. Nur wie? Viele Firmen setzen auf Gesichtserkennung. Das bayerische Unternehmen audEERING dagegen hat eine Technologie entwickelt, die menschliche Emotionen hören kann. Und nicht nur die.

Von Wolfgang Kerler

Wer den Mund zu einem Lächeln formt, ist glücklich. Wer die Augen finster zusammenkneift, ist wütend. Und wer Augen und Mund aufreißt, ist überrascht. So einfach ist das, oder? Leider nicht. Vom Gesichtsausdruck eines Menschen auf seine Emotionen zu schließen, kann oft schief gehen. Zu diesem Schluss kam im Juli 2019 ein Team von Wissenschaftlern, nachdem es mehr als 1.000 Studien über den Zusammenhang von Mimik und Gefühlslage begutachtet hatte.

Zwar komme es vor, dass glückliche Menschen lächeln oder wütende Menschen grimmig schauen, heißt es im Bericht der amerikanischen Psychologie-Professorin Lisa Feldman Barrett und ihrer Kollegen. „Doch wie Menschen Wut, Ekel, Angst, Glück, Traurigkeit und Überraschung ausdrücken, variiert stark zwischen den Kulturen, Situationen und sogar zwischen Menschen innerhalb ein und derselben Situation.“

Lisa Feldman Barrett zweifelt deshalb an den Versprechen diverser Technologiefirmen, die behaupten, ihre Software könne per Gesichtserkennung Aussagen über die Emotionen von Menschen machen. „Sie können einen finsteren Blick erkennen“, sagte sie zu The Verge . „Aber das ist nicht dasselbe wie Wut zu erkennen.“ Dennoch bieten Unternehmen von Google bis Amazon ihre Bilderkennungs-Software auch zur Emotion Recognition an – bei Microsoft könnt ihr die Fähigkeiten der KI sogar selbst testen.

Emotion Recognition Barret et alBittet man Probanden, die Mimik auf Fotografien einem Set von Emotionen zuzuordnen, können die Antworten erheblich voneinander abweichen. Bild: Barrett et al.

Die Stimme verrät wirklich etwas über die Stimmung

Wer jedoch wirklich etwas über die Gefühlslage eines Menschen erfahren will, sollte die Augen schließen und ihm einfach nur zuhören. Denn unsere Stimme verrät am meisten darüber, wie es uns geht. Das fand Michael Kraus von der Universität Yale durch eine Studie mit fast 1.800 Testpersonen heraus. Daraus folgt: Wer Maschinen beibringen will, die Gefühle von Menschen zu erkennen, sollte sie weniger mit Bildern und mehr mit Tonaufnahmen trainieren.

Genau das macht audEERING, eine 2012 gegründete Firma mit Sitz in Gilching bei München, die inzwischen 61 Mitarbeiter hat. „Wir analysieren das akustische Signal in seiner kompletten Bandbreite“, sagt Dagmar Schuller, die Geschäftsführerin und Mitgründerin, im Gespräch mit 1E9. „Wir analysieren also nicht nur, ob ein Mensch spricht, sondern auch wie er spricht und den gesamten Kontext, den ein Audiosignal liefert.“

Durch maschinelles Lernen hat audEERING eine KI entwickelt, die innerhalb von Sekunden erkennen kann, dass sie gerade einen wütenden Mann in einem vollen Restaurant gehört hat. Oder dass sie es mit einer verschnupften Frau in einem leisen Büro zu tun hat – denn, klar, eine Erkältung zu hören, ist für sie kein Problem. Oder dass sie Zeugin eines hitzigen, fast schon wütenden Meetings mit sieben Teilnehmern wird – und einem wenig empathischen Chef. Die Frage ist: Was bringt das?

Dagmar Schuller und ihr Team entwickeln Lösungen für viele verschiedene Anwendungen. Eine davon: persönliche Sprachassistenten, die durch Emotionserkennung passendere Informationen liefern können. „Wenn Sie das Wetter wissen wollen, ist das die eine Sache“, sagt die Firmenchefin. „Aber wenn Sie zum Beispiel sagen: Assistent XY, schlag mir doch mal ein paar Lieder vor, dann ist es interessant zu wissen, in welcher Stimmung Sie gerade sind.“ Merkt der Assistent, dass sein Nutzer schlecht drauf ist, kann er Musik auswählen, die seine Stimmung verbessert. Ist der Nutzer erkältet, kann ihm der Assistent Empfehlungen geben. Auch Amazon möchte das seinem Assistenten Alexa beibringen – und arbeitet an Emotionserkennung per Stimme.

Die audEERING-Technologie ist bereits im Einsatz, auch in Call Centern. „Da haben Sie Personen sitzen, die täglich damit konfrontiert werden, dass Leute anrufen, die – sagen wir mal – nicht im optimalen Zustand sind“, sagt Dagmar Schuller – und meint: Oft rufen Kunden an, die frustriert sind, weil der Flug gecancelt wurde, eine falsche Bestellung geliefert wurde oder irgendein Produkt nicht funktioniert.


Mit diesem Video erklärt audEERING wie seine Lösung für Call Center funktioniert.

Das audEERING-Tool gibt den Mitarbeitern der Call Center nun eine Hilfestellung: An einer Linie können sie ablesen, wie verärgert der Kunde ist – und es als persönlichen Erfolg verbuchen, wenn sie den Anrufer aus dem roten Bereich in den gelben oder grünen bringen. „Wenn sich ein Gespräch aber extrem kritisch entwickelt, hat der Agent die Möglichkeit, es an den Supervisor abzugeben“, sagt Dagmar Schuller. „Dadurch wird der Agent entlastet.“

Auch Spaß machen kann die Emotionserkennung, zum Beispiel wenn sie in Videospielen zum Einsatz kommt. Plötzlich könnte es eine Rolle spiele, wie man mit virtuellen Charakteren spricht – dominant, freundlich, ängstlich. Oder ob man in einer Kampfsituation nervös klingt. Oder ob man Zaubersprüche energisch genug spricht. Um nach Ideen zu suchen, hat audEERING bereits zu einer Game Challenge aufgerufen.

Fast schon gewöhnlich wirkt dagegen ein anderes Einsatzfeld: das in Kopfhörern mit aktiver Geräuschunterdrückung. Auch in solchen wird die audEERING-Software bereits verwendet – und filtert die Baustelle nebenan oder den Fluglärm heraus.

Die KI soll Krankheiten wie Parkinson oder Alzheimer hören

Die umfassende Audioanalyse erlaubt aber noch weit mehr. Selbst Krankheiten, die über einen Schnupfen hinausgehen, soll sie erkennen. Schon jetzt kann die KI des bayerischen Unternehmens zwischen Menschen mit und ohne Parkinson-Erkrankung sehr gut unterscheiden. „Wir haben dafür eine Anwendung entwickelt, bei der Sie in 15 Sekunden klassische Wörter mit Vokalen, die Ihnen auch ein Neurologe für einen Teil seiner Diagnose vorgeben würde, sagen müssen“, erklärt Dagmar Schuller.

Die nächste Herausforderung sei es, mithilfe der Software eine Parkinson-Erkrankung schon dann zu erkennen, wenn Betroffene oder Mitmenschen noch gar nichts bemerken. „Wenn Sie sich artikulieren, spielen dafür ganz unterschiedliche Muskelgruppen zusammen: Stimmbänder, Kehlkopf, Zunge, Gesichtsmuskulatur oder Brustmuskulatur. Das heißt, an Diskontinuitäten im Audiosignal kann mein einen Befall der Artikulationsmuskulatur schon feststellen, wenn noch keinerlei Zittern erkennbar ist.“ Auch bei der Therapie und Früherkennung von Alzheimer könnte die Technologie helfen – etwa, indem sie scheinbar grundlose Emotionsausbrüche registriert.

Besonders stolz is Dagmar Schuller auf ein Forschungsprojekt mit Partnern wie dem Fraunhofer IS. Das Ziel: Die audEERING-Software soll Kindern mit Autismus helfen, die große Schwierigkeiten damit haben, die Emotionen anderer Menschen zu erkennen und ihre eigenen Emotionen auszudrücken. „Man muss sich das wie das Lernen einer Fremdsprache vorstellen“, sagt die Gründerin. „Das autistische Kind bekommt beigebracht: so klingt Ärger. Und wenn es sich selber ausdrückt, bekommt es als Feedback zurück: Ja, du hast Ärger gut ausgedrückt. Oder: Nein, so würde man das nicht erkennen.“

Kann jedes Smartphone zum Lügendetektor werden?

Bei all den neuen Möglichkeiten, die Künstliche Intelligenz bei der Audioanalyse eröffnet, gibt es natürlich auch neue Risiken. Wie wird mit den persönlichen, teils intimen Daten umgegangen, die von Geräten gesammelt und verarbeitet werden? Wie kann verhindert werden, dass Menschen ohne ihr Wissen „emotional abgehört“ werden? Und könnte in Zukunft jedes Smartphone zum privaten Lügendetektor umgebaut werden, was überall Misstrauen sät?

„Natürlich kann man nie hundertprozentig sagen, dass eine Technologie nicht auch missbräuchlich genutzt wird“, sagt Dagmar Schuller. Doch die Software ihrer Firma sei in Bezug auf komplexere Analysen vor allem darauf ausgerichtet, auf individuelle Nutzer kalibriert zu werden, die sich aktiv dafür entscheiden, damit zu arbeiten – und sie jederzeit ausschalten können. Je länger jemand mit der KI arbeite, umso besser könne sie den Nutzer einschätzen.

„Ist die Maschine nicht auf Sie kalibriert, haben wir bei der Emotionserkennung technisch derzeit das menschliche Level. Das heißt, die Rate, mit der wir Emotionen erkennen, liegt zwischen 70 und 80 Prozent“, erklärt Dagmar Schuller. „Das schaffen Menschen auch selbst.“ Und auch sonst könnten die Algorithmen immer nur mit Wahrscheinlichkeiten arbeiten. „Sie können also nicht sagen, ob Sie lügen oder nicht, sondern nur mit einer bestimmten Wahrscheinlichkeit erkennen, ob Sie die Wahrheit sagen.“ Anders als bei großen Tech-Anbietern werden die Audiodaten bei den audEERING-Produkten in der Regel in Echtzeit auf dem Gerät analysiert. Sie gehen also nicht in eine Cloud und werden auch nicht gespeichert.

Vielleicht könnte gerade dieser letzte Aspekt ein Wettbewerbsvorteil der KI aus Deutschland sein. Denn es ist wohl davon auszugehen, dass Alexa, Siri & Co. – wenn sie denn standardmäßig Emotionen hören kennen – ihre Daten weiterhin an ihre Mutterkonzerne abgeben. Und die können ihre Nutzerprofile dann um einen weiteren Baustein ergänzen…

Titelbild: Tara Moore / Getty Images

Achtung: 1E9 soll die neue Community für Zukunftsoptimisten werden. Wir sind derzeit noch in der Closed Beta, aber du kannst dich hier auf die Warteliste setzen lassen. Dann melden wir uns schon bald!

3 Like

Mich würde interessieren, welche denkbaren Einsatzmöglichkeiten so einer Technologie für euch interessant wären? Und ob ihr Bedenken wegen der doch sehr persönlichen Daten hättet?

Für mich persönlich kann ich sagen, dass ich bisher völlig auf den Einsatz von Sprachassistenten verzichte. Und das auch so lange vorhabe, bis die Programme wirklich halbwegs intelligent sind. Dafür bin ich ein Heavy User von Noise Cancelling Kopfhörern bin – da entsteht für mich durch Audioanalyse echter Mehrwert. Schlau in Games integriert könnte es auch spannend sein. Und den Einsatz für Diagnose, Therapie oder Prävention von Krankheiten sollte man auf jeden Fall weiter forcieren.

Außerdem: Solange meine Audiodaten nicht in der Cloud landen und dort mit anderen schon vorhandenen Profilen von mir vermischt werden, wäre ich zufrieden…

2 Like

Im Grunde finde ich die Technologie und Möglichkeit, Emotionen zu erkennen sehr interessant und könnte mir einige Einsatzmöglichkeiten vorstellen. Vor allem im Bereich von Videospielen oder Heimassistenten.

Allerdings fände ich es unheimlich, wenn die Daten, wie ich mich fühle, gespeichert und bei Unternehmen verarbeitet werden. Ich glaube, das könnte noch ein interessanter Streifall für Datenschützer werden.

2 Like

Klingt doch phantastisch, dass man Krankheiten aber wohl auch Stress und Überlastungserscheinungen frühzeitig erkennt und dafür sensibilisiert wird. Dass die Privatsphäre geschützt bleibt sollte denke ich selbstverständlich sein - vielleicht aber auch gar nicht so einfach?!

Vor etwa 6-8 Jahren haben sich ein paar Münchner nach London aufgemacht. Die haben Smartphones und den Umgang damit (Audio-Signale, Acceleration, Art wie man tippt) verwendet, um Stresslevels zu messen und das dann als Corporate Health Tool angeboten.

Die Firma gibt es immer noch: Soma Analytics.

Hab jedoch gerade gesehen, dass sie kürzlich einen Big Brother Award gewonnen haben: https://bigbrotherawards.de/2018/arbeitswelt-soma-analytics

Weiss nicht ob der Award gerechtfertigt ist. Würde gerne besser verstehen warum es evtl so schwierig ist die Privatsphäre zu schützen. Kann man nicht einfach anonymisieren (on device?) - Was gibt es hier für techn. Möglichkeiten, um einen Missbrauch zu verhindern?

2 Like