Noch gleicht die Welt der Künstlichen Intelligenz dem Wilden Westen. Wir haben zwar täglich mit Systemen zu tun, die wir als KI bezeichnen. Aber niemand kann uns eindeutig sagen, ob diese sicher, vorurteils- und fehlerfrei arbeiten. Denn es gibt weder Normen noch Standards. Tarek Besold vom Berliner Start-up Neurocat möchte das ändern.
Von Wolfgang Kerler
Es ist gar nicht so selten, dass Künstliche Intelligenzen nicht immer wie geplant funktionieren. Bisher merken wir das aber oft spät. Zu spät. Amazon musste feststellen, dass ein Algorithmus, der Jobbewerbungen einschätzen sollte, systematisch Frauen benachteiligte. Ein Chatbot von Microsoft verwandelte sich zum Holocaust-Leugner. Und die Bilderkennung von Google hielt Menschen mit dunkler Hautfarbe für Gorillas.
Momentan kann Künstliche Intelligenz auf die Menschheit losgelassen werden, ohne dass sie vorher einen Sicherheitscheck durchlaufen muss. Einen KI-TÜV gibt es nicht. Doch das soll in ein paar Jahren anders aussehen. In internationalen Arbeitsgruppen wird bereits um einheitliche Sicherheitsstandards gerungen. Und auch das Deutsche Institut für Normierung, kurz: DIN, hat im vergangenen Jahr eine „Steuerungsgruppe für die Normungsroadmap zu Künstlicher Intelligenz“ ins Leben gerufen. Sie soll Vorarbeit leisten, damit später Richtlinien erlassen werden können, die unsichere, angreifbare oder diskriminierende KI untersagen.
Mitglied in der Steuerungsgruppe ist auch Tarek Besold vom Berliner Start-up Neurocat, dessen CTO er ist. Er leitet außerdem den DIN-Normungsausschuss für KI. Und er hat dieses Amt nicht ohne Grund. Neurocat hat inzwischen ein 30-köpfiges Team und beschäftigt sich seit seiner Gründung vor drei Jahren fast ausschließlich mit der Frage, wie sich eigentlich feststellen lässt, welche Qualität Künstliche Intelligenz hat.
Kann ein Roboterauto Fußgänger in jeder Situation erkennen?
„Ganz am Anfang kam ein großer deutscher Autobauer auf uns zu, damit wir testen, ob das selbstfahrende Auto, an dem die Firma gerade arbeitete, Fehler macht“, sagt Tarek Besold im Gespräch mit 1E9. Erkennt die KI des Fahrzeugs auch bei tiefstehender Sonne, bei Nebel oder bei Wasser auf der Kameralinse einen Fußgänger? Lässt sich das System vielleicht sogar durch das Tragen von bunten T-Shirts bewusst manipulieren?
„Es stellte sich heraus, dass man so etwas testen kann“, erinnert sich Tarek. „Aber nicht so, wie man klassische Software oder Geräte testet.“ Denn die meisten der heutigen KI-Systeme basieren auf maschinellem Lernen. Das heißt: Sie wurden nicht einfach programmiert. Sie wurden trainiert – mit Trainingsdaten, die oft von Menschen vorbereitet werden mussten. Im Fall von selbstfahrenden Autos werden die KI-Modelle mit unzähligen Video- und Sensoraufnahmen gefüttert, auf denen Menschen zu sehen sind. So lange, bis sie diese möglichst zuverlässig erkennen.
Daraus ergeben sich zwei Schwierigkeiten, wenn man die Qualität so einer KI feststellen will. „Einerseits wissen wir nicht wirklich, wie die Software funktioniert“, sagt Tarek. „Wir haben schließlich keinen expliziten Programmcode mehr, sondern nur noch statistische Beziehungen, die maschinell erlernt wurden.“ Zum anderen lässt sich selbst mit gigantischen Datensets nicht alles vorab trainieren, was in der chaotischen echten Welt passiert. Und das gilt auch fürs Testen.
„Noch kann niemand eine Verifikation liefern, dass die KI funktioniert. Für die müssten wir jeden möglichen Programmablauf testen“, erklärt Tarek. „Aber wir können versuchen, so viele Testfälle wie möglich zu erzeugen und uns damit einer Validierung annähern.“ Neurocat entwickelte also verschiedene Werkzeuge, mit denen sich solche Tests durchführen lassen – nicht nur für selbstfahrende Autos, sondern für eine ganze Reihe von KI-Systemen. „Für uns macht es wenig Unterschied, ob es um Scoring-Algorithmen, Sprachassistenten oder smarte Wasserkocher geht“, sagt Tarek. „Die Machine-Learning-Modelle sehen dabei sowieso immer nur Daten.“
Wie lässt sich der Smart-Home-Assistent austricksen?
Nicht immer bekommt Neurocat von seinen Kunden, zu denen deutsche und internationale Konzerne gehören, die kompletten KI-Modelle inklusive Quellcode und Datensets. Oft haben sie es mit Black Boxes zu tun – etwa, weil ein Kunde des Start-ups komplette Teile bei Drittanbietern zukauft, und selbst keinen Einblick in die Software hat. „Dann können wir natürlich nur das Input-Output-Verhalten testen“, sagt Tarek.
So lief das auch, als sein Team Smart-Home-Assistenten untersuchten, die sogar die Haustür öffnen können. „Durch maschinelles Lernen kann der Assistent dein Audiosignal – zum Beispiel, wenn du ,Öffne die Tür!‘ sagst – in das entsprechende Kommando übersetzen“, erklärt der CTO. „Wir wissen aber nicht, auf was genau die KI reagiert – den Sprachrhythmus, die Hertz-Frequenz oder den Pitchverlauf.“ Doch das ließ sich mit den richtigen Testwerkzeugen herausfinden – und im nächsten Schritt konnte überprüft werden, wie leicht sich die KI täuschen lässt.
„Wenn das System nur auf den Rhythmus reagiert, könnte ich den richtigen Rhythmus von außen an die Tür klopfen – und der Assistent würde mir öffnen“, erklärt Tarek. „Wenn die Stimme ausschlaggebend ist, kann man mit Melodien unterhalb der Wahrnehmungsschwelle die Stimmintonation nachbilden und diese für uns nicht hörbaren Melodien in YouTube-Videos schmuggeln.“ Der Nutzer des Smart-Home-Assistenten muss also nur dazu gebracht werden, das Video anzuschauen – und die Tür geht auf. „Das hat bei unseren Tests zwar nicht immer funktioniert“, erinnert sich Tarek. „Aber es war reproduzierbar.“
Nicht jede KI, die solche Schwächen hat, ist gleich gefährlich. Reagiert ein angeblich smarter Seifenspender nicht bei einem Nutzer mit dunkler Haut, weil er nur mit Daten von hellhäutigen Menschen entwickelt wurde, ist das ärgerlich. Übersieht ein Industrieroboter einen schwarzen Mitarbeiter kann das tödlich sein. Je nach Risikoklasse bräuchte es also eigentlich Richtlinien, wie gut oder schlecht KI-Systeme bei bestimmten, ebenfalls noch zu definierenden Tests abschneiden müssen oder dürfen.
Werde jetzt Mitglied von 1E9!
Als Mitglied unterstützt Du unabhängigen, zukunftsgerichteten Tech-Journalismus, der für und mit einer Community aus Idealisten, Gründerinnen, Nerds, Wissenschaftlerinnen und Kreativen entsteht. Außerdem erhältst Du vollen Zugang zur 1E9-Community, exklusive Newsletter und kannst bei 1E9-Events dabei sein. Schon ab 2,50 Euro im Monat!
Jetzt Mitglied werden!Was ist eigentlich Künstliche Intelligenz?
Doch bevor die zulässigen Testansätze definiert werden, mit denen sich etwa rassistischer Bias von KI messen lässt, müssen sich die internationalen und nationalen Arbeitsgruppen, an denen sich auch Neurocat beteiligt, noch auf viel Grundsätzlicheres einigen. „Momentan gibt es noch nicht einmal einen allgemein akzeptierten Begriff dessen, was maschinelles Lernen oder Künstliche Intelligenz überhaupt sind“, sagt Tarek. Zumal ISO oder DIN am Ende auch nur Normen oder Standards definieren, aber keine zulässigen Maximalwerte. „Die müssen sich dann noch der Gesetzgeber oder die Regulierungsbehörde überlegen.“
Trotzdem ist er zuversichtlich, dass einheitliche Standards kommen werden. Denn vom derzeitigen Wild-West-Zustand, wie Tarek die Situation beschreibt, sind längst nicht alle Unternehmen begeistert. „Viele europäische Konzerne kommen gerade auf den Trichter, dass sie gerne zu Musterschüler werden würden“, sagt er, „die im Kontrast zu Firmen aus den USA und China nur KI von höchster Qualität anbieten.“
Industrieunternehmen, die KI-Systeme für ihre Fabriken zukaufen, wollen sich außerdem auf deren Sicherheit verlassen. Und auch Versicherungen spielen eine Rolle: „Keine Versicherung wird ein selbstfahrendes Auto versichern, wenn sie keinen Risikokoeffizienten berechnen kann.“
Inzwischen möchte sich Neurocat deshalb auch nicht mehr nur darauf spezialisieren, im Auftrag von Unternehmen KI auf ihre funktionale und Cybersicherheit, ihre Robustheit und Verständlichkeit, ihre Performance und Transparenz zu testen. „Wir wollen die ganzen Werkzeuge, die wie für einzelne Firmen entwickelt haben, in einem Framework zusammenführen“, sagt Tarek. Und das, so der Anspruch des Start-ups, soll sich dann als anerkanntes Prüf- und Testwerkzeug etablieren. „Wir wollen, dass der TÜV oder die Dekra in Zukunft nicht nur Autos oder Wasserkochern ihren Stempel verpassen können, sondern mit unserem Framework auch KI-Plattformen.“
Tarek Besold bei der 1E9-Konferenz 2020!
Tarek Besold von neurocat gehört zu den Speakern der digitalen 1E9-Konferenz 2020, die am 11. und 12. November stattfindet. Er nimmt dort am Panel „Corporate Digital Responsibility: Künstliche Intelligenz funktioniert nicht ohne Verantwortung“ teil. Du willst das nicht verpassen – und auch nicht den Rest der Konferenz? Dann informiere dich hier über das Programm und werde 1E9-Mitglied.
Titelbild: Getty Images