Wurde euer Gesicht oder das euer Freunde und Familienmitglieder genutzt, um eine Gesichtserkennungssoftware zu trainieren? Gut möglich. Denn ohne das Wissen und die Zustimmung der Nutzer wurden Abertausende Bilder von Flickr in Trainings-Sets für Künstliche Intelligenz gepackt.
Von Michael Förtsch
Der Fotodienst Flickr strauchelte in den letzten Jahren. Er wurde von Yahoo an das Unternehmen SmugMug verkauft, Preise wurden angehoben und das Angebot für nichtzahlende Nutzer begrenzt. Dennoch ist der vor mittlerweile 16 Jahren gestartete Dienst immer noch eine der größten und aktivsten Foto-Communities weltweit. Damit ist Flickr in den vergangenen Jahren auch für Entwickler von Künstlicher Intelligenz interessant geworden. Denn dort finden sich Unmengen von dem, was es für die KI-Entwicklung braucht: Daten – in Form von Bildern, die mit Schlagworten und Titeln versehen sind, die beschreiben, was zu sehen ist.
Insbesondere Fotos von Menschen sind interessant, da sie für das Training von Algorithmen zur Gesichtserkennung benötigt werden. Künstlichen Intelligenzen wird durch Maschinen-Lern-Prozesse beigebracht , bestimmte Muster in Gesichtern zu erkennen, zu analysieren und Schlüsse zu ziehen. So können sie nicht nur Gesichter von Menschen ver- und abgleichen, sondern auch herauslesen, ob eine Person etwa fröhlich, traurig oder wütend ist. Wie Aktivisten und Forscher der Bürgerrechtsinitiative Surveillance Technology Oversight Project herausfanden, finden sich unzählige Flickr-Fotos in mindestens sechs bekannten DataSets, also Zusammenstellung von Training-Daten, die für den Aufbau von Künstlichen Intelligenzen genutzt werden.
Im DiveFace genannten DataSet finden sich alleine über 115.000 Fotos, die von Flickr stammen. Im MegaFace getauften Datensatz sogar über 3 Millionen. In weiteren zwischen 200 und rund 14.000. Darunter sind Fotos von Familienausflügen, professionelle Portraitaufnahmen, Hochzeitsfotos aber auch Gelegenheitsschnappschüsse. Und das wohl ohne, dass ein Flickr-Kunde davon weiß. „Die Menschen müssen erkennen, dass einige ihrer intimsten Momente als Waffe eingesetzt werden“, sagte Liz O’Sullivan von Surveillance Technology Oversight Project der New York Times.
Verstehe, was die Zukunft bringt!
Als Mitglied von 1E9 bekommst Du unabhängigen, zukunftsgerichteten Tech-Journalismus, der für und mit einer Community aus Idealisten, Gründerinnen, Nerds, Wissenschaftlerinnen und Kreativen entsteht. Außerdem erhältst Du vollen Zugang zur 1E9-Community, exklusive Newsletter und kannst bei 1E9-Events dabei sein. Schon ab 2,50 Euro im Monat!
Jetzt Mitglied werden!Dieses Tool zeigt, ob eure Fotos betroffen sind
Um auf das Problem hinzuweisen und auch Flickr-Nutzern Gewissheit zu verschaffen, hat das Surveillance Technology Oversight Project gemeinsam mit dem Datenschutzaktivisten und Entwickler Adam Harvey die Website Exposing.ai gestartet. Dort können Flickr-Nutzer über ihren Nutzernamen, einzelne Bild-Adressen oder Schlagworte herausfinden, ob ihre Bilder sich in einem der gelisteten Datasets befinden oder nicht. Wie einige Flickr-Kunden bereits entdeckten und in den sozialen Medien schreiben, sind teils einzelne, teils dutzende ihrer Fotos in den Bilderpaketen gelandet.
Das Gros der genutzten Fotos steht offenbar unter einer Creative-Commons-Lizenz, die anderen mit kleinen Einschränkungen eine kostenfreie Nutzung erlaubt. Aber selbst bei Fotos unter dieser Lizenz könnte die Verwendung gegen geltendes Recht verstoßen. Laut der EU-Datenschutzverordnung DSGVO ist eine solche Nutzung zumindest fragwürdig. „Bei biometrischen Daten handelt es sich um personenbezogene Daten, zumindest aber um personenbeziehbare Daten“, heißt es auf der Seite des Bundesbeauftragten für Datensuchtz und Informationsfreiheit. „Daher ist ihre Erhebung, Speicherung und Verarbeitung nur zulässig, wenn entweder eine gesetzliche Grundlage oder eine freiwillige und informierte Einwilligung des Betroffenen vorliegt.“ Laut einem Gesetz des US-Bundesstaates Illinois ist es strikt untersagt, Fotos einer Person ohne deren explizite Einwilligung auf automatisierte Weise zu verarbeiten. In anderen Regionen der Welt gelten ähnliche Regelungen.
Verschiedene DataSets wie MegaFace waren ursprünglich nur für den akademischen Gebrauch gedacht. Jedoch wurden die Datenpakete, da herunterladbar und vielfach im Internet geteilt, auch für zahlreiche kommerzielle Zwecke genutzt – beispielsweise von TikTok-Entwickler ByteDance oder dem Militärforschungsunternehmen In-Q-Tel. Aber auch Geheimdienste wie die CIA und Megvii, das Unternehmen, dessen KI-Plattform Face++ hinter dem chinesischen Überwachungsprogramm steht, sollen damit gearbeitet haben.
Das von der University of Washington erstellte MegaFace ist seit 2020 nicht mehr auf der offiziellen Seite verfügbar – lässt sich mit etwas Suchen jedoch auf anderen Portalen ausfindig machen. Andere Datasets wie IJB-C und FaceScrub können bei ihren einstigen Kuratoren wie dem National Institute of Standards and Technology und der National University of Singapore weiterhin angefragt werden.
Teaser-Bild: Nick Loggie / MF