So will Mozilla unabhängige Alternativen zu Alexa, Siri und Google Assistant ermöglichen

Vom Smartphone über die Heizung bis zur Mikrowelle: Die Liste der Geräte, die sich per Sprache steuern lassen, wird täglich länger. Kaum Auswahl gibt es aber bei der Software, die das ermöglicht. Alexa, Siri und der Google Assistant dominieren. Mit Projekten wie Common Voice und Deep Speech will Mozilla auch unabhängigen Entwicklern eine Chance und Nutzern die Kontrolle über ihre Daten geben.

Von Wolfgang Kerler

Jemand könnte mithören. Wer das schon immer befürchtet und daher einen Bogen um Sprachassistenten und Smart Speaker gemacht hat, wurde im vergangenen Jahr bestätigt. Gleich mehrfach.

Zuerst erwischte es Alexa. Im April 2019 berichtete Bloomberg , dass weltweit tausende Angestellte von Amazon und externen Subunternehmen die Mitschnitte von Gesprächen anhörten, die Nutzer mit dem Sprachassistenten geführt hatten. Die Klickarbeiter tippten deren Wortlaut ab, versahen ihn mit Kommentaren und vergrößerten damit den Datensatz von transkribierten Sprachaufnahmen, mit denen Alexas Algorithmen trainiert werden. Dass Alexa, die vor allem im smarten Lautsprecher Echo zum Einsatz kommt, alle Konversationen mitschneidet und diese auf Amazon-Servern gespeichert werden, war vielen Usern nicht bewusst. Erst recht nicht, dass fremde Menschen sie anhörten. Obwohl dieses Vorgehen in der Branche verbreitet war, wie sich noch herausstellte.

Im Juli 2019 legte der belgische Fernseh- und Radiosender VRT nach, indem er aufdeckte, dass auch Sprachbefehle, die der Google Assistant erhielt, systematisch aufgenommen, auf Servern abgelegt und dann von Mitarbeitern abgehört wurden. Dass es mit Siri von Apple ähnlich lief, enthüllte zwei Wochen später der Guardian . Im August sorgten auch Microsoft und Facebook für derartige Schlagzeilen.

Werde Mitglied von 1E9 – schon ab 3 Euro im Monat!

Als Mitglied unterstützt Du unabhängigen, zukunftsgerichteten Tech-Journalismus, der für und mit einer Community aus Idealisten, Gründerinnen, Nerds, Wissenschaftlerinnen und Kreativen entsteht. Außerdem erhältst Du vollen Zugang zur 1E9-Community, exklusive Newsletter und kannst bei 1E9-Events dabei sein.

Jetzt Mitglied werden!

Selbst Gespräche zwischen Patienten und Ärzten wurden aufgenommen

Immer wieder starten Sprachassistenten eine Aufnahme, weil sie etwas fälschlicherweise als ihr Signalwort verstehen – „Hey Siri“, zum Beispiel. Daher landeten offenbar selbst privateste Informationen – von Gesprächen zwischen Patienten und Ärzten bis zu Aufnahmen von Menschen beim Sex – bei Leuten, die das nichts anging.

Inzwischen geben Amazon, Apple und Google ihren Nutzern zwar die Möglichkeit, Sprachmitschnitte zu verhindern und zu löschen. Das ändert aber nichts an zwei weiteren Probleme, die insbesondere Datenschützer bei den Assistenten der großen Tech-Unternehmen sehen.

Zum einen basieren Alexa, Siri und der Assistant auf der Cloud. Die Spracheingaben der Nutzer werden also an die Server von Amazon, Apple und Google geschickt und dort verarbeitet. Dadurch sollen die Programme auch auf Geräten mit sehr schwacher Hardware laufen. Zum anderen verfügen die Konzerne inzwischen über gewaltige Datensätze, mit denen sie die Künstliche Intelligenz ihrer Assistenten per maschinellem Lernen verbessern können, da ihnen Millionen von Nutzern ständig Audiodaten liefern. Dagegen kommen potenzielle Konkurrenten kaum an.

Mozilla setzt auch bei Sprachassistenten auf Open Source

Damit Nutzer nicht gezwungen sind, persönliche Daten an Technologie-Unternehmen weiterzugeben, und damit auch unabhängige Entwickler eine Chance haben, setzt sich Mozilla für die „Demokratisierung“ der Sprachassistenten ein. Das kleine Machine-Learning-Team des Firefox-Entwicklers, hinter dem eine gemeinnützige Stiftung steht, startete dafür das Projekt Common Voice und entwickelt die quelloffene Spracherkennungs-Engine Deep Speech.

„Es gibt kaum frei verwendbaren Datenbanken von Audioaufnahmen, die groß genug sind, um Spracherkennungssoftware zu trainieren“, sagt Kelly Davis, der das Machine-Learning-Team von Mozilla leitet, zu 1E9. Für Start-ups, die eigene Anwendungen entwickeln wollen, heißt das unter Umständen: Sie müssen für Trainingsdaten bezahlen. Besser gesagt: Hieß es.

Mit Common Voice stellt Mozilla inzwischen Datensätze für rund 30 Sprachen unter CC-0-Lizenz zur Verfügung. Jeder kann sie herunterladen. Für Englisch stehen zurzeit 30 Gigabyte beziehungsweise 780 Stunden an validierten Sprachaufnahmen bereit. Für Deutsch sind es neun Gigabyte beziehungsweise 325 Stunden. Es folgen Französisch, Walisisch, Bretonisch oder auch Türkisch. Common Voice ist schon jetzt die größte Open-Source-Datenbank ihrer Art – und sie wächst immer weiter. Nicht nur wird das Material für die enthaltenen Sprachen immer umfangreicher. Es kommen auch neue Sprachen hinzu – inklusive solcher, die für globale Konzerne eher uninteressant sind, weil sie von wenigen Menschen gesprochen werden und nur kleine Märkte eröffnen.

Jeder kann Trainingsdaten beisteuern und validieren

Im Vergleich zu den Datenmengen, die auf den Servern der Tech-Konzerne lagern, ist der Common-Voice-Pool zwar noch überschaubar. Dafür kommt er vollkommen transparent zustande – durch „Spenden“ und freiwillige Mitarbeit. „Wir bitten Menschen darum, bestimmte Sätze aufzunehmen, oder Aufnahmen zu überprüfen, in denen andere Menschen bestimmte Sätze vorlesen“, erklärt Kelly Davis.

Um die deutschsprachige Datenbank zu vergrößern, will Common Voice pro Tag 1.200 Aufzeichnungen und 2.400 bestätigte Aufnahmen bekommen. Es kostet nur wenige Minuten, um mitzuhelfen – zum Beispiel, indem man auf der Common-Voice-Webseite Sätze wie „Danach feierte sie einige Erfolge in Musicals und Revuen wie By Jupiter “ vorliest. Oder indem man überprüft, ob andere Freiwillige seltsame Sätze wie „Der Widerstand gegen Formänderung, genauer die Viskosität, kann allerdings beliebig groß sein“ korrekt eingelesen haben.

Die Trainingsdaten, die durch Common Voice gewonnen werden, machen noch keine Alternative zu Siri und Alexa. Daher stellt Mozilla mit dem frei verfügbaren Spracherkennungssystem Deep Speech eine Open-Source-Engine bereit, die gesprochene Sprache schneller als in Echtzeit in Text umwandelt – und vom Machine-Learning-Team laufend verbessert wird. Seit Version 0.6, die kürzlich veröffentlicht wurde, ist Deep Speech schlanker und effizienter geworden. Denn die Engine ist auch für den Einsatz auf Geräten mit schwacher Hardware gedacht.

Mit Deep Speech müssen keine Daten auf die Server eines Unternehmens geschickt werden. Die Verarbeitung erfolgt direkt auf den Geräten – und funktioniert so beispielsweise auf dem Raspberry Pi 4. „Wir wollen damit zeigen, dass Sprachassistenten, die die Privatsphäre der Nutzer schützen, tatsächlich möglich sind“, sagt Alexander Klepel, Strategic Partnership Lead in Mozillas Open Innovation Team, zu 1E9.

Deep Speech wird bereits von den Machern des nicht-kommerziellen Sprachassistenten Mycroft verwendet, der sowohl auf Mycroft-Smart-Speakern als auch auf Geräten wie dem Raspberry Pi läuft, sowie bei Leon, einem weiteren Open-Source-Projekt. Ein Deep-Speech-Modell, das Englisch versteht, ist von Mozilla bereits entwickelt und kann heruntergeladen werden. Modelle für andere Sprachen können von den Nutzern selbst trainiert werden. Das Start-up Iara Health arbeitet beispielsweise mit brasilianischen Sprachdaten und Deep Speech, um einen KI-Assistenten für den Gesundheitssektor zu entwickeln.

Hat die Open-Source-Bewegung eine Chance gegen Amazon & Co.?

Obwohl Alexa, Siri und der Google Assistant für Nutzer kostenfrei sind und auf immer mehr Geräten funktionieren, sagt Mozilla selbstbewusst, dass es bei Common Voice und Deep Speech um die Demokratisierung der Spracherkennung geht.

„Natürlich haben die großen Datenkonzerne viel Geld in Technologie investiert und beeindruckende Produkte entwickelt“, sagt Alexander Klepel. „Aber sie sind die einzigen, die die damit generierten Daten nutzen können. Das ist auch erstmal völlig in Ordnung. Doch das verhindert mehr Wettbewerb und es nimmt Leuten die Möglichkeit, Technologie nicht nur zu nutzen, sondern auch mit dieser Technologie zu arbeiten und darauf aufzubauen.“

Mozilla möchte das ändern und den Markt für unabhängige Entwickler und Projekte sowie für datensparsame Produkte zugänglich machen. Das meint „Demokratisierung“. Aber haben Entwickler, die mit den Common-Voice-Daten und Deep-Speech arbeiten, überhaupt eine Chance gegen Technologie-Konzerne? Kelly Davis, der die Machine-Learning-Unit leitet, sagt: ja.

„Dafür sind die Fortschritte bei den Spracherkennungs-Algorithmen verantwortlich, die in den letzten sechs oder sieben Jahren gemacht wurden“, erklärt er. „Davor war Spracherkennung nur eine Spielerei, inzwischen ist sie wirklich nützlich geworden.“ Außerdem könnten selbst kleine Teams mit kleinen Datenmengen inzwischen Anwendungen bauen, für die große Unternehmen früher Jahre gebraucht hätten. „Die Engines der Konzerne sind nur noch ein paar Prozent akkurater als das, was kleine Gruppen entwickeln können.“

Ohnehin müsse man keinen Markt domonieren, um Verbesserungen für Nutzer und unabhängige Entwickler zu erreichen, sagt Alexander Klepel. „Wenn wir es schaffen, genug Menschen auf ebenfalls verfügbare Technologie aufmerksam zu machen, die ihre Privatsphäre besser schützt“, erklärt er. „Dann werden sie solche Lösungen einfordern. Das kann die Standards in der ganzen Industrie verändern.“

Dann könnten auch die Menschen von den Vorteilen der Spracherkennung profitieren, die bisher Angst hatten, dass jemand mithört.

Titelbild: smartboy10 / Getty Images

9 „Gefällt mir“

Danke für den Artikel, ich bin zwar der englischen Sprache mächtig, habe aber das ganze Drum-Herum um Deep Speech und Common Voice nie so ganz verstanden. Jetzt schon :slight_smile:

Ich gebe Kelly Davis in dem Punkt der „Demokratisierung“ der Spracherkennung vollkommen recht. Aktuell fühlt man sich zwischen Google Assistent, Siri und Alexa immer ein bisschen belauscht, weil man nicht wirklich weiß, was Google und Co. mit den ganzen Daten machen außer sie zur Verbesserung der Spracherkennung selbst einzusetzen.

Hier fehlt einfach die Transparenz der Unternehmen, die einem wie Mozilla hier nun mit Common Voice und Deep Speech ermöglichen, genau hinzusehen und zu verstehen was mit den Daten passiert. Zusätzlich ist dieser Community Gedanke, jeder kann an dem Projekt mitarbeiten und seinen Beitrag leisten, hervorragend.

Ich hoffe sehr das Mozillas Projekt hier mehr Beachtung findet und sich daraus viele Alternativen zu den drei Großen gesellen. Vielleicht findet sich auch hier bald eine Allianz die mit vereinten Kräften zu gewissen Standards in der Spracherkennung führen, die für jeden offen zur Verfügung steht.

3 „Gefällt mir“

Absolut richtiger, aber sehr ambitionierter Weg. Da kann ich nur viel Erfolg wünschen.
Demokratisierung ist das Stichwort, nicht nur beim Thema Spracherkennung, sondern bei allen zukunftsweisenden technischen Entwicklungen.

Schlagwörter wie Social Media, SmartHome, Internet…man könnte die Liste beliebig erweitern. Das eigentliche Potenzial wird erst durch Demokratisierung frei. Oder anders gesagt, die großen Player wie Google, Amazon, Facebook und Konsorten hebeln durch ihre Vormachtstellung und ihre gnadenlose Politik der Gewinnmaximierung das Leistungsprinzip aus und verhindern die Ausschöpfung des eigentlich vorhandenen potenziellen Nutzens und gesellschaftlichen Mehrwerts.

Wenn ich alleine das leidige Thema SmartHome sehe, da wäre so viel mehr möglich, aber jeder Player kocht sein eigenes Süppchen und keiner kann mit keinem.

Mauern und Grenzen überall. Synergie, Lernen, Wissen teilen? Ja sicher, aber nur im eigenen Haus.

Kreative fortschrittliche Ideen außerhalb der „großen Häuser“ gibt es genug (auch bessere!), da bin ich mir sicher…aber wehe, sie kommen den „Monstern unserer Zeit“ in die Quere.

Trotzdem, auf Dauer setzen sich gute Ideen und Weitblick durch, da bin ich optimistisch. Und auf lange Sicht sägen Facebook & Co am Ast, auf dem sie so penetrant sitzen. Lange darf und kann das so nicht gut gehen, und spätestens dann kommt die Zeit der wirklich guten Ideen. Getreu nach dem 1E9 Motto: Holen wir uns die Zukunft zurück!

4 „Gefällt mir“