Vor wenigen Jahren waren sie noch Science Fiction. Heute sind synthetische Kunststimmen allgegenwärtig – in der Form von Siri, Alexa oder auch Cortana. Eine Neuheit sind sie aber nicht. Denn bereits vor 80 Jahren sprach die erste elektrische Maschine.
Von Michael Förtsch
Wahrscheinlich habt ihr gerade eine in der Tasche stecken. Oder auf dem Regal im Wohnzimmer stehen. Und ziemlich sicher habt ihr eine in eurem Büro oder im Home Office: eine sprechende Maschine. Die sind heute keine Besonderheit mehr, sondern in der akustischen Stimmgestalt von Siri, Alexa und Cortana auf Smartphones, in kleinen Lautsprechertürmchen, Laptops und PCs zu Hause. Auch hat man oft eine synthetische Stimme im Ohr, wenn man die Hotline eines Mobilfunk- oder Internetanbieters anruft, um sich über Probleme zu beschweren. Allmählich müssen wir uns sogar daran gewöhnen, dass auch ganz prominente Stimmen Dinge aussprechen können, die die Menschen, denen diese Stimmen eigentlich gehören, in Wirklichkeit nie gesagt haben – dank KI-Klonstimmen. Das ist faszinierend und gleichermaßen gruselig.
Mittlerweile klingen sie lebendiger als die Sprechtechnologien des Schiffscomputers vom Raumschiff Enterprise aus Star Trek: Das nächste Jahrhundert oder von HAL-9000 aus 2001: Odyssee im Weltraum. Die Entwicklung der synthetischen Sprache scheint geradezu rasant voran zu schreiten. Und die digitalen Stimmen werden immer überzeugender, flüssiger und nahbarer. Vor allem wenn man bedenkt, dass Siri, die wohl bekannteste Computerstimme, vor gerade einmal neun Jahren ihr Debüt auf dem iPhone 4S gefeiert hat. Tatsächlich ist es aber so, dass die Geschichte der elektronischen Stimmerzeugung sehr viel weiter zurückreicht. Nämlich über 80 Jahre. Da sprach der Voder seine ersten Worte vor einem so erstaunten wie irritierten Publikum.
Die Kunst des Homer
Dass Homer Dudley einmal ein Pionier der Elektrotechnik werden würde, war nicht abzusehen. Er wurde 1896 als Sohn eines Priesters und einer sehr religiösen Mutter geboren. Beide unterrichteten ihn früh in christlicher Lehre und klassischer Literatur – und drängten ihn, eine Lehrerkarriere einzuschlagen. Aber die mochte Dudley einfach keine Freude bereiten, weshalb er sich an der Pennsylvania State University einschrieb. Dort entdeckte er seine Faszination, Passion und Begabung für Elektronik und Akustik, die ihm in den 1920ern eine Anstellung bei den legendären Bell Laboratories einbrachte.
Die Bell Labs waren zu dieser Zeit eine Forschungs- und Entwicklungsabteilung des zu AT&T gehörenden Telefonherstellers Western Electric – und existieren als Teil des Mobilfunkausstatters Nokia bis heute. Homer Dudley wurde dort in der Telephone Transmission Division untergebracht, die sich mit der Übertragung von Sprache befasste – und wie das zu dieser Zeit vor allem qualitativ besser und verständlicher gestaltet werden könnte. Denn oft waren insbesondere Telefonate über weite Strecken in etwa so verständlich wie ein Gespräch über ein Dosentelefon. Dudley hatte 1928 eine Idee, wie sich das Problem löse ließe. Bei einem Telefonat, meinte der Audio- und Elektroingenieur, wäre es eigentlich am idealsten, wenn keine Sprache übertragen werden müsste.
Die Idee von Homer Dudley war das Ergebnis der Theorie der Vokalartikulation , die er selbst entwickelt hatte. Für den Forscher war Sprache etwas sehr Einfaches: Er sah verständliche Worte und Vokale als das Resultat eines Tones, der vor allem durch den Kehlkopf aber auch durch Mund und Rachen in klanglicher Höhe, Tiefe und Druck moduliert wird. Und damit als das Ergebnis mess- und festschreibbarer Faktoren. Er war überzeugt, dass es effektiver wäre, die akustischen Parameter eines gesprochenen Wortes am einen Ende der Telefonleitung zu analysieren, in einfache Signale für die entsprechenden Stimmfrequenzen zu übersetzen , zu versenden und am anderen Ende wieder zu entschlüsseln.
Dadurch ließe sich die Übertragung, wie Dudley glaubte, deutlich einfacher und klarer bewerkstelligen – sogar über Extremdistanzen wie Kontinente, die durch Unterseekabel verbunden sind. Das Resultat der Arbeit des Akustikvirtuosen war dann der sogenannte Vocoder – für voice encoder, also Stimmverschlüsseler – , dessen Schrankwand-gleicher Prototyp 1936 bei Bell seinen Testlauf begann. Das Problem war jedoch: Irgendwie müssten die Signale am Ende der Leitung natürlich wieder in eine verständliche Stimme übersetzt werden – mit einer vollends synthetischen Stimme. Dafür bedurfte es einer ganz eigenen Maschine, die von Dudley parallel entwickelt wurde.
Ein Sprachorgel
Was Homer Dudley und seine Mitarbeiter konstruiert hatten, hat wenig mit Smart Speakern wie Amazon Echo oder dem Home Pod gemein. Stattdessen erinnerte das Gerät eher an eine kleine Orgel mit einem wuchtigen Pult, an das ein Lautsprecherturm angeschlossen war. Dort, wo sich bei einer Orgel eine ganze Reihe von Tasten entlang zieht, waren hier jedoch zwei Armaturen mit je fünf Tasten – eine Armatur für jede Hand – und verstreute Klick- und Kippschalter. Dazu kam ein Pedalsockel im Fußbereich. Denn das obskure Gerät musste vollends händisch bedient werden. Signale aus einem Vocoder automatisch in eine verständliche Sprache umwandeln, das funktionierte zwar, aber noch nicht ideal. Noch nicht jedenfalls.
Das machte den sogenannten Voder – voice operation demonstrator , also Sprachoperationsdemonstrator –, wie Dudley ihn genannt hatte, jedoch erst richtig besonders. Hier entstand Sprache vollkommen aus dem Nichts heraus. Jedenfalls wenn gekonnt jene Tasten gedrückt und gehalten wurden. Und das war für seine Zeit wahnsinnig beeindruckend. Daher wurde der Voder im Jahre 1939 stolz auf der Weltausstellung in New York gezeigt. Dort war er in einem runden Raum in ein edles Podest eingebaut. Hinter ihm zog sich die Art-Deco-Illustration eines Mannes in die Höhe, der durch einen Lautsprecher spricht. Darüber die fast zwei Meter hohen Worte THE VODER.
Davor und auf den Balkonrängen daneben sammelten sich regelmäßig Dutzende Menschen, die darauf warteten, die Maschine sprechen zu hören. „Greetings, everybody“, „Good afternoon, radio audience!“ konnte die Maschine von sich geben. Außerdem wurden Frage-Antwort-Runden mit einem Moderator oder einer Moderatorin geführt. Hin und wieder antwortete Voder auch auf Fragen aus dem Publikum. Selbst Lieder wie Auld Lang Syne konnte die Maschine singen, jodeln und niesen, wie in Archivmaterial von der Weltausstellung zu hören und in einer Ausgabe des Life -Magazin von 1939 zu lesen ist. Verständlich war die Stimme des Voder zwar. Aber natürlich klang sie nicht, sondern mechanisch, artifiziell. Doch das war egal.
Werde Mitglied von 1E9 – schon ab 3 Euro im Monat!
Als Mitglied unterstützt Du unabhängigen, zukunftsgerichteten Tech-Journalismus, der für und mit einer Community aus Idealisten, Gründerinnen, Nerds, Wissenschaftlerinnen und Kreativen entsteht. Außerdem erhältst Du vollen Zugang zur 1E9-Community, exklusive Newsletter und kannst bei 1E9-Events dabei sein.
Jetzt Mitglied werden!Flinke Finger
Dass der Voder nicht nur Klangmüll ausgab, sondern echte Worte sprach und aneinanderreihte, dafür sorgten 24 Frauen, die eigentlich als Telefonistinnen arbeiteten. Wegen ihrer „flinken Finger“, waren sie aus über 300 Kandidatinnen auswählt worden. Ursprünglich waren aber auch an Maler und Malerinnen oder auch Bildhauer angedacht. Trotz ihrer Begabung mussten sie über ein Jahr am Voder trainieren, bis sie, wie Der Spiegel in einem Rückblick aus dem Jahr 1951 schreibt, „fließend synthetisch sprechen konnten.“ Denn das Gerät war alles andere als leicht und intuitiv zu bedienen.
Mit einem Schalter neben den zwei Tastaturen konnten zwei Basisklänge ausgewählt werden, die von einem Oszillator und einer Röhre erzeugt wurden. Einer davon, der einem Atmen nachempfunden war und einer, der die Vibration der Stimmbänder darstellte. Über das Fußpedal wurde die Tonhöhe variiert. So konnte ein Summen, Zischen, Röhren und Hauchen erzeugt werden. Dazu kamen sprachliche Klänge wie „uuuuhhh“, „ooohhh“ und „aaahhh“, die durch Filter und verbundene Resonanzänderungen über die Handtasten angestimmt wurden. Mit gesonderten Tastern konnten zudem Verschlusslaute wie „p“, „k“ und „d“ und Affrikate gesetzt werden, also Klänge wie das „pf“ in Kupfer und Sumpf oder das „ch“ im cheese. Über ein zweites Pedal wurden die Töne in gedämpfte oder in klare Klangeinheiten und Vokale geformt. Dazu kam noch eine „Stumm“-Taste, um kurze Separationen zwischen Worten einzubringen.
Wie bei einem Puzzle wurden von den Voder Girls oder auch Voderettes , wie sie genannt wurden, die einzelnen Laute so zu Worten – von denen sie 2.500 trainiert hatten – zusammengefügt und mit den Pedalen in eine annähernd menschlichen Tonus modelliert. Zwischen zehn und 25 Aktionen und Tastenanschläge konnten pro Wort nötig sein. Und das in Windeseile. Nur eine kurze Verzögerung und ein kleiner Fehler, schon wurde ein Satz komplett entstellt und ein Wort zu Kauderwelsch. Eine gewisse Helen Harper soll den Voder aber tatsächlich gemeistert haben. Sie konnte nicht nur mit ihm sprechen, sondern habe damit auch gezielt verschiedenste Stimmen, Akzente und Betonungen zaubern können. Obwohl der Voder beispielsweise als „männliche Maschine“ entworfen worden war, ließ sie ihn mit einer Frauen- und einer Kinderstimme sprechen. Auch Tierlaute konnte sie ihm entlocken.
Der Voder wirkt bis heute nach
Die Reaktionen auf den Voder reichten von Begeisterung, Verwunderung und Amüsement bis hin zu Irritation. „Er hat keinen Mund, keine Lunge, keinen Kehlkopf – aber spricht wie ein Wasserfall“, schrieb ein Autor 1939 in Popular Science. In anderen zeitgenössischen Berichten wurde die Sprechmaschine hingegen als „dämonisch“ und „gespenstisch“ bezeichnet. Ein Spektakel war sie aber auf jeden Fall – und für viele der Zuschauer ein Blick in eine futuristische Zukunft, in der das Sprechen nicht mehr nur den Menschen vorbehalten ist. Zumindest bis der Voder verschwand. Und das passierte nach einer weiteren Vorstellung im gleichen Jahr auf der Golden Gate International Exposition in San Francisco. Der Grund? Letztlich war er zu kompliziert und verlangte jenen, die ihn bedienten zu viel ab.
Außerdem war der Voder nie als eigenständiges Produkt gedacht, sondern als Was-möglich-ist -Demonstration – und die Hälfte eines viel größeren und ausgefeilteren Konzepts, dem Vocoder, der nach weiterer Forschung sehr zuverlässig Sprache in Signale umwandeln und diese wieder in Sprache zurückwandeln konnte. Dadurch hatte er dann noch eine große Zukunft – wenn auch nicht ganz in der Art, wie einst von Dudley gedacht. Im Jahr 1943 wurde er Teil des SIGSALY, einem sicheren und seinerzeit revolutionären Militärkommunikationssystem. Der Vocoder wurde genutzt, um Sprachsignale in ihre Grundkomponenten zu zerlegen, die dann chiffriert, über Kabel und Kurzwelle versendet wurden und nach ihrer Entschlüsselung trotzdem noch klar verständlich waren – zunächst analog und dann digital. Franklin D. Roosevelt und Churchill führten während des zweiten Weltkriegs so geheime Konversationen.
Auch Künstler und Musikmacher nahmen sich des Vocoders an. Beispielsweise der Wissenschaftler Werner Meyer-Eppler, der damit einen der Grundsteine für die elektronische Musik legte. Kultstatus erlangte der Vocoder-Klang mit dem Lied The Robots der Band Kraftwerk, deren Mitglieder so zu krächzenden Robotern wurden – ebenso wie später der Hip-Hop-Künstler Afrika Bambaataa im Kult-Hit Planet Rock .
Aber auch der Voder selbst ist nicht ganz verschwunden. Vielmehr ist das Bemühen darum, elektronisch auch Klänge aus der biologischen Welt zu erzeugen, zum Teil des Strebens von Entwicklern von musikalischen Synthesizern geworden. Dadurch erweckten Musiker wie Isao Tomita in Stücken wie Ballet Of The Chicks In Their Shells mit reiner Elektronik glaubhaft Küken zum Leben und ließen Frauen aus voller Kehle die Liebe besingen.
Und natürlich ist die Anstrengung von Tech-Konzernen wie Google, Apple, Microsoft und freien Sprachassistenten-Entwicklern nicht so weit von dem entfernt, was einst Homer Dudley und die Bell Labs erreichen wollten. Nämlich eine Stimme produzieren – und zwar ohne all das, was es eigentlich in der Natur dafür braucht. Selbst die Grundidee, dass Sprache eben letztlich etwas ist, das verstanden, analysiert und aus einem Strom von Klängen, Signalen und Impulsen modelliert werden kann, bis heute die gleiche geblieben.
Nur hat sich in den über 80 Jahren seit der Vorstellung des Voder die Art, wie das geschieht weiterentwickelt. Statt junger Frauen übernehmen Algorithmen das Lernen und Ausspielen einer Stimme. Und statt eines riesigen Pults, Röhren und Oszillatoren ist heute lediglich ein Telefon oder Smartspeaker notwendig, um eine synthetische Stimme ertönen zu lassen – heiße sie nun, Siri, Alexa oder Cortana.
Teaser-Bild: Library of Congress