Die Firma hinter dem Text-zu-Bild-Generator Stable Diffusion hat einen Dienst gestartet, mit dem sich Musik und Klänge generieren lassen. Auch hier muss lediglich ein beschreibender Text eingegeben werden. Die Ergebnisse sind allerdings nicht immer überzeugend.
Von Michael Förtsch
Eine einfache Beschreibung genügt – und schon erzeugen die KI-Modelle von Text-zu-Bild-Generatoren pittoreske bis fotorealistische Bilder. Hunderte Millionen davon haben Nutzer mittlerweile mit der generativen Technologie erschaffen. Manche sind nur noch schwer von echten Fotografien und Malereien zu unterscheiden. Stability AI, das Unternehmen das an der Entwicklung der frei nutz- und weiterentwickelbaren Bild-KI Stabel Diffusion beteiligt ist – die ursprünglich von einer Gruppe der Universität München stammt –, und dessen KI-Forschungslabor Harmonai haben nun einen solchen Generator für Klang und Musik veröffentlicht. Die grundlegende Technologie und Logik des Stable Audio genannten Dienstes ist dabei die gleiche wie bei Stable Diffusion oder auch Midjourney.
Hier ein Song, den wir generiert haben
Wie Stability AI in der Ankündigung erklärt, hat das Unternehmen die Erkenntnisse und Fortschritte bei der Entwicklung der Version Stabel Diffusion XL – dem aktuellen Modell des Bild-Generators – für Stabel Audio adaptiert und teilweise modifiziert. Außerdem habe es auf Moûsai gesetzt, ein von einem Forscherteam um das Max-Planck-Institut für Intelligente Systeme und der ETH Zürich entwickeltes KI-Audio-Modell. Statt mit Bildern inklusive ihrer Verschlagwortungen oder Bildunterschriften wurde das Modell mit Audioclips und Liedern und deren Beschreibungen trainiert. Insgesamt seien 800.000 Audiodateien genutzt worden, die eine Gesamtlänge von 19.500 Stunden haben. Darunter moderne Pop- und Rocklieder, Klänge von einzelnen Instrumenten, Stimmen, Gespräche aber auch Hintergrundgeräusche wie Straßenlärm oder Geschwätz in einem Restaurant. Geliefert hat das Dataset das Musikvermarkungsunternehmen AudioSparks.
Die Nutzung von Stable Audio funktioniert wie die von Text-zu-Bild-Generatoren. In ein Textfeld wird ein Prompt eingegeben, also ein Text, der beschreibt, was mit der Künstlichen Intelligenz erzeugt werden soll. Am besten funktionieren schlagwortartige englischsprachige Prompts. Beispielsweise: modern pop, happy, upbeat, piano, strong bass, electronic keyboard. Ebenso können konkrete Angaben wie die Geschwindigkeit, zum Beispiel 110 bpm, ergänzt werden. Im Gegensatz zu Text-zu-Bild-Generatoren haben Künstlerreferenzen wie Britney Spears, Hans Zimmer oder Linkin Park bei diesem Modell keine oder eher nachteilige Wirkung, da diese nicht in den Trainingsdaten vorhanden waren. Grund dürften Sorgen hinsichtlich Urheberrechtsklagen sein. Stability AI begründet es hingegen damit, dass Nutzer mit Audioinhalten eigenständig kreativ arbeiten wollen.
Noch nicht perfekt
Laut Stability AI sei die Arbeit an Stable Audio eine Herausforderung gewesen. Unter anderem, da „Diffusionsmodelle in der Regel für die Erzeugung einer Ausgabe mit fester Größe trainiert werden“ – also einer spezifischen Auflösung beziehungsweise Pixelanzahl oder eben einer festen Anzahl an Sekunden. „Ein Audio-Diffusionsmodell kann zum Beispiel auf 30-Sekunden-Audioclips trainiert werden und ist nur in der Lage, Audio in 30-Sekunden-Stücken zu generieren“, so Stability AI. „Im Falle von Musik führt dies dazu, dass das Modell dazu neigt, beliebige Abschnitte eines Liedes zu erzeugen, die in der Mitte einer musikalischen Phrase beginnen oder enden können.“
Werde Mitglied von 1E9!
Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Du unterstützt konstruktiven Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du frühen Zugriff auf unsere Inhalte, exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.
Jetzt Mitglied werden!Das Modell von Stable Audio wurde daher zusätzlich zu den inhaltlich beschreibenden Meta-Daten noch mit Informationen trainiert, die beispielsweise den Startzeitpunkt eines Musikstücks, die Länge des Trainingsclips, die Länge des gesamten Musikstücks und auch dessen Ende angeben. Die Künstliche Intelligenz verfügt dadurch über einen Kontext, in dem ein gelerntes Stück stattfindet, und versteht, dass ein Musikstück am Ende und Anfang anders klingt als im Mittelpart. Dadurch lassen sich derzeit mit dem Dienst durch nicht zahlende Nutzer bis zu 45 Sekunden an Audiomaterial generieren. Zahlende Nutzer können bis zu 90 Sekunden erzeugen. Firmenkunden können Stücke mit einer variablen Länge generieren.
Die Ergebnisse der Text-zu-Audio-KI sind in unserem Test schwankend. Denn trotz der beschriebenen technischen Kniffe von Stablity AI klingen viele Stücke als wäre ein zufälliger Ausschnitt aus einem Musikstück geschnitten worden. Komplexere Kompositionen klingen oft wirr, übersteuert oder nach schlechter Aufnahmequalität. Einfache Kompositionen, deren Prompts konkret ein Genre und etwa zwei Instrumente benennen, können hingegen durchaus überraschen und sich natürlich anhören. Derzeit ist der Dienst schwer erreichbar, da, wie Stability AI mitteilt, sehr viele Nutzer auf Stable Audio zugreifen.
Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!
Sprich mit Job, dem Bot!
War der Artikel hilfreich für dich? Hast du noch Fragen oder Anmerkungen? Ich freue mich, wenn du mir Feedback gibst!