OpenAssistant: Ein deutscher Verein hat eine freie ChatGPT-Alternative gestartet

Michael · 18. April 2023 um 10:38

Der Verein LAION hat mit einer Bild- und Grafikdatenbank die Entwicklung des Text-zu-Bild-Generators Stable Diffusion ermöglicht. Jetzt hat das Team einen ChatGPT-Konkurrenten gestartet. Auch andere Gruppen und Initiativen arbeiten an freien Konkurrenten zur OpenAI-KI.

Von Michael Förtsch

Seit dem Start von ChatGPT haben sich zahlreiche Gruppen gebildet, die eine freie und für alle nutzbare Alternative zum Chatbot und den Sprach-Modellen von OpenAI entwickeln wollen. Denn entgegen seiner ursprünglichen Mission arbeitet das Forschungs- und Entwicklungsunternehmen unter der Leitung von Sam Altman immer weniger offen und transparent. Nicht wenige Tech- und KI-Experten befürchten einen Wettlauf um eine Monopolstellung. Eines der Projekte, das einen freien KI-Assistenten entwickeln will, heißt OpenAssistant. Dahinter steht der deutsche Verein LAION, der zuvor den Datensatz zusammengestellt hat, mit dem unter anderem Text-zu-Bild-Generatoren wie Stable Diffusion trainiert wurden.

Die Gruppe um den Entwickler Andreas Köpf hat nun die erste Fassung ihrer Konverations-KI mit allen verwendeten Datensätzen veröffentlicht. Für den Aufbau eines ChatGPT-Konkurrenten erstellte das Team einen umfangreichen Datensatz von Konversationen. Im Gegensatz zum ebenfalls freien Modell Alpaca wurde dieser jedoch nicht einfach mit einer anderen Künstlichen Intelligenz erstellt. Stattdessen hat das Team Daten von 13.500 Freiwilligen gesammelt. Dadurch soll der OpenAssistant in der Lage sein, eine große Bandbreite an Schreib-, Sprachstilen und Ausdrucksvarianten zu verstehen und nachzuahmen. Als Ausgangspunkt für das Training dienten das von Meta entwickelte Sprachmodell LLaMA und Pythia von EleutherAI.

Insgesamt soll der für OpenAssistant verwendete Datensatz 600.000 Datenpunkte umfassen. Darunter befinden sich einzelne Nachrichten und Konversationsbäume in 35 verschiedenen Sprachen – der Großteil davon in Englisch und Spanisch. Darüber hinaus sammelte das Team kontinuierlich Feedback und Bewertungen, die in das Training einflossen und auch in Zukunft einfließen werden. Wie die Entwickler selbst in einem Paper zur Entwicklung einräumen, ist das aktuelle Modell noch sehr „unausgewogen“. Dies auch deshalb, weil vor allem junge Männer aus westlichen Industrienationen zu den Mitwirkenden zählen. Andere Gruppen seien derzeit noch deutlich unterrepräsentiert.

Die auf Basis von LLaMA entstandenen OpenAssistant-Modelle sind aufgrund von Lizenzbedingungen nur für die Wissenschaft und Forschung gedacht. Die mittels Pythia erzeugten Modelle hingegen können, wie die Entwickler betonen, vollkommen frei eingesetzt werden – auch für kommerzielle Zwecke.

Werde Mitglied von 1E9!

Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Du unterstützt konstruktiven Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du frühen Zugriff auf unsere Inhalte, exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.

Jetzt Mitglied werden!

Weitere freie Alternativen

Wer den OpenAssistant testen will, der kann das über eine Chat-Oberfläche auf der Projektseite tun. Über diese sammelt das Team auch Informationen zur Qualität der Konversationen, die helfen sollen, das Projekt weiterzuentwickeln. Noch gibt die KI auf Fragen zuweilen sonderbare Antworten, weicht einer konkreten Antwort aus oder versteht Anfragen schlicht nicht. Ebenso wirken auf Deutsch geführte Dialoge nicht immer sehr menschlich und flüssig. Anders als ChatGPT ist der OpenAssistant zudem auch gerne bereit, eine Auskunft darüber zu geben, wie Bomben gebaut oder neue Drogen gebraut werden und wieso Markus Söder ein furchtbarer Bundeskanzler wäre. Gleichzeitig mag der OpenAssistant jedoch keine Beleidigungen aussprechen oder sich sonstwie „ungebührlich“ benehmen.

Laut der Macher ist das Ziel der OpenAssistant-Initiative, „nicht darauf beschränkt, ChatGPT zu replizieren“. Vielmehr wolle das Team einen „Assistenten der Zukunft“ entwickeln, der den Nutzer vollends in seinem Alltag unterstützen und dabei auf „Verbraucherhardware laufen“ kann. Der OpenAssistant solle in der Lage sein, E-Mails und Anschreiben zu formulieren, bei einer Recherche zu helfen und selbst Informationen zu sammeln. Dabei solle er möglichst flexibel sein und sich so personalisieren lassen, dass er sich den eigenen Bedürfnissen, wie auch dem Lebensstil anpasst.

OpenAssistant ist keineswegs das einzige Projekt, das an einer freien Alternative zu ChatGPT arbeitet. Bereits für einiges Aufsehen hat Alpaca gesorgt, ein Modell von Stanford-Forschern, das auf dem von Meta entwickelten LLaMA-Modell basiert und mit Dialogen trainiert wurde, die von ChatGPT stammen. Eine weitere Alternative stellt Vicuna dar. Es basiert ebenfalls auf LLaMA und wurde mit Hilfe von Dialogen trainiert, die auf ShareGPT.com gesammelt wurden. Hinter diesem Modell stehen Entwickler der UC Berkeley und der Stanford-Universität. Vicuna kann auf einer Chat-Oberfläche getestet werden und soll eine ähnliche Qualität erreichen wie Googles Bard.

Das Cloud-Computing-Unternehmen Databricks wiederum hat ein Modell namens Dolly veröffentlicht. Dessen erste Fassung wurde im März auf GPT-J von Eleuther AI aufgebaut und mit einem lediglich 50.000 Wörtern umfassenden Datensatz auf einem einzigen Server drei Stunden lang trainiert. Und dennoch soll das Modell eine „magische Fähigkeit zur menschlichen Interaktion“ zeigen, wie die Entwickler behaupten. Dafür habe das Team sehr konkrete Konversationsbeispiele ausgewählt. Eine zweite Fassung wurde Mitte April veröffentlicht. Diese basiert auf dem Modell Pythia und wurde mit einem Datenset von 15.000 Dialogen nachtrainiert. Dolly 2.0 ist ebenso wie OpenAssistant frei verfügbar und darf auch für den kommerziellen Einsatz genutzt werden.

Und dann wäre da noch GPT4ALL vom Entwickler Nomic AI. Dies ist ein offenes Projekt, für das eine recheneffiziente Fassung des LLaMA-Modells mit einer Sammlung von Dialogen, Programmcode, Artikeln und Erzählungen trainiert wurde. Eine kleine Fassung des Modells kann mitsamt einem Chatprogramm für Windows-, MacOS- und Linux-Rechner heruntergeladen und auf dem eigenen PC ohne Internetanbindung genutzt werden.

Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!

Sprich mit Job, dem Bot!

War der Artikel hilfreich für dich? Hast du noch Fragen oder Anmerkungen? Ich freue mich, wenn du mir Feedback gibst!