30. Januar 2025
Was du über DeepSeek wissen musst: Chinas Open-Source-KI erschreckt das Silicon Valley
Das chinesische KI-Start-up DeepSeek lehrt amerikanische Tech-Giganten wie OpenAI, Google und Meta das Fürchten: Sein KI-Modell DeepSeek R1kann mit deren Topmodellen mithalten – obwohl es für einen Bruchteil der Kosten und auf schwacher Hardware entwickelt worden sein soll. Kann das sein? Wer steckt hinter DeepSeek? Und warum sahen manche den Erfolg einer Open-Source-KI schon länger kommen? Wir erklären es euch.
Von Michael Förtsch
Im Silicon Valley machen sich Unsicherheit und Nervosität breit. Manche sprechen sogar von Panik. Denn ein chinesisches Start-up namens DeepSeek hat in der vorletzten Januarwoche ein KI-Modell namens DeepSeek-R1 veröffentlicht, das es nach eigenen Angaben mit den Top-Modellen der milliardenschweren KI-Giganten OpenAI oder Meta aufnehmen kann. Es handelt sich um ein Reasoning-Modell, das über seine Antworten nachdenken und auf diese Weise komplexe Fragen und Probleme lösen können soll. In den gängigen Leistungstests für sprachliche, mathematische und logische Fähigkeiten sowie Allgemein-, Programmier- und Fachwissen schneidet DeepSeek-R1 genauso gut, teilweise sogar besser ab als das o1-Modell von OpenAI. Diese gewagte Behauptung wurde bei der Ankündigung des Start-ups zunächst von vielen angezweifelt. Schließlich gab es schon zuvor ähnliche Behauptungen, die sich zuverlässig als falsch herausstellten. Aber hier war das anders.
Wie KI-Enthusiasten, -Entwickler und -Forscher in der vergangenen Woche festgestellt haben, entsprechen die Angaben von DeepSeek der Wahrheit. Die mit 671 Milliarden Parametern größte Variante des Modells aus China erreicht die behaupteten Testwerte. In den Mathematik- und Problemlösungsprüfungen Math-500 und AIME-2024 schlägt es o1 knapp, aber sichtbar. Auf der von Studierenden der UC Berkeley gegründeten KI-Topliste Chatbot Arena liegt DeepSeek R1 damit inzwischen gemeinsam mit der letzten Version GPT-4o auf Platz 3 – und damit vor anderen westlichen Spitzenmodellen wie Claude 3.5 Sonnet, Llama 3.1 Nemotron oder Mistral Large. Nur Googles experimentelle Gemini-Modelle schneiden aktuell besser ab. Aber auch abseits der reinen Zahlenwerte begeistert und verblüfft DeepSeek R1.
Sowohl professionelle Entwickler als auch Hobby-KI-Bastler zeigen auf Plattformen wie X, BlueSky und Reddit, was mit dem Modell alles möglich ist. Mit relativ einfachen Prompts können komplexe Codes für die Erstellung von 3D-Animationen generiert werden. Ein Entwickler brachte DeepSeek R1 innerhalb weniger Tage dazu, im Internet zu surfen, und machte es so zu einem fähigen KI-Assistenten – ähnlich der Computer-User- und Operator-Funktion von Anthropic beziehungsweise OpenAI. Ein anderer entwickelte mit Hilfe von R1 und auf Basis des Modells einen personalisierten Klon der KI-Suchmaschine Perplexity. Und Forscher auf der ganzen Welt konfrontieren das Modell derzeit mit zahlreichen Problemen aus Mathematik, Biologie, Medizin und Physik.
Open Source – und dazu noch um ein Vielfaches günstiger für User
Die Leistung von DeepSeek R1 allein könnte bereits die Besorgnis der amerikanischen und teilweise auch der europäischen KI-Branche erklären. Denn sie zeigt, wie schnell chinesische Entwickler zu den amerikanischen Pionieren aufgeschlossen haben. Hinzu kommt jedoch, dass das R1-Modell von DeepSeek unter einer MIT-Open-Source-Lizenz steht. Diese erlaubt es jedem, es völlig kostenlos zu nutzen, zu modifizieren und weiterzuentwickeln – auch für kommerzielle Zwecke. Es kann und muss also nicht nur über den offiziellen Chatdienst der Firma DeepSeek genutzt werden.
Wer möchte, kann das vollständige Modell oder auch kleinere, wenn auch weniger leistungsfähige Modellvarianten direkt von Plattformen wie Huggingface herunterladen, auf einem eigenen Server betreiben oder lokal auf dem Rechner mit Programmen wie Ollama oder LocalAI nutzen. Etwas, was Google, OpenAI und Anthropic gerade nicht zulassen wollen. Zum Teil werden Sicherheitsbedenken angeführt. Laut anonymen Mitarbeitern sei es aber vor allem der Wunsch, die Kontrolle über das eigene, teuer entwickelte Produkt zu behalten und kontrollieren zu können, wie es eingesetzt wird.
Dann wäre noch ein weiterer Punkt: DeepSeek R1 soll um ein Vielfaches effizienter sein als die Konkurrenz. Für den Betrieb soll weniger Rechenkraft nötig sein, was direkt den Preis für die Nutzung drückt. Für die Verarbeitung von einer Million Token – also die Anzahl an Zeichenketten – verlangt DeepSeek über seine hauseigenen Server lediglich 14 US-Cent. OpenAI hingegen will 7,50 US-Dollar – mehr als das Fünfzigfache. Das stellt sowohl das Geschäftsmodell, als auch die Technologie des gefeierten US-Unternehmens in Frage.
Das DeepSeek-Modell scheint sogar so effizient, dass es einigen Bastlern gelungen ist, die 404 Gigabyte große Vollversion des R1-Modells auf handelsüblicher Hardware wie zwei vernetzten Mac-Studio-Computern zum Laufen zu bringen. Ein Grund für die Effizienz ist die Mixture-of-Experts-Architektur, die dafür sorgen soll, dass nur die Parameter verwendet werden, die wirklich für eine Aufgabe benötigt werden. Ein Mechanismus namens Multi-Head Latent Attention soll es dem Modell zudem ermöglichen, mehrere Aspekte eines Prompts oder der eingegebenen Daten gleichzeitig zu berücksichtigen, was die Verarbeitung deutlich beschleunigt.
Entwickelt auf schwacher Hardware zu unschlagbaren Kosten
Auch das Training des Modells soll deutlich effektiver verlaufen sein und im Vergleich zu den Summen, die andere KI-Unternehmen investieren, geradezu ein Schnäppchen gewesen sein.
Genaue Zahlen über die Kosten für das Training der R1 hat DeepSeek nicht veröffentlicht. Aber das zweimonatige Training von DeepSeek V3, dem Modell, auf dem DeepSeek R1 basiert, soll nur 5,6 Millionen US-Dollar gekostet haben, hatten die Entwickler Ende 2024 in einem technischen Bericht aufgeschlüsselt. Die Weiterentwicklung von DeepSeek V3 zum Reasoning-Modell dürfte nach Einschätzung von Branchenkennern weniger als 10 Millionen US-Dollar gekostet haben. Zum Vergleich: Das leistungsmäßig mit DeepSeek V3 vergleichbare GPT-4o soll ganze 78 Millionen US-Dollar gekostet haben.
Habt ihr DeepSeek R1 schon getestet?
Ja, natürlich!
Nein, noch nicht.
Nein, interessiert mich nicht.
Aufgrund von Exportbeschränkungen ist der Zugang zu rechenstarker Hardware für chinesische KI-Start-ups eingeschränkt. Daher soll DeepSeek lediglich Zugang zu 2048 Nvidia H800 Rechenchips gehabt haben – eine Angabe, die allerdings nicht unabhängig verifiziert werden kann und teilweise auch angezweifelt wird. Dabei handelt es sich um rechenschwächere Varianten des Nvidia-H100-Chips, die speziell für den Export nach China entwickelt wurden, aber seit 2023 ebenfalls einem Embargo unterliegen. Hier als Vergleich: Das Meta-KI-Modell LLaMA 3 wurde auf zwei Rechenclustern mit je 24.000 H100-GPUs trainiert. Selbst weitaus weniger leistungsfähige Sprachmodelle werden auf Cloud-Computing-Infrastrukturen mit mindestens mehreren tausend GPUs entwickelt.
Aufgrund der begrenzten Hardware-Ressourcen wurde der Trainingsprozess durch zahlreiche Optimierungen so effizient wie möglich gestaltet. Das Team entwickelte eigene Methoden zur Überlappung von Berechnungen und Datentransfers während des Trainingsprozesses, zur Beschleunigung der Prozessorkommunikation, zur Reduzierung des Speicherbedarfs und zur Verkürzung der Rechenschritte. „Not macht erfinderisch“, kommentiert das Aravind Srinivas, der Chef von Perplexitiy. „Weil sie Workarounds finden mussten, haben sie am Ende etwas wirklich viel Effizienteres gebaut.“ Andere spotteten, hier zeige sich, wie US-Exportbeschränkungen und Versuche, China technologisch auszubremsen, „nach hinten losgehen können“.
Hinter DeepSeek steht ein erfolgreicher Hedgefonds-Gründer
Auch wenn es derzeit für viele so aussieht, kommt DeepSeek nicht aus dem Nichts. In der KI-Szene ist das Unternehmen schon länger ein Begriff. Bereits im November 2023 hatte das Unternehmen mit DeepSeek Coder ein Modell speziell für die Generierung von Computercode vorgestellt. Es folgte die erste Version eines eigenen großen Sprachmodells, also LLM, das zwar etwas Aufmerksamkeit erregte, aber in Umfang und Qualität noch nicht mit anderen Modellen mithalten konnte. Im Abstand von wenigen Monaten folgten dann weitere Versionen, die vor allem in der Anwendung immer effizienter und schneller wurden.
Hinter DeepSeek steht primär der 1985 geborene Liang Wenfeng. Er gründete 2015 mit zwei Kommilitonen von der Zhejiang University in Hangzhou den Hedgefonds High-Flyer, der algorithmische Handelsmethoden und quantitative Analysen entwickelte. Innerhalb weniger Jahre erwirtschaftete das Team mit dem Fonds mehrere Milliarden und machte seine Gründer reich. Als Nebenprojekt startete Wenfeng daher vor einigen Jahren eine kleine Forschungsinitiative für Künstliche Intelligenz. Dafür soll er 2021 versucht haben, mehrere tausend Nvidia-A100-CPUs zu kaufen. Aus diesem Projekt entwickelte sich DeepSeek, das 2023 offiziell als Tochterunternehmen gegründet wurde.
Liang Wenfeng gilt als öffentlichkeitsscheuer Nerd mit „schrecklicher Frisur“, der große Visionen für die Zukunft hat und selbst aktiv bei DeepSeek mitarbeitet. Er ist unter anderem Co-Autor der DeepSeek-Coder-Studien. Auch das übrige Kernteam von 120 bis 160 Personen tritt eher selten öffentlich in Erscheinung, besteht aber aus vielen jungen Entwicklern und Forschern mit Abschlüssen von renommierten Forschungs- und Bildungseinrichtungen wie der Tsinghua University, der Zhejiang University und der Hong Kong University of Science and Technology. Für viele von ihnen ist es die erste Anstellung, wie die Financial Times berichtet. Zusätzlich zum Kernteam soll DeepSeek nochmals zwischen 100 und 140 Personen wie auch freie Mitarbeiter beschäftigen.
„Etwas zurückzugeben ist eine Ehre.“ - Liang Wenfeng
Ein klar definiertes Ziel oder eine Mission wurde von Wenfeng für DeepSeek nicht ausgerufen. Vielmehr gehe es darum, einfach die Forschung und Entwicklung im Bereich der Künstlichen Intelligenz voranzutreiben. Es sei wichtig, „an der globalen Innovation teilzuhaben“, sagte er in einem Interview Mitte 2024. Für chinesische Unternehmen sei es an der Zeit, endlich selbst Technologien zu entwickeln und „die technischen Grenzen zu verschieben“. China solle nicht länger nur von den Entwicklungen anderer profitieren, sondern auch selbst etwas beisteuern.
Für Wenfeng spiele Geld dabei kaum eine Rolle. Für ihn gab es „keinen wirtschaftlichen Grund für die Gründung von DeepSeek“, lässt Wenfeng sich in einem Interview aus dem Jahr 2023 zitieren. Finanziell würde sich DeepSeek auch „nicht lohnen“. Mit der Art von Forschung, die das Unternehmen betreibe, könne man nämlich kein Geld verdienen. Die eigenen Modelle und Forschungen zudem als Open-Source-Inhalte zu veröffentlichen, würde da finanziell kaum zusätzlich ins Gewicht fallen.
„Etwas zurückzugeben ist eine Ehre“, sagt Wenfeng. Es gehe ihm hierbei um Kultur, nicht um Kommerz. Daher schließt er auch aus, zukünftige Modelle zurückzuhalten, wie es OpenAI oder Google tun. Selbst, wenn das Verluste bedeuten würde. Dennoch soll DeepSeek Stand 2024 seine Kosten decken können – aber werde für größere Ausgaben weiterhin durch High-Flyer, staatliche Förderprogramme und private Investoren unterstützt.
Das Ende der US-Vormachtstellung bei KI?
Die Reaktionen auf die Veröffentlichung und die Leistung von DeepSeek R1 fallen in der westlichen KI-Branche sehr unterschiedlich aus. Einige sehen die bisher als Vorreiter gefeierten Unternehmen wie OpenAI, Anthropic und Google vorgeführt. Denn hier habe ein bisher in der Öffentlichkeit kaum bekanntes Unternehmen mit begrenzten Ressourcen das geschafft, wofür die Silicon-Valley-Größen Millionen über Millionen verbrennen. Der technische Vorsprung und die vermeintliche Überlegenheit des Silicon Valley waren in dieser Lesart nur eine Illusion und das Geld der Investoren keine Erfolgsgarantie.
„Der Kaiser ist nackt“, spottete der KI-Forscher Andriy Burkov in Richtung OpenAI. Und der ehemalige StabilityAI-Gründer Emad Mostaque schrieb: „Stell dir vor, du bist ein Pionierlabor, das gerade eine Milliarde Dollar eingesammelt hat, und jetzt kannst du dein neues Modell nicht veröffentlichen, weil es nicht mit DeepSeek mithalten kann?“
Mit seinem Modell habe DeepSeek gezeigt, argumentieren einige Branchenkenner, dass es die riesigen Rechenzentren, wie sie OpenAI, Microsoft und Co. gerade planen, vielleicht gar nicht braucht. Zumindest nicht in diesen Dimensionen. Denn offenbar geht es auch anders: billiger, effizienter und damit umweltfreundlicher. Wenn ein Modell wie DeepSeek V3 und R1 auf ein paar tausend statt zehntausenden Nvidia-Chips trainiert werden kann, bedeutet das schließlich, dass es gleichsam mit ein paar Megawattstunden Strom und tausenden Litern Kühlwasser weniger möglich ist. Die Reaktivierung von Atomkraftwerken, das Anzapfen von Grundwasser und riesige Hallen voller Computer: Alles unnötig? Vielleicht.
Aber was ist mit der Zensur?
Das Modell R1, aber auch die anderen Modelle von DeepSeek sind zwar offen und können ohne große Einschränkungen genutzt, weiterentwickelt und sogar kommerziell verwertet werden. Aber sie kommen immer noch aus China – und das merkt man. Denn die Modelle sind in vielerlei Hinsicht zensiert. Wer einen Witz über Xi Jinping will, bekommt ihn nicht. Wer wissen will, was es mit dem Tian'anmen-Massaker auf sich hat, bekommt zur Antwort, dass das Modell diese Frage nicht beantworten kann. Denn es sei der „sozialen Moral Chinas“ verpflichtet. Erste Entwickler haben aber bereits angekündigt, die Zensur aus dem Modell „heraus zu trainieren“. Den Machern der KI-Suchmaschine Perplexity ist es offenbar bereits gelungen, die Zensur auf andere Weise auszuhebeln.
Tatsächlich hat der Erfolg von DeepSeek die Aktienkurse von Microsoft, Nvidia und anderen KI- und Hardware-Unternehmen wie TSMC um mehrere Prozentpunkte einbrechen lassen. Wobei einige Analysten dennoch einen Boom kommen sehen – zumindest für die Chiphersteller wie Nvidia. Denn DeepSeek sei auch ein Signal dafür, dass Unternehmen und Forschungseinrichtungen, die bisher glaubten, die Entwicklung eigener LLMs sei zu teuer und aufwändig, nun das Gegenteil bewiesen bekamen. Um mit OpenAI, Google und Co. mithalten zu können, braucht es demnach keine Milliardeninvestitionen mehr, sondern nur noch ein paar Millionen und einige kluge Köpfe. Das könnte Cloud-Computing-Anbieter und unabhängige Rechenzentren aufblühen lassen – und das eigentliche Wettrennen um die beste KI erst so richtig befeuern.
Auch Microsoft-Chef Satya Nadella scheint der Entwicklung etwas Positives abgewinnen zu können. Auf X schreibt er mit Verweis auf das Jevons-Paradoxon, das besagt, dass Effizienzsteigerungen bei einer Ressource oft den Gesamtverbrauch erhöhen: „Wenn KI immer effizienter und zugänglicher wird, wird ihre Nutzung explodieren und sie zu einer unverzichtbaren Ressource machen, von der wir einfach nicht genug bekommen können.“
Open Source als Erfolgsfaktor von DeepSeek – von dem alle profitieren
Vor allem in den US-amerikanischen Medien wurde DeepSeek zum Symbol eines Scheideweges stilisiert. Die USA könnten ihre Position im globalen Wettlauf um Künstliche Intelligenz an China verlieren – und damit die Vormachtstellung in einem der wichtigsten Zukunftsmärkte. Das amerikanische Kapital habe sich im Wettbewerb mit der wachsenden Kreativität, Innovationskraft und dem Effizienzdruck in China als unterlegen erwiesen. Diese pessimistische Einschätzung wird jedoch nicht von allen geteilt oder gar als falscher Denkansatz verurteilt.
Der Meta-KI-Forscher Yann LeCun sieht den Erfolg von DeepSeek und seinem Modell nicht als Zeichen der Überlegenheit Chinas, sondern des freien Wissens und der Open-Source-Bewegung. „Open-Source-Modelle sind proprietären Modellen überlegen“, schreibt er auf Threads. Die Basis des R1-Modells basiere auf Forschungsergebnissen, die jeder im Internet einsehen könne, die Software zur Entwicklung solcher Modelle werde kollaborativ von Hunderten von Menschen gepflegt und weiterentwickelt. Und da auch DeepSeek R1 und die Arbeit dahinter „veröffentlicht und quelloffen ist, kann jeder davon profitieren“.
„Wir leben in einer Zeit, in der ein nicht-amerikanisches Unternehmen die ursprüngliche Mission von OpenAI am Leben erhält – eine wirklich offene Pionierforschung, die alle befähigt.“ - Jim Fan
Auch der Nvidia-Forscher Jim Fan argumentiert in diese Richtung: „Wir leben in einer Zeit, in der ein nicht-amerikanisches Unternehmen die ursprüngliche Mission von OpenAI am Leben erhält – eine wirklich offene Pionierforschung, die alle befähigt.“ Davon sind auch viele Mitglieder der Open-Source-KI-Community überzeugt und sehen in der Veröffentlichung von DeepSeek R1 einen Moment des Umbruchs. Das freie und für alle nutzbare Modell könnte für die Künstliche Intelligenz das bedeuten, was Linux und Android für die Welt der Betriebssysteme waren.
Diese Argumentation ist übrigens nicht neu. Denn bereits 2023 veröffentlichte ein anonymer Google-Entwickler ein Memo, in dem er voraussagte, dass die Open-Source-Szene die großen KI-Unternehmen im Bereich der Künstlichen Intelligenz überholen werde. Denn sie sei sehr schnell darin, Modelle aufzugreifen, sich anzueignen und neue und kreative Anwendungen zu finden, an die sonst niemand denke. „Die unbequeme Wahrheit ist, dass wir nicht in der Lage sind, dieses Wettrennen zu gewinnen – und OpenAI auch nicht“, schrieb er. Die großen Firmen hätten zwar „noch einen kleinen Qualitätsvorsprung“, aber der werde immer kleiner – und irgendwann verschwinden. Denn weder Google noch OpenAI und andere hätten eine „Geheimzutat“.
Aus diesem Grund, so der Entwickler, sollten sich Google und die anderen KI-Firmen der Open-Source-Community öffnen. „Wir können versuchen, an unseren Geheimnissen festzuhalten, während Innovationen von außen ihren Wert verwässern, oder wir können versuchen, voneinander zu lernen“, heißt es in dem geleakten Dokument. Je mehr die Unternehmen versuchten, ihre Modelle geheim und ihre Trainingsprozesse unter Verschluss zu halten, desto attraktiver würden die freien Alternativen. Zumindest im Fall von DeepSeek R1 scheint sich genau diese Vorhersage nun zu bestätigen.
Michael Förtsch
Senior Editor / Lead Writer
Weiter bei 1E9...
Überschrift 3
Cooler Artikel!
Überschrift 3
Artikel
Überschrift 3
Cooler Artikel!
Überschrift 3
Cooler Artikel!