Derzeit arbeiten Dutzende von Start-ups an KI-Modellen und Diensten, die sich Künstlicher Intelligenz bedienen. Einige sind größer, andere kleiner. Aber alle brauchen schnelle und auf KI optimierte Chips. Die sind jedoch gerade rar, da der größte Hersteller Nvidia den Bedarf nicht decken kann. Einige Firmen müssen daher ungewöhnliche Wege gehen, um an die nötige Rechenkraft zu kommen.
Von Michael Förtsch
Das US-Unternehmen Nvidia kann gerade richtig feiern. Es hat seinen Börsenwert binnen kürzester Zeit verdreifacht, fährt Rekordumsätze ein und wird sogar von einigen als das „wichtigste Unternehmen unserer Zivilisation“ bezeichnet. Denn die 32 Jahre alte Firma ist derzeit sowohl einer der größten Profiteure als auch ein Treiber des KI-Booms. Der Halbleiterentwickler aus Santa Clara, Kalifornien war über Jahre fast ausschließlich als Produzent von Grafikkarten für Gamer bekannt. Aber die hinter den 3D-Beschleunigern oder Graphics Processing Units – kurz GPUs – stehende Architektur stellte sich vor einigen Jahren als ideal für die rechenintensiven Prozesse für das Training und die Nutzung von Maschinenlernmodellen heraus, also KI-Technologie. Zunächst machten sich das Forscher im KI-Bereich, Cloud-Computing-Anbieter und die Firmen hinter autonomen Fahrzeugen zunutze, weshalb Nvidia das als aussichtsreichen Nischenmarkt erkannte. Die GPUs wurden also nicht mehr nur auf Grafik-, sondern auch auf KI-Power optimiert und Schnittstellen für Forscher und Entwickler konzipiert.
Mit dem explosionsartigen Erfolg des Chatbots ChatGPT, Modellen wie LLaMA und der Bild-Generatoren DALL-E, Stable Diffusion oder Midjourney und dem dadurch befeuerten Wettrüsten im Bereich der generativen KI sind die Chips von Nvidia nun weltweit noch gefragter als ohnehin schon. „Der Bedarf ist gewaltig“, sagte Nvidia-Chef Jensen Huang gegenüber Investoren. Rund 80 Prozent des Marktes für KI-Chips wird derzeit von Nvidia beherrscht. Dadurch ist die Firma jetzt zum Flaschenhals der KI-Entwicklung geworden. Besonders begehrt sind allerdings nicht die Karten der Nvidia-Spitzenreihe RTX-40, die wahre Rechenmonster darstellen und zuweilen kaum noch in aktuelle PC-Gehäuse passen. Jedenfalls nicht von KI-Firmen. Die wollen hingegen Zugang zu H100- und A100-GPUs, die eine Rechenleistung von 51 respektive 19,5 Teraflops, Speicher von bis zu 80 Gigabyte haben und sich zusammenschalten lassen. Kosten? 30.000 beziehungsweise 10.000 Euro pro Stück.
Die H100 und A100 sind die Karten, auf denen heute moderne Sprach- und Bild-Generator-Modelle entstehen. Und mit deren Produktion kommt Nvidia nicht nach. Probleme mit den Lieferketten macht die Firma dafür verantwortlich. Das ist ein Problem für die gesamte Branche: Denn KI-Firmen brauchen von diesen High-End-GPUs nicht nur Dutzende, sondern Hunderte oder sogar Tausende. Auch andere, günstigere und zuweilen deutlich ältere für Künstliche Intelligenz prädestinierte Karten von Nvidia werden daher rar, weil sie als Ausweichmöglichkeit genutzt werden. Beispielsweise die 2021 erschienenen und leistungsschwächeren A2- und A10-Karten oder sogar die bereits 2018 herausgebrachten T4-Tesla-Karten.
Selbst die großen Betreiber von Rechenzentren und Cloud-Computing-Anbieter wie Google, Amazon AWS, Microsoft, Oracle und Co. haben zwar große, aber gemessen am Bedarf nur begrenzte Ressourcen und warten auf Karten, um sie in ihren Servern zu verbauen. Microsoft bezeichnete die GPUs in einem Investorenbericht als „kritischen Rohstoff für [ein] schnell wachsendes Cloud-Geschäft.“ Wer als Kunde Zugriff auf zuverlässige, dauerhaft nutzbare und bestmögliche Rechenpower will, muss sich derzeit also oft auf eine Warteliste setzen lassen. Früheste Nutzungstermine? Zuweilen erst in einigen Monaten bis zu einem Jahr. Zumal Google, Microsoft und andere die vorhandenen H100- und A100-Ressourcen natürlich auch selbst nutzen, um eigene KI-Dienste anzubieten und auszubauen. Das bringt vor allem junge KI-Start-ups in die Bredouille. Die müssen kreativ werden.
Nutzen, was da ist!
Egal, wie gut eine Idee eines jungen KI-Start-ups aussieht oder wie fähig die Entwickler im Team sind: ohne Zugriff auf die spezialisierten GPU-Karten, die es möglich machen, KI-Modelle zu trainieren und einzusetzen, – ob nun in einem eigenen Server oder bei einem Cloud-Anbieter –, lässt sich nichts entwickeln und kein Geschäft machen. Das kann schnell dazu führen, dass ein anderes Unternehmen die eigene Idee schneller umsetzt, sich damit einen kaum noch aufholbaren Vorsprung von mehreren Monaten verschafft oder Kunden den eigenen Dienst nur mit Einschränkungen oder gar nicht nutzen können – und Neukunden abgewiesen werden müssen. Das wiederum kann zur Folge haben, dass ein potentieller Investor abwinkt und lieber einem Mitbewerber das Geld zusteckt, der Zugriff auf Rechenressourcen hat.
Der Bedarf ist gewaltig.
Jensen Huang, Nvidia
Jean Paoli von Docugami, ein Start-up das mittels KI große Mengen an Dokumenten analysieren und zugänglich machen will, bezeichnete GPUs gegenüber der New York Times als „seltene Erden“. Sein Unternehmen hätte es nur über ein von der National Science Foundation betriebenes Programm der US-Regierung geschafft, an Rechenzeit mit den begehrten KI-Chips zu kommen. WIRED sprach wiederum mit Alon Burg vom Bild-Generator-Start-up Astria, das für seinen Dienst immer jene GPUs bucht, die bei Cloud-Anbietern gerade frei sind – und dadurch auch solche nutzen muss, die für die eigenen Bedürfnisse zu langsam oder zu groß dimensioniert – und damit zu teuer – sind. Andere und eigentlich konkurrierende Start-ups legen ihre raren Ressourcen gezwungener Weise zusammen und teilen Rechenzeiten auf. Denn alleine hätte keiner von ihnen genug GPUs und Rechenkraft, um essentielle Fortschritte zu machen.
Auch etablierte Silicon-Valley-Größen haben Probleme. „Wir brauchen mehr GPUs, wie jeder andere auch“, zitiert WIRED beispielsweise Jeremy King von Pinterest, das mit KI-Werkzeugen sowohl den Nutzern als auch Werbepartnern neue Möglichkeiten auf der Link- und Bilderplattform ermöglichen will. „Der Engpass, der ist echt.“ Jene, die über Ressourcen verfügen, wollen oder können wiederum nicht teilen. Das von Microsoft und Nvidia geförderte Inflection AI etwa hat im Juni 22.000 H100-Chips gekauft. Die liefen unter voller Auslastung, lässt Inflection AI wissen. Die Rechenkraft teilen oder verkaufen, das gehe daher nicht. Ähnliches soll für Tesla gelten, das in Kürze ein eigenes Cluster mit 10.000 H100-GPUs in Betrieb nehmen will.
Einige kleinere Start-ups wie etwa der Sprach-Klon-Dienst Resemble AI, aber auch unabhängige Initiativen und Forscher wenden sich daher an deutlich kleinere und alternative Cloud-Computing-Anbieter wie CoreWeave, Fluidstack, LambdaLabs und Paperspace. Modular, das erst seit Mai Recheninfrastruktur für KI-Anwedungen anbietet, hat eine Warteliste mit über 30.000 potentiellen Kunden. Ebenso entstehen Projekte wie The San Francisco Compute Group der Entwickler Alex Gajewski und Evan Conrad, die – wie auch immer – 512 H100-GPUs ergattern konnten. Ihre Idee? „Wir bringen eine Reihe von Start-ups und Forschungslabors zusammen, die Rechenleistung für das Training großer Modelle benötigen“ und bereit sind, sich die Karten kollegial zu teilen. Ganz wie in einem Studenten- oder Hackerhaus. Hunderte hätten sich bereits auf einen Platz beworben.
Andere kaufen Rechenzeit bei jenen Unternehmen, die vor einigen Jahren zu Tausenden Grafikkarten für das Schürfen von Kryptowährungen aufgekauft haben – und jetzt ihr Geschäft diversifizieren müssen, weil sich das Crypto Mining in Teilen nicht mehr lohnt oder von Regulierungsbehörden ins Fadenkreuz genommen wird. Einige Firmen gehen sogar soweit, selbst für Videospiele gedachte Grafikkarten wie die RTX-Serie von Nvidia oder die RX-Serie von AMD in eigenen kleinen Data Centern zu adaptieren. Darunter etwa der bekannte Hacker George Hotz, der mit Tinygrad gerade an einer Entwicklungsumgebung für Neuronale Netze und passenden Computern dafür arbeitet.
Manche Firmen sehen den Mangel an Karten beziehungsweise Chips für KI-Berechnungen aber auch als Geschäftsvorteil. Mehrere Risikokapitalgeber aus dem Silicon Valley wie etwa Index Ventures nutzen ihre Verbindungen, um Rechenressourcen bei Cloud-Anbietern, H100 und A100 und andere Grafikkarten zu organisieren – und zwar, um diese dann an die von ihnen geförderten Start-ups weiterzugeben und ihnen dadurch einen Vorsprung zu verschaffen. Manche bieten die potentielle Rechenkraft gleich als Teil oder als eine Alternative eines geldwerten Investments an.
Ende in Sicht
Insbesondere einige der großen Tech-Konzerne sehen die derzeitige Dominanz und Abhängigkeit von Nvidia und den daraus entstehenden Flaschenhals als explizites Problem, das es zu bekämpfen gilt. Sie wollen sich lieber selbst versorgen. Und das nicht erst seit Kurzem, obwohl die aktuelle Lage die Bemühungen durchaus befeuert, Alternativen auf den Weg zu bringen. Google besitzt bereits eine eigene, auf Maschine Learning und die Entwicklungsumgebung TensorFlow spezialisierten Tensor Processing Unit, die seit 2021 in Version 4 verfügbar ist. Doch die Chips werden nur in kleinen Mengen gefertigt und verkauft. Wer die spezialisierten KI-Chips nutzen will, der kommt kaum drumherum, dies in der Google Cloud zu tun – wobei die TPUs nur in bestimmten Weltregionen verfügbar sind.
Werde Mitglied von 1E9!
Hier geht’s um Technologien und Ideen, mit denen wir die Welt besser machen können. Du unterstützt konstruktiven Journalismus statt Streit und Probleme! Als 1E9-Mitglied bekommst du frühen Zugriff auf unsere Inhalte, exklusive Newsletter, Workshops und Events. Vor allem aber wirst du Teil einer Community von Zukunftsoptimisten, die viel voneinander lernen.
Jetzt Mitglied werden!Bei Amazons Cloud-Tochter AWS wird der ebenso eigens entwickle KI-Chip Inferentia 2 in den Servern verbaut, der aber eine Beschäftigung mit der Entwicklungsumgebung Neuron voraussetzt und Kunden ebenfalls an die Firmen-eigene Cloud bindet. Das macht es für Start-ups, die möglichst flexibel sein wollen und auch Anbieter wechseln können möchten, schwer. Auch der Facebook-Konzern und LLaMA-Entwickler Meta hat einen eigenen KI-Chip. MTIA wurde erst im Mai vorgestellt. Er hinkt hinsichtlich Leistung, Effizienz und Anwendungsbreite hinter den Spitzenchips von Nvidia hinterher. Aber langfristig sollen die MTIA -Chips jene von Nvidia aus den Meta-Rechenzentren drängen. Andere wie Microsoft, Samsung und auch BMW investieren wiederum in KI-Chip-Start-ups wie Graphcore, dessen sogenannter IPU-Prozessor etwa bereits beim Cloud-Anbieter Paperspace genutzt werden kann.
Dass jene Alternativen so schnell mit den Nvidia-Chips und ihrer Entwicklungsumgebung mithalten können, geschweige denn sie verdrängen könnten, ist unwahrscheinlich. Experten rechnen damit, dass sich die Krise zwar wohl demnächst entspannen, aber die gehypte KI-Branche noch eine ganze Weile beschäftigen könnte. Und zwar jedes Mal, wenn Nvidia eine neue Generation an Spitzen-KI-Hardware auf den Markt bringt, die verspricht, die Entwicklung von KI-Modellen zu beschleunigen, die Nutzung effizienter und damit günstiger zu machen. Zumindest bis genügend Alternativen bereitstehen.
Hat dir der Artikel gefallen? Dann freuen wir uns über deine Unterstützung! Werde Mitglied bei 1E9 oder folge uns bei Twitter, Facebook, Instagram oder LinkedIn und verbreite unsere Inhalte weiter. Danke!
Sprich mit Job, dem Bot!
War der Artikel hilfreich für dich? Hast du noch Fragen oder Anmerkungen? Ich freue mich, wenn du mir Feedback gibst!