7. Juni 2026
Unnötige Kosten, fraglicher Nutzen: Warum Token Maxxing scheitert

KI-Coding-Tools sollen Entwicklungsarbeit schneller und effizienter machen. In manchen Unternehmen galt dabei zuletzt ein hoher Token-Verbrauch als Zeichen hoher Produktivität. Diese Praxis wurde als Token Maxxing bekannt. Inzwischen zeigt sich jedoch, dass viele verbrauchte Token vor allem hohe Kosten bedeuten – nicht automatisch bessere Ergebnisse.
von Michael Förtsch
Moderne KI-Sprachmodelle können nicht nur Texte generieren. Sie können auch erstaunlich gut programmieren – und das in den unterschiedlichsten Programmiersprachen. Vor allem sind sie dabei sehr schnell. Schneller, als es ein menschlicher Programmierer je sein könnte. Modelle der GPT-, Claude- und Gemini-Reihen oder auch ihre aktuellen chinesischen Äquivalente können in Sekunden etliche Seiten Code generieren, egal ob für Websites, Smartphone-Apps oder Desktop-Programme für PC, Mac und Linux. Immer öfter ist dieser Code so gut oder zumindest gut genug, dass fähige Programmierer darauf aufbauen können. Daher haben in den vergangenen Monaten zahlreiche Firmen ihre Entwickler angewiesen, mit KI-Programmiertools wie Claude Code, Cursor, OpenCode, Windsurf, Zed und den damit nutzbaren KI-Modellen zu arbeiten. Dahinter steckt die Hoffnung auf mehr Effizienz, schnellere Entwicklungsfortschritte und die Aussicht, anschließend Entwicklerteams verkleinern zu können. Aber nicht nur das.
Viele Tech-Unternehmen setzen die intensive Nutzung von KI-Coding-Tools sogar als Indikator für die Produktivität ihrer Entwickler an. Token dienen dafür als messbare Einheit, um einzelne Entwickler vergleichen zu können. Bei Token handelt es sich um die von KI-Modellen verarbeiteten und generierten Wort- und Codefragmente, die von KI-Unternehmen als Abrechnungs- und Verarbeitungseinheiten herangezogen werden. Der Gedanke dahinter klingt einfach: Ein Entwickler, der viele Token verbraucht, nutzt die Technologie intensiv und arbeitet produktiv. Schließlich wächst mit jedem Token die Masse an neuem oder verbessertem Code, der in Programmen, Websites und anderen digitalen Systemen zum Einsatz kommt. Doch ganz so einfach ist die Sache nicht.
Ein hoher Token-Verbrauch beim KI-Coding begründet sich nicht – oder nicht nur – darin, dass ein Entwickler viele Prompts schreibt. Viel mehr ist es so, dass KI-Coding-Tools agentisch arbeiten. Die Tools lesen ganze Projektordner ein, analysieren bestehende Dateien, korrigieren selbsttätig fehlerhaften Code, werten Fehlermeldungen aus und reagieren darauf. Jeder dieser Schritte kostet Token. Das gilt nicht nur für den Code, der am Ende ausgegeben wird, sondern auch für alles, was das Modell vorher lesen, verstehen und mitschleppen muss. Schnell kann daher aus einer scheinbar einfachen Aufgabe wie „Check mal, ob du Fehler findest“ eine lange Kette aus Modellaufrufen entstehen.
Umso aufwendiger und teurer wird es, wenn KI-Coding-Tools oder KI-Assistenten wie OpenClaw oder Hermes Agent mehrere KI-Agenten mit unterschiedlich befähigten Modellen parallel orchestrieren: Ein Agent schreibt den Code, ein anderer prüft ihn, ein weiterer prüft das Programm und ein vierter sucht im Internet nach Lösungen für Fehlermeldungen, um diese dann zu beheben. Und das wieder und wieder. Dabei können schnell viele Millionen zusammenkommen.
Token-Verbrauch als Leistungskennzahl
Zu Beginn des Jahres berichteten Entwickler auf Plattformen wie Reddit und X – ehemals Twitter – sowie gegenüber Journalisten davon, dass ihre Unternehmen teils offizielle, teils inoffizielle Ranglisten darüber führten, wer den höchsten Token-Durchsatz im Team oder Unternehmen hat. Zu den Firmen zählten etwa Meta, OpenAI, Spotify, Disney und Shopify. Einige Start-ups versprachen dem Mitarbeiter mit dem höchsten Monatsverbrauch einen Bonus oder einen zusätzlichen Urlaubstag. Das sollte einen Wettbewerb schaffen und die Mitarbeiter dazu anspornen, stärker mit den KI-Tools zu arbeiten und den Token-Verbrauch so hoch wie möglich zu treiben. Diese Praxis wurde bald als Token Maxxing bezeichnet.
Die Überzeugung, dass mehr Token mehr Effizienz bedeuten, war so groß, dass einige Entwickler und Start-up-Gründer ihren hohen Token-Verbrauch und ihre Rechnungen für die KI-Nutzung öffentlich prahlend erwähnten. So will das Kreditkartenunternehmen Visa fast zwei Billionen KI-Token pro Monat verbrennen – bei der Nutzung der Spitzenmodelle würde es damit mindestens eine einstellige Millionensumme pro Monat ausgeben. Ein Meta-Entwickler soll 290 Milliarden Token und damit Hunderttausende US-Dollar pro Monat verbraucht haben. Nvidia-Chef Jensen Huang gab sogar an, dass er besorgt sei, wenn seine Spitzenentwickler nicht mindestens Token im Wert von 250.000 US-Dollar pro Jahr verbrauchen würden. Und laut Sam Altman hätte OpenAI einen Nutzer, der 100 Milliarden Token pro Monat konsumiert.
Was kosten Token eigentlich?!
Viele KI-Anbieter, seien es OpenAI, Anthropic, DeepSeek oder auch Plattformen wie OpenRouter, rechnen Entwicklerkonten und API-Zugriffe nicht pauschal mit einem Festbetrag ab. Stattdessen wird die genutzte Token-Menge berechnet. Dabei unterscheiden die Anbieter zwischen Eingabe und Ausgabe. Eingabetokens sind Prompts, Systemanweisungen und eingebundene Dokumente, die an das Modell gesendet werden. Ausgabetokens sind das, was das Modell neu erzeugt.
Die Preise werden fast immer pro eine Million Tokens angegeben. Besonders relevant und teuer sind dabei die Ausgabe-Tokens. Die Unterschiede zwischen den Modellen sind beträchtlich.
OpenAI verlangt für eine Million generierter Tokens bei GPT-5.5 derzeit 30 US-Dollar. GPT-5.4 kostet 15 US-Dollar, das kleinere GPT-5.4 mini dagegen nur 4,50 US-Dollar. Claude Opus 4.8 von Anthropic liegt bei 25 US-Dollar pro Million Output-Tokens, Claude Sonnet 4.6 bei 15 US-Dollar. Google berechnet für Gemini 3.1 Pro Preview 18 US-Dollar pro Million Output-Tokens.
Viele chinesische Modelle sind deutlich günstiger. Kimi K2.6 von Moonshot AI kostet 4 US-Dollar pro Million Output-Tokens. DeepSeek V4 Pro liegt sogar bei nur 87 Cent. MiniMax M3 wird aktuell zu einem besonders niedrigen Promo-Preis angeboten und kostet beim Anbieter rund 1,20 US-Dollar pro Million Output-Tokens.
Auch Entwickler kleinerer Firmen schrieben anonym in den sozialen Medien, dass sie ein Token-Budget von 1.000 bis 10.000 US-Dollar pro Monat bekämen – und dieses so gut wie möglich ausschöpften, weil das erwartet wird. Das sei fast so viel, wenn nicht sogar mehr als ihr Gehalt, das zusätzlich für sie bereitgestellt wird. Der Chef des Finanz-App-Start-ups Cleo sagte, dass jeder nichttechnische Angestellte ein Token-Budget von bis zu 1.000 US-Dollar pro Monat erhalte. Jeder Entwickler bekomme 2.000 US-Dollar in Token. „Jeder bei Cleo macht Token-Maximierung“, sagte Barney Hussey-Yeo gegenüber Forbes. Amos Bar-Joseph, der Chef von Swan AI, veröffentlichte wiederum auf LinkedIn eine Rechnung von Anthropic über 113.421 US-Dollar für sein Vier-Personen-Team. „Ich war noch nie in meinem Leben so stolz auf eine Rechnung“, schrieb er dazu.
Ein besonderer Fall ist Peter Steinberger, Entwickler von OpenClaw, der im Februar von OpenAI angeheuert wurde. Mitte Mai teilte er einen Screenshot, der seinen Token-Verbrauch bei OpenAI zeigte. Für die Nutzung der GPT-Modelle wurden rund 1,3 Millionen US-Dollar abgerechnet. Er habe dafür mehrere KI-Agenten gleichzeitig arbeiten, Code prüfen und korrigieren lassen. Den Betrag zahlte er nicht aus eigener Tasche, sondern er wurde von seinem neuen Arbeitgeber gesponsert. Dies sei, so Steinberger, „einer der Vorteile davon, dass OpenAI OpenClaw unterstützt“.
Wenn die KI-Nutzung aus dem Ruder läuft
Ebenso schnell, wie das Token Maxxing aufkam, regten sich aber auch Kritik und Skepsis. Insbesondere, da der Zusammenhang zwischen einem hohen Token-Verbrauch und Produktivität eher Wunschdenken als Realität zu sein scheint. So berichtete The Information im April, dass das Fahrdienstunternehmen Uber sein für das gesamte Jahr kalkuliertes Token-Budget für die Coding-Tools Claude Code und Cursor bereits im März vollständig aufgebraucht habe. Daraufhin erklärte Uber-Präsident Andrew Macdonald, dass es bisher nicht nachweisbar sei, ob die intensive und teure Nutzung durch die rund 5.000 Entwickler auch zu einem Produktivitätsgewinn führt.
Diese Skepsis deckt sich mit weiteren Befunden. So ergab eine Befragung des US-amerikanischen National Bureau of Economic Research unter rund 6.000 Firmen aus den USA, Deutschland, Großbritannien und Australien, dass über 80 Prozent jener Unternehmen, die KI nutzen, keinen Produktivitätsgewinn feststellen können. In einer weiteren Studie gaben 81 Prozent der Befragten aus über 200 Tech-Firmen an, dass KI-generierter Code zu mehr statt zu weniger Problemen führe – also die Produktivität nicht steigert, sondern sie eher hemmt. Zwar können einzelne Mitarbeiter mit KI-Werkzeugen einen kreativen und effizienten Umgang finden, dadurch schneller mehr Projekte bewältigen und neue Arbeitswege erschließen, doch gilt das offenbar nicht für die Masse der Belegschaften in Unternehmen.
„Wir müssen uns Gedanken über den Token-Verbrauch und die damit verbundenen Kosten im Verhältnis zur Mitarbeiterzahl machen“, sagte Macdonald von Uber in einem Podcast. Wenn man keine Verbesserungen, Einsparungen, Features und Funktionen vorweisen könne, seien die Kosten schwer zu rechtfertigen.
Doch nicht nur bei Uber, sondern auch in anderen Firmen scheint die Nutzung von KI aus dem Ruder zu gerate. Nachdem Microsoft im Dezember 2025 seine Belegschaft noch dazu ermutigt hatte, mit Claude Code zu arbeiten, kündigen Manager des Konzerns aus Redmond nun zahlreiche Nutzungslizenzen wieder. Offiziell geht es darum, die eigene Claude-Code-Alternative Copilot CLI als Werkzeug über Entwicklerteams hinweg zu konsolidieren. Doch nach Informationen von The Verge „handelt es sich um eine finanzielle Entscheidung“. Auch der US-Einzelhändler Target hat angekündigt, seine Strategie hinsichtlich des Einsatzes Künstlicher Intelligenz „zu reevaluieren“.
Bei Amazon wiederum wurden die unter „guten Absichten“ eingeführten Token-Ranglisten namens KiroRank, benannt nach dem hauseigenen KI-Coding-Tool Kiro, wieder abgeschafft. Die Entwickler hatten den Token-Verbrauch mit Tricks in die Höhe getrieben, um eine bessere Platzierung zu erreichen. So ließen Entwickler beispielsweise den internen KI-Agenten MeshClaw im Minutenrhythmus belanglose, aber Token-intensive Aufgaben wie E-Mail-Checks oder Meeting-Zusammenfassungen abarbeiten. Oder sie ließen das Coding-Tool Kiro wiederholt denselben Code überprüfen. Das hat letztlich nur unnötige Kosten verursacht. Auch Google, OpenAI und Meta sollen aufgrund ähnlicher Probleme auf solche Ranglisten verzichtet oder sie untersagt haben.
Besondere Aufmerksamkeit erregte ein Bericht von Axios, demzufolge ein nicht genanntes, aber angeblich sehr bekanntes multinationales Unternehmen innerhalb eines Monats versehentlich eine Rechnungssumme von 500 Millionen US-Dollar für die Nutzung von Claude Code bei Anthropic angehäuft haben soll. Es sei vergessen worden, ein Nutzungslimit für die Belegschaft einzurichten. KI-Experten halten es für schwer glaubwürdig, dass ein solcher Verbrauch nicht rechtzeitig bemerkt wurde oder der Kunde nicht sofort über das Auflaufen einer derart hohen Rechnung informiert wurde. Dass eine solche Summe beim Einsatz Aberhunderter gleichzeitig laufender Coding-Agenten zusammenkommen könne, sei jedoch auch nicht unmöglich.
Viele Token, unklarer Nutzen
Dass selbst einige der größten Tech-Unternehmen – und zwar solche, die KI-Technologie selbst als Wirtschafts- und Produktivitätswunder bewerben – auf die Bremse treten, wird als Warnsignal gesehen. Denn trotz der Möglichkeiten der KI-Modelle erweisen sich die Kosten zunehmend als Engstelle. Bislang sorgt die Technologie durch ihre hohen Nutzungsentgelte für massive Token-Mengen oft eher für zusätzliche finanzielle Belastung statt Entlastung. Auf Social-Media-Plattformen berichten Manager und Entwickler aus Start-ups und etablierten Tech-Firmen, dass Entwicklerteams verkleinert wurden, um Budget für den KI-Einsatz zu schaffen. Danach seien jedoch die Kosten für die KI-Nutzung stark gestiegen, weil die verbleibenden Entwickler die Arbeit der fehlenden Kollegen kompensieren mussten. Die dabei anfallenden Summen würden die eingesparten Gehälter aufwiegen oder sogar übersteigen.
Branchenanalysten – etwa von der Investmentbank Goldman Sachs – prognostizieren einen weiterwachsenden Bedarf an KI-Kapazitäten. Für den Zeitraum von 2026 bis 2030 schätzen sie eine Steigerung des Gesamt-Token-Verbrauchs um das 24-Fache. Als Treiber nennen sie den zunehmenden Einsatz agentischer Systeme, die immer öfter auch sehr selbstständig agieren und ohne menschliches Zutun im Hintergrund arbeiten. Laut den Analysten könnten die Kosten sowie die Rechen- und Ressourcenintensität durch neue Entwicklungen und effizientere Hardware sinken. Damit könne der verstärkte KI-Einsatz für die nutzenden Unternehmen profitabel werden.
Das Ende des Token Maxxing
Einige Kritiker sehen jedoch die Gefahr einer anderen Entwicklung als der, die Goldman Sachs vorhersagt. Zumindest bei der finanziellen Last. Denn die Preise für die KI-Nutzung sind bisher massiv verzerrt. KI-Firmen subventionieren die Kosten, um Kunden zu gewinnen und dauerhaft zu binden. Sie machen kaum Gewinn oder sogar Verlust beim Betrieb ihrer Modelle – vor allem bei Abonnements. Doch genau das scheint sich allmählich zu ändern. Erst am 1. Juni stellten viele zahlende GitHub-Copilot-Kunden fest, dass sie bereits nach zwei bis drei Stunden eine Warnung erhielten, ihr tägliches Budget sei aufgebraucht. Microsoft hatte die bisherige Abrechnungslogik von großzügig bemessenen Premiumeinheiten auf den tatsächlich anfallenden Token-Verbrauch umgestellt.
Ein weiterer Kostentreiber sind immer leistungsfähigere, aber damit auch rechen- und token-intensivere Modelle. So korrigierte Anthropic im April seine Schätzung, was ein Durchschnittsentwickler täglich für Claude Code ausgeben würde, von sechs auf 13 US-Dollar. Als Google im Mai das neue, schnelle Modell Gemini 3.5 Flash vorstellte, zeigten sich viele Nutzer über die Preise verwundert. Denn diese hatten sich im Vergleich zum Vorgängermodell Gemini 3 Flash verdreifacht. Laut der Marktforschungs- und Datenanalysefirma Silicon Data haben sich die durchschnittlichen Kosten pro Token für Kunden mit nutzungsbasierter Abrechnung und API-Schnittstellen seit Januar 2026 fast verdoppelt.
Dass der Token-Verbrauch in den kommenden Jahren sinkt, ist nicht zu erwarten. Eher das Gegenteil. Denn Künstliche Intelligenz und agentische Systeme sind bereits jetzt in vielen Entwicklerteams ein fester Teil des Coding-Alltags. Beendet wird aber wohl bald die kurze Phase, in der ein hoher Verbrauch schon als Beweis für Produktivität und Innovationsbereitschaft galt. Was vor wenigen Monaten noch wie ein Statussymbol wirkte, erscheint vielen inzwischen als schlechte Metrik und teurer Fehlanreiz. Statt Entwickler dafür zu belohnen, möglichst viele Token zu verbrennen, werden Unternehmen ihre Entwickler nun eher dazu anhalten müssen, KI-Werkzeuge gezielter einzusetzen. Denn mit den steigenden Kosten wächst auch der Druck, brauchbare Resultate vorzuzeigen: bessere Software, schnellere Releases, weniger Bugs oder niedrigere Kosten. Der Token ist dafür keine brauchbare Metrik. Die Zahl der Token zeigt nur, wie teuer der Versuch war.

Michael Förtsch
Leitender Redakteur
Weiter bei 1E9...

Überschrift 3
Cooler Artikel!

Überschrift 3
Artikel

Überschrift 3
Cooler Artikel!

Überschrift 3
Cooler Artikel!
8c6077e6-aa15-47de-bbdd-9dfb21d51a3e
6a24d6351f44c606b37a9159



