Zum Inhalt springen

Auch auf Deutsch denkt deine KI auf Englisch — und das kostet dich Geld

Auf OpenAIs MMMLU-Benchmark trennt GPT-4o auf Deutsch und Englisch eine Lücke von 5,1 Prozentpunkten. Hinzu kommt ein Token-Aufschlag von 50 Prozent. Warum dein deutscher Prompt eine messbare Englisch-Steuer zahlt.

D
Daniel Sonnet
· · 6 Min. Lesezeit
Auch auf Deutsch denkt deine KI auf Englisch — und das kostet dich Geld

Auf OpenAIs MMMLU-Benchmark, demselben Wissenstest in 14 professionell übersetzten Sprachversionen, erreicht GPT-4o (gpt-4o-2024-11-20) auf Englisch 88,7 Prozent. Auf Deutsch sind es 83,6 Prozent. Dasselbe Modell, dieselben Fragen, derselbe Tag. Nur die Sprache ist anders. Und dazwischen liegen 5,1 Prozentpunkte.

Das ist nicht der einzige Aufpreis, den du für deutsche Prompts bezahlst. Laut der ACL-Studie von Petrov, La Malfa, Torr und Bibi (NeurIPS 2023) brauchen identische Texte auf Deutsch rund 50 Prozent mehr Tokens als ihre englischen Originale. Bei 10 Millionen Prompts pro Jahr und 500 Tokens pro Anfrage ergibt das auf Basis der aktuellen GPT-4o-API-Preise (2,50 Dollar pro Million Input-Tokens, Stand Mai 2026) eine Differenz von 6.250 Dollar im Jahr. Englisch: 12.500 Dollar. Deutsch: 18.750 Dollar. Bei 100 Millionen Prompts skaliert die Differenz auf 62.500 Dollar pro Jahr.

Nennen wir es beim Namen: die Englisch-Steuer auf deinen deutschen KI-Stack. Messbar, konstant, und kaum jemand rechnet sie ein.

Warum der Aufpreis kein Bug ist, sondern Architektur

Die naheliegende Annahme: Modelle sind auf Deutsch einfach noch nicht ganz ausgereift. Mehr deutsches Trainingsmaterial, ein paar Versionen weiter, dann zieht die Qualität gleich.

Diese Annahme ist falsch. Sie blendet aus, was unter der Haube passiert.

Wendler, Veselovsky, Monot und West haben auf der ACL 2024 mit der Logit-Lens-Methode in LLaMA-2-70B hineingeschaut, Schicht für Schicht. Das Ergebnis ist unbequem: In den mittleren Transformer-Layern, etwa in den Schichten 41 bis 70 von 80, steigt die Wahrscheinlichkeit für den semantisch korrekten Token zuerst in der englischen Variante. Erst in den letzten zehn Schichten kippt das System in die Zielsprache. Die Token-Energie der Zielsprache liegt bis Layer 70 bei rund 20 Prozent und springt erst dann auf 30 Prozent.

Auf gut Deutsch: Das Modell denkt das Konzept zuerst auf Englisch und übersetzt am Ende. Der englische Umweg ist kein Trainingsfehler. Er ist Bauplan.

Das verändert die Diagnose. Mehr deutsches Trainingsmaterial schließt die Lücke nicht, solange die innere Repräsentation eines Konzepts englisch geprägt bleibt. Du kannst Deutsch nachfüttern, soviel du willst. Solange in Layer 50 ein englisches Konzept aktiv ist und in Layer 75 ins Deutsche zurückgedolmetscht wird, zahlst du den Übersetzungsaufschlag.

Wo die 5 Prozent richtig wehtun

Auf den ersten Blick wirken 5,1 Prozentpunkte überschaubar. Ein Schüler mit 83,6 statt 88,7 Punkten ist immer noch sehr gut. Genau dieses Argument kommt in jedem zweiten IT-Strategiemeeting: “Für unsere Anwendungsfälle reicht Deutsch locker aus.”

Stimmt für Marketingtexte, Produktbeschreibungen, interne Memos. Da ist die Lücke kaum wahrnehmbar.

Stimmt nicht für die Bereiche, in denen KI im Mittelstand 2026 wirklich Geld bewegt. Die 5,1 Prozentpunkte sind nicht gleichmäßig verteilt. Sie ballen sich in komplexem Domänen-Reasoning, in mehrstufigen Schlussfolgerungen, in kulturell und rechtlich kodierten Kontexten. Genau dort, wo Steuerkanzleien KI für Sachverhaltsanalyse einsetzen wollen. Dort, wo Krankenhäuser Befunde gegenchecken lassen. Dort, wo Compliance-Teams Vertragsklauseln prüfen.

Ein Modell, das im Schnitt fünf Prozent schwächer ist, kann in genau diesen Hochrisiko-Anwendungsfällen deutlich häufiger danebenliegen. Statistisch heißt das: Etwa jede zwanzigste deutsche Anfrage liefert ein Ergebnis, das die englische Variante des gleichen Modells besser hingekriegt hätte. Bei Tausenden Prompts im Monat ist das keine Rundungsdifferenz mehr, sondern ein systematisches Qualitätsdefizit, das sich in fehlerhaften Verträgen, übersehenen Diagnosen oder falsch eingestuften Risiken niederschlagen kann.

Und der Token-Aufschlag von 50 Prozent fällt unabhängig vom Anwendungsfall an. Du zahlst ihn auch dann, wenn die Aufgabe simpel ist und die Qualitätslücke marginal bleibt. Beide Effekte addieren sich zu einer Steuer, die nicht auf der Rechnung steht, weil sie als Default in den Token-Verbrauch und in die Trefferquote eingebaut ist.

Was Aleph Alpha gerade beweisen will

Genau gegen diese Architektur arbeitet Aleph Alpha an. Im Mai 2026 hat das Heidelberger Team GermanWeb veröffentlicht, den bislang größten deutschsprachigen Pretraining-Datensatz: 628 Milliarden deutsche Wörter, zusammengesetzt aus 78 Milliarden Wörtern Common Crawl, 235 Milliarden Wörtern FineWeb2 und 329 Milliarden Wörtern synthetischer Daten. Das ist eine andere Größenordnung als das, was bei den US-Modellen anteilig in den Multilingual-Mix fließt.

Die These dahinter: Wenn der englische Umweg im Modell-Inneren das Problem ist, dann hilft kein nachträgliches Übersetzungs-Layer. Was hilft, ist ein Modell, dessen interne Repräsentationen von Anfang an dichter mit deutschen Konzepten arbeiten. Plus eine Plattform wie PhariaAI, die DSGVO-nativ und mit Datenresidenz unter deutscher Jurisdiktion läuft.

Dass dieser Ansatz strategisch ernst genommen wird, zeigt der Markt selbst. Cohere hat Aleph Alpha am 24. April 2026 übernommen, und die Schwarz-Gruppe (Lidl, Kaufland) hat 600 Millionen Euro Investition angekündigt. Kein Forschungs-Sponsoring — eine Wette darauf, dass nicht-englischzentrische Modelle auf europäischer Infrastruktur in den nächsten Jahren ein eigenes Marktsegment besetzen.

Ob die Wette aufgeht, entscheidet sich nicht an der Marketingfolie, sondern an der Frage, ob Pharia-Modelle in unabhängigen Benchmarks auf Deutsch näher an die englischen GPT-Werte herankommen, als GPT auf Deutsch an seine eigenen englischen Werte. Das ist die Latte, an der sich Souveränitätsversprechen messen lassen müssen.

Was du jetzt damit machst

Drei Hebel zählen, wenn die Englisch-Steuer in deinem KI-Budget sichtbar werden soll.

Erstens: Rechne sie aus. Nimm das aktuelle Token-Volumen deiner produktiven KI-Nutzung, multipliziere die Input-Tokens mit 1,5 für deutsche Prompts gegenüber englischer Baseline und stelle es dem Marketing-Versprechen gegenüber, mit dem die Tools intern verkauft wurden. In den meisten Häusern taucht die Differenz damit zum ersten Mal auf dem Papier auf.

Zweitens: Prüfe, wo Englisch sich lohnt. Bei rein internen Tasks ohne Kundenkontakt, etwa Code-Generierung oder Datenextraktion aus englischen Quellen, ist der Wechsel auf englische Prompts ein direkter Hebel auf Token-Kosten und Antwortqualität. Bei kundennahen Texten und juristischen Drafts ist der Wechsel keine Option. Dort kostet Deutsch eben das, was es kostet.

Drittens: Beobachte, was sich auf der Modellseite bewegt. Ein Modell, das nicht mehr über Englisch denkt, ist heute noch ein Forschungsversprechen. Aber es ist eines, hinter dem ernsthaftes Kapital steht. Wer Aleph Alphas Pharia-Modelle gegen die US-Frontier laufen lässt, sobald die nächste Iteration verfügbar ist, hat den Vergleich, mit dem sich Sourcing-Entscheidungen in 2027 begründen lassen.

Die Englisch-Steuer ist heute eine harte Zahl. 5,1 Prozentpunkte Qualität, 50 Prozent Token-Premium, mittlerer fünfstelliger Betrag pro Jahr ab mittlerer Skalierung. Sie ist keine Ausrede, KI zu meiden. Aber sie ist ein guter Grund, sie nicht weiter blind zu bezahlen.


Wer regelmäßig durchgerechnete Einordnungen zu KI-Kosten und Modellwahl in der deutschen Realität lesen will, findet sie im KI-Syndikat-Newsletter. Keine Hype-Mails, sondern die Zahlen, mit denen du in deinem Unternehmen argumentieren kannst.

Diesen Artikel teilen:

Kommentare

Kommentare werden in Kürze freigeschaltet. Bis dahin freuen wir uns über dein Feedback per E-Mail an info@gerabo.de.

Kostenloser Newsletter

Bleib auf dem neuesten
Stand der KI

Wähle deine Themen und erhalte relevante KI-News, Praxistipps und exklusive Inhalte direkt in dein Postfach – kein Spam, jederzeit abmeldbar.

Was interessiert dich? Wähle 1–3 Themen — du bekommst nur Inhalte dazu.

Mit der Anmeldung stimmst du unserer Datenschutzerklärung zu. Jederzeit abmeldbar.

Kostenlos
Kein Spam
Jederzeit abmeldbar