ki-gesellschaft mehrsprachigkeit ki-tools sprachmodelle Business

Auch auf Deutsch denkt deine KI auf Englisch, und das kostet dich Geld

Auf OpenAIs MMMLU-Benchmark trennt GPT-4o auf Deutsch und Englisch eine Lücke von 5,1 Prozentpunkten. Hinzu kommt ein Token-Aufschlag von 50 Prozent. Warum dein deutscher Prompt eine messbare Englisch-Steuer zahlt.

Prof. Dr. Daniel Sonnet Gründer von KI-Syndikat, Professor an der Hochschule Fresenius · 22. Mai 2026 · 6 Min. Lesezeit

Auch auf Deutsch denkt deine KI auf Englisch, und das kostet dich Geld

Auf OpenAIs MMMLU-Benchmark, demselben Wissenstest in 14 professionell übersetzten Sprachversionen, erreicht GPT-4o (gpt-4o-2024-11-20) auf Englisch 88,7 Prozent. Auf Deutsch sind es 83,6 Prozent. Dasselbe Modell, dieselben Fragen, derselbe Tag. Nur die Sprache ist anders. Und dazwischen liegen 5,1 Prozentpunkte.

Das ist nicht der einzige Aufpreis, den du für deutsche Prompts bezahlst. Laut der ACL-Studie von Petrov, La Malfa, Torr und Bibi (NeurIPS 2023) brauchen identische Texte auf Deutsch rund 50 Prozent mehr Tokens als ihre englischen Originale. Bei 10 Millionen Prompts pro Jahr und 500 Tokens pro Anfrage ergibt das auf Basis der aktuellen GPT-4o-API-Preise (2,50 Dollar pro Million Input-Tokens, Stand Mai 2026) eine Differenz von 6.250 Dollar im Jahr. Englisch: 12.500 Dollar. Deutsch: 18.750 Dollar. Bei 100 Millionen Prompts skaliert die Differenz auf 62.500 Dollar pro Jahr.

Nennen wir es beim Namen: die Englisch-Steuer auf deinen deutschen KI-Stack. Messbar, konstant, und kaum jemand rechnet sie ein.

Warum der Aufpreis kein Bug ist, sondern Architektur

Die naheliegende Annahme: Modelle sind auf Deutsch einfach noch nicht ganz ausgereift. Mehr deutsches Trainingsmaterial, ein paar Versionen weiter, dann zieht die Qualität gleich.

Diese Annahme ist falsch. Sie blendet aus, was unter der Haube passiert.

Wendler, Veselovsky, Monot und West haben auf der ACL 2024 mit der Logit-Lens-Methode in LLaMA-2-70B hineingeschaut, Schicht für Schicht. Das Ergebnis ist unbequem: In den mittleren Transformer-Layern, etwa in den Schichten 41 bis 70 von 80, steigt die Wahrscheinlichkeit für den semantisch korrekten Token zuerst in der englischen Variante. Erst in den letzten zehn Schichten kippt das System in die Zielsprache. Die Token-Energie der Zielsprache liegt bis Layer 70 bei rund 20 Prozent und springt erst dann auf 30 Prozent.

Auf gut Deutsch: Das Modell denkt das Konzept zuerst auf Englisch und übersetzt am Ende. Der englische Umweg ist kein Trainingsfehler. Er ist Bauplan.

Das verändert die Diagnose. Mehr deutsches Trainingsmaterial schließt die Lücke nicht, solange die innere Repräsentation eines Konzepts englisch geprägt bleibt. Du kannst Deutsch nachfüttern, soviel du willst. Solange in Layer 50 ein englisches Konzept aktiv ist und in Layer 75 ins Deutsche zurückgedolmetscht wird, zahlst du den Übersetzungsaufschlag.

Wo die 5 Prozent richtig wehtun

Auf den ersten Blick wirken 5,1 Prozentpunkte überschaubar. Ein Schüler mit 83,6 statt 88,7 Punkten ist immer noch sehr gut. Genau dieses Argument kommt in jedem zweiten IT-Strategiemeeting: “Für unsere Anwendungsfälle reicht Deutsch locker aus.”

Stimmt für Marketingtexte, Produktbeschreibungen, interne Memos. Da ist die Lücke kaum wahrnehmbar.

Stimmt nicht für die Bereiche, in denen KI im Mittelstand 2026 wirklich Geld bewegt. Die 5,1 Prozentpunkte sind nicht gleichmäßig verteilt. Sie ballen sich in komplexem Domänen-Reasoning, in mehrstufigen Schlussfolgerungen, in kulturell und rechtlich kodierten Kontexten. Genau dort, wo Steuerkanzleien KI für Sachverhaltsanalyse einsetzen wollen. Dort, wo Krankenhäuser Befunde gegenchecken lassen. Dort, wo Compliance-Teams Vertragsklauseln prüfen.

Ein Modell, das im Schnitt fünf Prozent schwächer ist, kann in genau diesen Hochrisiko-Anwendungsfällen deutlich häufiger danebenliegen. Statistisch heißt das: Etwa jede zwanzigste deutsche Anfrage liefert ein Ergebnis, das die englische Variante des gleichen Modells besser hingekriegt hätte. Bei Tausenden Prompts im Monat ist das keine Rundungsdifferenz mehr, sondern ein systematisches Qualitätsdefizit, das sich in fehlerhaften Verträgen, übersehenen Diagnosen oder falsch eingestuften Risiken niederschlagen kann.

Und der Token-Aufschlag von 50 Prozent fällt unabhängig vom Anwendungsfall an. Du zahlst ihn auch dann, wenn die Aufgabe simpel ist und die Qualitätslücke marginal bleibt. Beide Effekte addieren sich zu einer Steuer, die nicht auf der Rechnung steht, weil sie als Default in den Token-Verbrauch und in die Trefferquote eingebaut ist.

Was Aleph Alpha gerade beweisen will

Genau gegen diese Architektur arbeitet Aleph Alpha an. Im Mai 2026 hat das Heidelberger Team GermanWeb veröffentlicht, den bislang größten deutschsprachigen Pretraining-Datensatz: 628 Milliarden deutsche Wörter, zusammengesetzt aus 78 Milliarden Wörtern Common Crawl, 235 Milliarden Wörtern FineWeb2 und 329 Milliarden Wörtern synthetischer Daten. Das ist eine andere Größenordnung als das, was bei den US-Modellen anteilig in den Multilingual-Mix fließt.

Die These dahinter: Wenn der englische Umweg im Modell-Inneren das Problem ist, dann hilft kein nachträgliches Übersetzungs-Layer. Was hilft, ist ein Modell, dessen interne Repräsentationen von Anfang an dichter mit deutschen Konzepten arbeiten. Plus eine Plattform wie PhariaAI, die DSGVO-nativ und mit Datenresidenz unter deutscher Jurisdiktion läuft.

Dass dieser Ansatz strategisch ernst genommen wird, zeigt der Markt selbst. Cohere hat Aleph Alpha am 24. April 2026 übernommen, und die Schwarz-Gruppe (Lidl, Kaufland) hat 600 Millionen Euro Investition angekündigt. Kein Forschungs-Sponsoring, eine Wette darauf, dass nicht-englischzentrische Modelle auf europäischer Infrastruktur in den nächsten Jahren ein eigenes Marktsegment besetzen.

Ob die Wette aufgeht, entscheidet sich nicht an der Marketingfolie, sondern an der Frage, ob Pharia-Modelle in unabhängigen Benchmarks auf Deutsch näher an die englischen GPT-Werte herankommen, als GPT auf Deutsch an seine eigenen englischen Werte. Das ist die Latte, an der sich Souveränitätsversprechen messen lassen müssen.

Was du jetzt damit machst

Drei Hebel zählen, wenn die Englisch-Steuer in deinem KI-Budget sichtbar werden soll.

Erstens: Rechne sie aus. Nimm das aktuelle Token-Volumen deiner produktiven KI-Nutzung, multipliziere die Input-Tokens mit 1,5 für deutsche Prompts gegenüber englischer Baseline und stelle es dem Marketing-Versprechen gegenüber, mit dem die Tools intern verkauft wurden. In den meisten Häusern taucht die Differenz damit zum ersten Mal auf dem Papier auf.

Zweitens: Prüfe, wo Englisch sich lohnt. Bei rein internen Tasks ohne Kundenkontakt, etwa Code-Generierung oder Datenextraktion aus englischen Quellen, ist der Wechsel auf englische Prompts ein direkter Hebel auf Token-Kosten und Antwortqualität. Bei kundennahen Texten und juristischen Drafts ist der Wechsel keine Option. Dort kostet Deutsch eben das, was es kostet.

Drittens: Beobachte, was sich auf der Modellseite bewegt. Ein Modell, das nicht mehr über Englisch denkt, ist heute noch ein Forschungsversprechen. Aber es ist eines, hinter dem ernsthaftes Kapital steht. Wer Aleph Alphas Pharia-Modelle gegen die US-Frontier im aktuellen Modellvergleich laufen lässt, sobald die nächste Iteration verfügbar ist, hat den Vergleich, mit dem sich Sourcing-Entscheidungen in 2027 begründen lassen.

Die Englisch-Steuer ist heute eine harte Zahl. 5,1 Prozentpunkte Qualität, 50 Prozent Token-Premium, mittlerer fünfstelliger Betrag pro Jahr ab mittlerer Skalierung. Sie ist keine Ausrede, KI zu meiden. Aber sie ist ein guter Grund, sie nicht weiter blind zu bezahlen.

Wer regelmäßig durchgerechnete Einordnungen zu KI-Kosten und Modellwahl in der deutschen Realität lesen will, findet sie im KI-Syndikat-Newsletter. Keine Hype-Mails, sondern die Zahlen, mit denen du in deinem Unternehmen argumentieren kannst.

Mehr KI-Wissen

KI-Wochenbriefing: jeden Freitag KI-News, Praxistipps und Tools

Kostenlos abonnieren, jederzeit abmeldbar, kein Spam.

Newsletter abonnieren

Weiterführende Links

KI-Glossar KI-Quiz machen Lernpfade entdecken

Diesen Artikel teilen:

LinkedIn X / Twitter E-Mail WhatsApp

Autor und Redaktion

Prof. Dr. Daniel Sonnet

Gründer von KI-Syndikat, Professor an der Hochschule Fresenius

Daniel ist Data- und KI-Experte, Hochschullehrer an der Hochschule Fresenius (Professur Quantitative Methoden und Data Science) und Mitgründer der Gerabo GmbH in Hamburg. Er verbindet über ein Jahrzehnt Hochschullehre mit unternehmerischer Praxis und bringt KI-Wissen direkt in die Community.

Zum Profil

Freddie Feder

KI-Assistent und Lektor

Hat diesen Artikel mit recherchiert und geschrieben und ihn danach Satz für Satz lektoriert: Fakten geprüft, Ton geglättet und alles rausgeworfen, was klingt, als hätte es eine Maschine gebaut. Die inhaltliche Verantwortung liegt bei den menschlichen Autoren.

Mehr über unser Team

Das könnte dich auch interessieren

Dein Wearable misst alles und entscheidet nichts. Daran ändert auch der KI-Coach am Handgelenk wenig.

Eine Harvard-Studie aus Oktober 2024 fand: Apple Watch erkennt Tiefschlaf nur in 50,5 Prozent der Fälle. Trotzdem rollen Samsung und Apple 2026 KI-Coaches auf der Watch aus. Warum aus Korrelationsdaten kein medizinischer Coach wird, sondern nur ein besserer Chatbot.

6 Min. 18. Mai 2026

Gut jedes vierte KI-Tool hat keine KI im Kern. Und schneidet schlechter ab.

Wir haben 1.134 unserer Verzeichnis-Tools daraufhin eingestuft, ob echte KI im Kern steckt. Bei 312 steckt keine, das KI-Label ist reines Marketing. Und genau diese Tools werden in einer von uns unabhängigen Nutzerbewertung messbar schlechter bewertet.

8 Min. 10. Juli 2026

US-KI-Tools sprechen nur zu 17 Prozent Deutsch. Das Hosting-Land verrät es.

In unserem Verzeichnis mit 1.677 Tools sagt das Hosting-Land voraus, ob es deutschsprachigen Support gibt: 94 Prozent bei deutschen, 17 Prozent bei US-Tools. Deshalb ist Hosting keine reine DSGVO-Frage, sondern eine Usability-Entscheidung.

7 Min. 7. Juli 2026

82 Prozent der KI-Zeitgewinne stecken im Papierkram, nicht in der Kernarbeit

Der Fachkräftemangel wird gern als KI-Frage verkauft. Unser Radar über 148 Use Cases zeigt: KI ersetzt keine Pflegekraft und keinen Dachdecker. Von 55 Fällen mit hoher Zeitersparnis sind 45 reine Dokumentations- und Verwaltungsarbeit. Genau da, nicht in der Kernarbeit, sitzt die zurückgewonnene Zeit.

6 Min. 26. Mai 2026

KI rettet das Klima, und verlängert die Laufzeit von Kohlekraftwerken

Rechenzentren ziehen so viel Strom, dass US-Versorger geplante Stilllegungen von Kohleblöcken rückgängig machen. Der CO2-Saldo der KI-Klimalösungen ist heute negativ, nicht positiv.

5 Min. 25. Mai 2026

Therapeuten, die Whisper nutzen: Wie der DSGVO-AVV zur Strafanzeige führt

Die Bundespsychotherapeutenkammer hat im Februar 2026 klargestellt: Ein DSGVO-Vertrag mit OpenAI schließt die Strafbarkeitslücke nach §203 StGB nicht. Wer Whisper für Sitzungsprotokolle nutzt, riskiert mehr als ein Bußgeld.

6 Min. 24. Mai 2026

Alle Beiträge

Kommentare

Kommentare werden in Kürze freigeschaltet. Bis dahin freuen wir uns über dein Feedback per E-Mail an kontakt@ki-syndikat.de.