Im Juli 2025 hat das Forschungsinstitut METR (Model Evaluation & Threat Research) 16 erfahrene Open-Source-Entwickler in ein Experiment geschickt, das einfacher klingt, als es ist. 246 echte Issues aus den eigenen Repositories der Teilnehmer, randomisiert in zwei Gruppen: KI erlaubt oder KI verboten. Werkzeug auf der KI-Seite: Cursor Pro mit Claude 3.5 und 3.7 Sonnet. Gemessen wurde die Wall-Clock-Zeit per Screen-Recording, jeder Klick und jede Pause dokumentiert. Die Codebases waren keine Spielzeugprojekte: über 1 Million Codezeilen, mehr als 22.000 GitHub-Stars.
Das Ergebnis laut METR-Preprint vom Juli 2025, noch nicht peer-reviewed: Mit KI waren die Entwickler 19 Prozent langsamer. Ihre eigene Einschätzung: 20 Prozent schneller. Die Wahrnehmungslücke beträgt 39 Prozentpunkte.
Das ist die unbequeme Pointe für jeden, der gerade eine Liste mit “10 KI-Tipps für mehr Produktivität” durchklickt. Die populären KI-Zeitmanagement-Reports messen nicht Zeit. Sie messen Gefühl.
Warum das nicht an schlechten Entwicklern liegt
Die METR-Teilnehmer waren keine Zufallsstichprobe. Es waren Maintainer der Repositories, an denen sie arbeiteten — median fünf Jahre Erfahrung im eigenen Code, 150 US-Dollar Stundensatz als ökonomischer Anreiz, freie Werkzeugwahl. Keine günstigen Bedingungen für ein Scheitern.
Trotzdem: 19 Prozent langsamer.
Der entscheidende Punkt ist die Wahrnehmung. Selbst nachdem die Forschenden den Teilnehmern die gemessene Zeit zeigten, korrigierten sich viele nicht in Richtung Realität. Das subjektive Erleben (“Cursor hat mir gerade diese Funktion in zehn Sekunden geschrieben”) überschrieb die objektiv aufgezeichnete Wall-Clock-Zeit, in der drei Prompt-Iterationen, ein fehlerhafter Lösungsvorschlag und zwei manuelle Korrekturen verschwanden.
Genau das macht die Studie so unangenehm. Sie zeigt nicht, dass KI nicht hilft. Sie zeigt, dass wir nicht zuverlässig wissen, ob sie hilft.
Der falsche Engpass
Die Standardliteratur zu KI und Zeitmanagement empfiehlt Mikrooptimierungen: E-Mails zusammenfassen, Meeting-Protokolle generieren, Boilerplate-Code schreiben lassen. Diese Aufgaben werden tatsächlich schneller. Nur waren sie selten der Grund, warum dein Tag voll war.
Die Engpässe in echter Wissensarbeit sind anders verteilt. Eine Architekturentscheidung treffen. Verstehen, warum ein Kunde zögert. Einen unklaren Anforderungstext interpretieren, ohne eine zusätzliche Schleife mit drei Stakeholdern zu drehen. KI kann an diesen Stellen unterstützen, aber nicht abkürzen. Und genau hier verlängert die Iteration mit dem Modell oft den Pfad, statt ihn zu verkürzen.
Methodisch eng, aber strukturell repräsentativ: Forrester dokumentierte 2025 in einer Analyse zu Enterprise-KI-Programmen, dass in ausgereiften Setups 22 bis 38 Prozent der selbst berichteten Zeitersparnis durch ungemessene Nacharbeitszeit aufgefressen werden. Outputs prüfen, Halluzinationen korrigieren, Stil anpassen, Faktencheck. Diese Zeit fließt in keinen Produktivitäts-Dashboard-Eintrag.
Das ist der Reframe: Du sparst nicht Stunden. Du verlagerst sie. Aus dem Schreiben in das Korrigieren. Aus dem Recherchieren in das Verifizieren. Die Bilanz hängt davon ab, ob der neue Weg kürzer ist als der alte. Bei Mikroaufgaben oft ja. Bei komplexer Arbeit oft nein.
Was im Großen passiert, wenn der falsche Engpass zur Strategie wird
Klarna ist das anschaulichste Beispiel der letzten zwei Jahre. Im Februar 2024 verkündete der schwedische Zahlungsdienstleister, ein OpenAI-basierter Chatbot übernehme die Arbeit von 700 Kundenservice-Mitarbeitenden. Im ersten Monat wickelte das System 2,3 Millionen Gespräche ab, rund 75 Prozent aller Chats. Klarna verhängte einen Einstellungsstopp. Die Mitarbeiterzahl sank um 22 Prozent auf 3.500.
Im Mai 2025 ruderte CEO Sebastiaan Siemiatkowski in einem Interview, das Entrepreneur dokumentierte, öffentlich zurück: “Wir sind zu weit gegangen.” Die Servicequalität war eingebrochen. Klarna stellt seitdem wieder menschliche Agenten ein.
Die naheliegende Lesart wäre, der Chatbot sei einfach zu schwach gewesen. Die strukturelle Lesart ist interessanter: Klarna hatte den Engpass falsch identifiziert. Nicht “schnelle Antworten an viele Kunden” war das Problem, sondern die Qualität schwieriger Edge-Case-Gespräche. Den ersten Engpass löst KI elegant. Den zweiten verschiebt sie in die Eskalationsschleife. Dort summieren sich Reibungskosten, die im Quartalsbericht erst auftauchen, wenn die Kundenzufriedenheit kippt.
Der Trough of Disillusionment ist kein Wartezimmer
Auf strategischer Ebene wiederholt sich das Muster. Der Gartner Hype Cycle for Generative AI 2025 verortet GenAI im “Trough of Disillusionment”. Unternehmen investierten 2024 im Schnitt 1,9 Millionen US-Dollar in GenAI-Projekte, weniger als 30 Prozent der CEOs sind mit dem Return zufrieden.
Das wird gerne als Übergangsphase abgetan, nach der die Plateauphase produktiver Reife folgt. Vielleicht. Möglich ist aber auch, dass Vorstände jetzt etwas tun, was sie in den Pilotjahren vermieden haben: Dollars zählen statt Pilots zählen. Und Dollars zählen heißt, harte Vergleichszeiten zu messen, nicht die Selbsteinschätzung der Beteiligten.
In genau dem Moment trifft der Forrester-Befund den Nerv. Wenn 22 bis 38 Prozent der berichteten Ersparnis im Nacharbeits-Schatten verschwinden, sieht ein Business Case, der mit selbst berichteter Zeitersparnis kalkuliert wurde, anders aus als das, was im operativen Cashflow ankommt. Die Lücke zwischen METR-Wahrnehmung und METR-Messung ist die Mikroversion dieser Makro-Diskrepanz.
Das beste Gegenargument, und warum es nicht trägt
Ein erfahrener Engineering-Lead würde an dieser Stelle einwenden: 19 Prozent langsamer ist akzeptabel, wenn die Codequalität steigt. Weniger Bugs, bessere Architektur, sauberer benannte Variablen. Geschwindigkeit ist nicht alles.
Das Argument ist plausibel. Es scheitert aber an den METR-Daten selbst. Die Studie evaluierte die abgelieferten Pull Requests qualitativ und kommt zum Befund: “similar quality PRs with and without AI”. Keine Qualitätsverbesserung trotz höheren Zeitaufwands. Die Stunden flossen nicht in besseren Code, sondern in mehr Iterationen, um auf vergleichbares Niveau zu kommen.
Eine separate Analyse von 304.000 KI-verfassten Commits aus dem Jahr 2026 verschärft das Bild: Mehr als 15 Prozent aller Commits jedes getesteten KI-Assistenten führen mindestens ein Problem ein. Code-Smell, Bug oder Sicherheitslücke. Auch dort steigt die Qualität nicht. Sie wandert vom Schreiben ins Review. Wer KI-Code akzeptiert, ohne ihn so kritisch zu lesen wie fremden Code, kauft die Geschwindigkeitsillusion ein zweites Mal.
Was wirklich hilft
Wenn die Wahrnehmungslücke das Kernproblem ist, dann hilft nicht der nächste Tipp, sondern eine andere Messmethode. Drei Punkte, die in der eigenen Praxis tatsächlich tragen:
Miss vorher, was ein Vorgang dauert. Nicht im Nachhinein schätzen. Eine Woche Stoppuhr, dann KI einführen, dann wieder messen. Wer ohne Baseline anfängt, lebt von der Selbsteinschätzung. Die ist laut METR um 39 Prozentpunkte daneben.
Trenne Mikroaufgaben von Engpassaufgaben. KI ist gut bei Routineformaten mit klaren Outputs: Übersetzung, erste Textentwürfe, Code-Skeleton. Sie ist riskant bei mehrdeutigen Aufgaben mit hohen Korrekturkosten. Routinearbeit ist selten das, was deinen Tag füllt.
Rechne die Nacharbeit ein. Wenn ein 800-Wörter-Text von KI in zwei Minuten generiert wird und du 25 Minuten redigierst, hast du 27 Minuten investiert. Falls du den gleichen Text in 35 Minuten selbst geschrieben hättest: Ersparnis acht Minuten, nicht 33. Die Forrester-Zahl wird konkret, sobald du sie auf den eigenen Schreibtisch legst.
Was bleibt
Die KI ist nicht das Problem. Die Messung ist das Problem. Solange wir Zeitersparnis aus dem Bauch schätzen, optimieren wir auf das Gefühl, schneller zu sein, statt auf das Faktum. METR hat unter Laborbedingungen gezeigt, wie weit beides auseinanderfallen kann. Bei trainierten Profis. Mit Screen-Recording. Mit 150 Dollar Stundensatz als Anreiz. Wenn dort schon 39 Prozentpunkte Lücke entstehen, dann ist die offene Frage für jeden Mittelstand, jede Marketingabteilung, jedes Solo-Office: Wie groß ist die Lücke bei dir?
Wer KI-Investitionen ehrlich bewerten will, hat zwei Optionen. Erstens: messen, bevor man optimiert. Zweitens: einen Begleiter, der die Versprechen mit den Zahlen abgleicht. Im KI-Syndikat Newsletter lesen jede Woche mehrere tausend Entscheider, wie Pilotzahlen und Produktionszahlen tatsächlich auseinanderlaufen.
Wenn du nach dem Lesen einen konkreten Anwendungsfall im Kopf hast, in dem du die Stoppuhr ansetzen willst, helfen die fünf alltagstauglichen Wege, KI im Arbeitsalltag einzusetzen oder die kuratierte Auswahl in Die besten KI-Tools 2026 als Startpunkt. Diesmal mit Baseline.