16 erfahrene Entwickler. 246 echte Aufgaben. Randomisiert kontrolliert. Die einen durften Cursor AI und ähnliche Tools benutzen, die anderen nicht. Am Ende dauerten die Aufgaben mit KI-Unterstützung 19% länger.
Noch merkwürdiger: Die Entwickler glaubten, 20% schneller gewesen zu sein.
Das ist eine Lücke von 39 Prozentpunkten zwischen Selbstwahrnehmung und Realität. Die Studie stammt von METR, einer unabhängigen Sicherheitsforschungsorganisation, veröffentlicht im Juli 2025. Cursor hat seitdem $2 Milliarden ARR überschritten.
Beide Fakten sind gleichzeitig wahr.
Was die Studie wirklich gemessen hat
Die Entwickler arbeiteten an ihren eigenen, vertrauten Codebases mit durchschnittlich einer Million Zeilen Code. Kein Toy-Beispiel, keine Studenten, keine Einsteiger. Erfahrene Open-Source-Entwickler, die ihre eigenen Repositories kennen wie ihre Wohnung.
Trotzdem: mehr Zeit für die gleichen Aufgaben.
Woran lag es? Die Entwickler verbrachten weniger Zeit mit Code schreiben und Dokumentation lesen. Stattdessen: prompten, KI-Output prüfen, warten, KI-Fehler fixen. Weniger als 44% der generierten Vorschläge wurden übernommen. Der Rest war Aufwand ohne Ergebnis.
Es gibt eine Ausnahme in den Daten: Der einzige Entwickler in der Studie mit über 50 Stunden Cursor-Erfahrung war 38% schneller. Lernkurve existiert. Sie ist nur deutlich länger als die meisten Nutzungszeiten.
Was das nicht bedeutet
Es bedeutet nicht, dass Cursor oder GitHub Copilot wertlos sind.
Es bedeutet, dass der Produktivitätsgewinn weder automatisch noch schnell kommt. Wer ein Tool zwei Wochen nutzt und sich dann besser fühlt, misst wahrscheinlich Komfort, nicht Geschwindigkeit.
GitHub Copilot löst ein anderes Problem als Cursor AI. Als Plugin in bestehende IDEs (VS Code, JetBrains, Neovim) ist der Einstieg kleiner. Autovervollständigung, Unit-Test-Generierung, Boilerplate: Das sind klar umrissene Aufgaben, bei denen der Nutzen sich früher zeigt. Copilot verändert deinen Workflow kaum. Cursor verändert ihn grundlegend.
Wer in einer großen Unternehmens-Codebase arbeitet, viel mit Pull Requests und Code Reviews zu tun hat und vor allem schnellere Autovervollständigung will, ist mit Copilot gut bedient. Wer Greenfield-Projekte baut und bereit ist, mehrere Wochen in die Tool-Dynamik zu investieren, bekommt mit Cursor mehr zurück.
Warum Nicht-Entwickler trotzdem anfangen sollten. Mit offenen Augen.
Im Mai 2025 legte ein Sicherheitsforscher über 170 Live-Apps offen, die allesamt auf Lovable gebaut worden waren, einer KI-Coding-Plattform für Nicht-Entwickler. Ursache: fehlende Row-Level-Security-Richtlinien in der Datenbankanbindung. Die Apps liefen in Produktion. Nutzerdaten waren ungeschützt. Kein Entwickler hatte den generierten Code überprüft. (CVE-2025-48757, CVSS 9.3 — kritisch.)
Das ist kein Argument gegen Vibe Coding. Es ist ein Argument gegen Vibe Coding ohne Grundverständnis.
Was realistisch funktioniert, wenn du noch nie programmiert hast:
- Einfache Skripte, die Dateien umbenennen, Daten sortieren, Tabellen zusammenführen
- Ein internes Formular oder Dashboard, das nur du selbst nutzt
- Automatisierungen in Tools wie n8n, bei denen Code-Snippets in abgeschirmte Umgebungen eingebettet werden
Was zu früh ohne Grundkenntnisse schiefgeht: alles, wo andere Menschen ihre Daten eingeben. Das gilt vor allem für Authentifizierung und Datenbankanbindung: Diese Schritte brauchen mindestens jemanden, der versteht, was er da unterschreibt.
Einen strukturierten Überblick über KI-gestützte Entwicklungsassistenten und KI-Code-Reviews findest du in unseren Praxisguides.
Was sich gerade wirklich verändert
Cursor hat in drei Monaten seinen ARR von $1 auf $2 Milliarden verdoppelt. 7 Millionen monatlich aktive Nutzer. Die Hälfte aller Fortune-500-Unternehmen hat Entwickler, die Cursor benutzen — so Cursors eigene Angaben.
Das ist kein Hype-Signal. Das ist Adoption.
Aber Adoption und Produktivitätsgewinn sind zwei verschiedene Dinge. Menschen kaufen Fitnessstudio-Mitgliedschaften, nehmen aber nicht ab. Sie kaufen Bücher, die sie nicht lesen. Sie kaufen KI-Coding-Tools, die sie langsamer machen, und glauben, sie seien schneller.
Das Werkzeug ist nicht das Problem. Die falsche Erwartung ist das Problem.
Für Entwickler: Investiere drei Wochen echte Nutzung, bevor du urteilst. Nicht ein Wochenende. Der Lerneffekt existiert. Er braucht nur deutlich mehr Zeit als du denkst. Die Modelle sind gut genug. Die Frage ist, ob du die richtigen Fragen stellst.
Für Nicht-Entwickler: Fang an. Aber baue erst etwas, das nur du selbst siehst. Dann erweitere.
Die Technologie senkt die Einstiegshürde. Sie entfernt sie nicht. Und sie entfernt auch nicht die Notwendigkeit, zu merken, wenn man langsamer wird.
Willst du konkrete Einschätzungen zu KI-Tools ohne Hype? Dann abonniere den KI-Syndikat-Newsletter.