Die TACL-Studie “Lost in the Middle” von Liu et al. aus 2024 (arXiv 2307.03172) hat einen Effekt sauber vermessen, der für jeden Roman entscheidend ist: GPT-3.5-Turbo fiel in einem 20-Dokumente-Kontext auf unter 56,1 Prozent Trefferquote, sobald das relevante Dokument in der Mitte stand. Schlechter als das Closed-Book-Ergebnis desselben Modells. Bei Key-Value-Retrieval brachen einzelne Modelle von nahezu hundert Prozent auf unter vierzig Prozent ein. Das Muster ist U-förmig. Anfang und Ende des Kontexts werden stark gewichtet, die Mitte wird systematisch übergangen.
Ein typischer Roman hat 80.000 Wörter. Das ist die Mitte. Genau dort, wo Figurenbögen sich schließen, wo das Versprechen aus Kapitel 3 in Kapitel 27 eingelöst werden muss, schaut das Modell weg.
Warum jeder KI-Roman bis Kapitel 12 funktioniert und dann auseinanderfällt
Die ersten zehntausend Wörter sind das Paradies der Sprachmodelle. Der Kontext ist überschaubar, jede Figur frisch eingeführt, jede Setzung ohne Vorgeschichte. Das Modell schreibt souverän. Wer einmal mit ChatGPT, Claude oder Gemini ein Romanprojekt begonnen hat, kennt das Gefühl: Es läuft. Bis ungefähr Kapitel zwölf.
Dann passieren drei Dinge gleichzeitig. Eine Nebenfigur, die in Kapitel 4 als Schwester eingeführt wurde, wird in Kapitel 14 zur Cousine. Ein Schwur, den die Hauptfigur in Kapitel 7 abgelegt hat, wird in Kapitel 18 sang- und klanglos gebrochen, ohne dass das Modell die Spannung daraus zieht. Eine geographische Setzung verschiebt sich: Die Stadt, in Kapitel 2 am Meer angesiedelt, wird zur Bergregion, weil das letzte Kapitel ein Klettererlebnis verlangt.
Das ist kein Stilproblem. Es ist ein Aufmerksamkeitsproblem, exakt das, was Liu, Lin und Hewitt gemessen haben. Die Information aus Kapitel 4 liegt im Mittelfeld des Kontexts, wenn das Modell Kapitel 14 schreibt. Und das Mittelfeld ist genau die Zone, in der die Trefferquote unter sechsundfünfzig Prozent fällt.
Was Amazon im September 2023 lernen musste
Amazon KDP hat am 18. September 2023 die täglichen Uploads pro Autor auf maximal drei Bücher begrenzt. Das war die Direktreaktion auf eine Flut KI-generierter Titel, die in zwei Kategorien die Bestsellerlisten überrollten: Diätratgeber und Young-Adult-Romane. Beides Genres, in denen Konsistenz über mittlere Distanzen relativ unkritisch ist. Bei Diätratgebern gibt es kaum durchgehende Figurenbögen. Bei Young-Adult-Romanen kaschiert das Genre-Tempo viele Kontinuitätsbrüche.
Das eigentliche Signal liefern die Conversion-Zahlen. Laut Publishers Weekly und Authors Guild erzielen Bücher mit echter narrativer Substanz eine viermal höhere Conversion-Rate als rein KI-generierte Titel. Die Leser kaufen weiter, wenn sie an etwas hängenbleiben. Sie brechen ab, wenn die Figur in Kapitel 14 plötzlich anders heißt als in Kapitel 4.
Der Markt hat das Problem also doppelt gemessen. Einmal als Schwemme an der Spitze der Plattform und einmal als Kaufverhalten am unteren Ende der Conversion-Trichter. Beide Datenpunkte zeigen in dieselbe Richtung: KI-generierte Prosa skaliert in der Produktion, aber nicht in der Bindung.
Sudowrite Muse 1.5 und Novelcrafters Codex denken die Aufgabe neu
Im Juni 2025 hat Sudowrite Muse 1.5 veröffentlicht, ein proprietäres Modell, das gezielt auf Romanen feingestimmt wurde. Die Daten aus Blindtests sind eindeutig: vierzig Prozent längere Szenen als generische Modelle, zwei zu eins Präferenz gegenüber Claude 3.7 Sonnet. Spannender als die Benchmarks ist aber, was Muse 1.5 in einem Reviewtest gezeigt hat: Das Modell referenzierte automatisch die dokumentierte Höhenangst einer Figur in einer späteren Bergszene, ohne dass der Schreibende das im Prompt erwähnt hatte. Die Information lag in der Story Bible, nicht im rohen Manuskripttext.
Novelcrafter geht seit Februar 2025 denselben Weg mit der Codex-Datenbank. Charakternamen, Beziehungen, Weltregeln und Schauplätze lassen sich als strukturierte Einträge pflegen — beim Schreiben spielt das System gezielt die für die aktuelle Szene relevanten Einträge in den Kontext. Nicht das ganze Manuskript. Nur was die Szene braucht.
Der Markt bewegt sich messbar. Weg von “die KI schreibt den Roman” und hin zu “die KI verwaltet das Gedächtnis des Romans”. Das ist keine Wortklauberei. Es ist eine andere Aufgabe, ein anderes Toolset, ein anderer Preisbereich.
Das Kontext-Fenster wird größer. Das Problem auch.
Das naheliegende Gegenargument lautet: Die Kontextfenster wachsen schneller als die Manuskripte. Gemini 2.5 Pro verarbeitet eine Million Tokens, ein 80.000-Wort-Roman passt mit rund hunderttausend Tokens locker hinein. Problem gelöst, oder?
Nein. Chroma Research hat 2024 unter dem Titel “Context Rot” gezeigt, dass Modelle mit ein bis zwei Millionen Token Fenstergröße bereits ab hunderttausend Tokens mit über fünfzig Prozent Performance-Einbruch kämpfen. Kontextgröße und Kontextnutzung sind verschiedene Probleme. Das eine wird durch Speicher gelöst. Das andere durch Aufmerksamkeitsmechanik. Und die Aufmerksamkeitsmechanik in Transformer-Architekturen privilegiert nach wie vor die Ränder des Kontexts.
Du kannst dem Modell den ganzen Roman geben. Es liest nur Anfang und Ende.
Was an die KI gehört, was nicht
Wenn die Diagnose stimmt, dann lässt sich die Arbeitsteilung präzise aufschreiben. Vier Aufgaben, bei denen KI im Mai 2026 wirklich liefert:
Erstens: Kontinuitätsprüfung. Eine Story Bible, die Figurenprofile, Beziehungen, Weltregeln strukturiert sammelt und vom Modell bei jeder Szene gezielt befragt wird, fängt die Brüche auf, die das menschliche Auge nach 80.000 Wörtern nicht mehr sieht.
Szenenredaktion ist die zweite Aufgabe. Ein vom Menschen geschriebener Rohtext, gegengelesen vom Modell mit der Frage “Welche Spannung verspricht der Anfang dieser Szene und löst der Schluss sie ein?”. Das ist der klassische Lektorenblick, den Muse 1.5 strukturell liefern kann.
Drittens: Dialogvariation. Drei Versionen einer Replik in unterschiedlichen Tonlagen, damit der Autor entscheidet, welche zur Figur passt. Hier ist die KI in ihrem natürlichen Habitat: kurze Texte, breiter Kontext, viele Optionen.
Und zuletzt die Recherche-Verdichtung. Historische Setzung, juristische Fakten, geografische Details — was klassisch im Notizbuch landete, wandert in einen strukturierten Codex-Eintrag, den das System beim Schreiben automatisch einspielt.
Drei Aufgaben, die an der Seite des Menschen bleiben:
Die Stimme. Was eine Figur unverkennbar macht, ist die Summe ihrer Eigenheiten. Sie entstehen nicht aus dem Mittel der Trainingsdaten, sondern aus der bewussten Setzung des Autors gegen das Erwartbare.
Der Spannungsbogen. Welche Information wann gegeben wird, welche Frage wann beantwortet wird, ist eine kompositorische Entscheidung über das gesamte Buch hinweg. Genau die Achse, auf der das Modell systematisch wegschaut.
Das Ende. Die Auflösung, die das Versprechen aus Kapitel eins einlöst, lebt davon, dass der Autor beide Punkte gleichzeitig im Kopf hat. Das Modell hat sie nicht.
Der Job war von Anfang an ein anderer
Wer 2026 KI für den falschen Job benutzt, schreibt einen Roman, der bis Kapitel zwölf liest wie geschrieben und ab Kapitel dreizehn wie generiert. Die Diagnose ist mittlerweile sauber gemessen, der Markt hat reagiert, und die Tools, die den richtigen Job machen, existieren mit Namen und Versionsnummer.
Wer regelmäßig Einordnungen lesen will, die zwischen Pauschallob und Pauschalkritik eine konkrete Arbeitsteilung herausarbeiten, findet im KI-Syndikat-Newsletter jede Woche ein Stück, das genau diese Linie zieht.
Die Frage ist nicht, ob KI an deinen Schreibtisch gehört. Sie gehört dahin. Die Frage ist, an welchen Stuhl. Den des Autors hat sie nicht verdient. Den des Lektors, des Kontinuitätswächters und des Recherche-Assistenten hat sie sich erarbeitet.