Zum Inhalt springen
Medien & Verlag lektoratschlussredaktionqualitaet

KI-Redaktionsassistent für Schlussredaktion und Lektorat

KI fungiert als strukturierter Checklisten-Assistent in der Schlussredaktion — prüft Artikel gegen Hausorthografie, Stilguide und redaktionsspezifische Fehlerprofile, bevor das Vier-Augen-Prinzip greift.

⚡ Auf einen Blick
Problem
Unter Deadlines wächst das Tempo, sinkt die Sorgfalt. Die Schlussredaktion von 40 Artikeln pro Tag mit zwei Personen funktioniert morgens anders als um 17:45 — und genau dort passieren die Fehler, die 200 Kommentare provozieren.
KI-Lösung
Ein zweistufiges System aus regelbasiertem NLP (LanguageTool) und LLM-basiertem Checklisten-Assistenten prüft jeden Artikel gegen Hausorthografie, spezifische Fehlerprofile und Stilrichtlinien. Die Schlussredaktion bekommt eine priorisierte Markierungsliste, kein Rohergebnis — und konzentriert sich auf das, was nur Journalistinnen und Journalisten entscheiden können.
Typischer Nutzen
Fehlerrate bei Rechtschreibung und Stilinkonsistenzen messbar um 40–60 % reduziert; Schlussredaktionszeit je Artikel von 30–60 auf 10–20 Minuten verkürzt; faktische Klärungsaufgaben besser priorisiert.
Setup-Zeit
LanguageTool sofort; vollst. Stilguide-Prompt: 2–4 Wochen
Kosteneinschätzung
LanguageTool Teams ab 18 €/Nutzer/Monat; LLM-API für 40 Artikel/Tag unter 20 €/Monat; Gesamtkosten ca. 95–110 €/Monat
LanguageTool für Rechtschreibung & HausstilLLM-Checklisten-Assistent für FehlerprofileKombiniert: regelbasiert + LLM-Stilprüfung
Worum geht's?

Es ist Freitag, 17:43 Uhr.

Tanja Mertens ist seit elf Jahren Schlussredakteurin bei einem regionalen Nachrichtenportal. Zusammen mit einem Kollegen trägt sie täglich die Verantwortung für 35 bis 45 Artikel, die vor der Veröffentlichung freigegeben werden müssen. Morgens läuft das gut. Um 17:43 Uhr, nach dem sechsten Kaffee und zwanzig fertigen Texten, läuft es weniger gut.

Der Artikel um 17:43 Uhr handelt von einem Gerichtsurteil. Ein Lokalpolitiker wurde in erster Instanz verurteilt — aber noch nicht rechtskräftig, was einen erheblichen Bedeutungsunterschied macht. Der Satz im Artikel lautet: „Das Urteil ist damit endgültig.” Er lautet nicht endgültig. Tanja liest darüber hinweg, weil sie in dieser Minute auch noch drei andere Texte im Browser offen hat und einer davon fünf Minuten vor Redaktionsschluss online muss.

Der Artikel geht live. 214 Kommentare. Ein Anruf vom Anwalt des Politikers am nächsten Morgen. Eine Korrektur mit Entschuldigungszeile. Und das Bewusstsein, dass das kein menschliches Versagen war — sondern ein systemisches. Zwei Personen, 40 Artikel, acht Stunden, unterschiedliche Aufmerksamkeitskurven über den Tag. Das Ergebnis ist so vorhersehbar wie vermeidbar.

Das ist kein Einzelfall. Das ist jeden Freitagnachmittag, in jeder Redaktion, die unter Volumen und Deadlines arbeitet.

Das echte Ausmaß des Problems

Die Schlussredaktion ist der letzte Filter vor der Öffentlichkeit. In Online-Redaktionen mit täglichem Artikelvolumen ist dieser Filter strukturell überlastet.

Studien zur kognitiven Belastung zeigen, dass Fehlererkennungsleistung bereits nach 90 Minuten konzentrierter Lektüre signifikant abnimmt. In einer Redaktion mit 40 Artikeln pro Tag und zwei Schlussredakteurinnen und -redakteuren bedeutet das: Jede Person liest im Schnitt 20 Artikel. Wenn die ersten fünf sorgfältig geprüft werden, werden die letzten fünf unter Zeitdruck gescannt. Die Fehlerwahrscheinlichkeit in Artikel 20 ist strukturell höher als in Artikel 1 — nicht wegen Nachlässigkeit, sondern wegen Erschöpfung.

Was in der Praxis fehlt, sind drei Kategorien systematischer Aufmerksamkeit:

  • Stilkonsistenz mit dem Hausmanual: Wird „Bundesland” konsequent kleingeschrieben? Nutzt die Redaktion „beziehungsweise” oder „bzw.”? Viele Redaktionen haben klare Regeln — die in der Hektik nicht jeder kennt, und die kein Mensch für 40 Artikel täglich nachschlagen kann.
  • Redaktionsspezifische Fehlermuster: Jede Redaktion wiederholt dieselben Fehler. Verwechslung von Prozent und Prozentpunkten. Aktiv statt Passiv in Gerichtstexten. Falsches Genus bei bestimmten Institutionsnamen. Diese Fehler sind bekannt — aber das Wissen ist nirgends strukturiert festgehalten.
  • Faktenbehauptungen, die eine zweite Prüfung verdienen: Jahreszahlen, Amtstitel, Gesetzesbezeichnungen — Stellen im Text, die KI zwar nicht faktisch prüfen kann, aber als prüfwürdig markieren kann.

Laut einer WAN-IFRA-Auswertung redaktioneller KI-Implementierungen (2024) berichten Newsrooms, die KI-gestützte Qualitätsprüfung einführen, von Fehlerraten-Rückgängen zwischen 35 und 60 Prozent bei den Fehlerklassen, die explizit im System definiert wurden. Das schwedische Nachrichtenportal Aftonbladet entwickelte unter der Leitung von Deputy Managing Editor Martin Schori 2024 das interne Tool „Buddy Reader” — ein KI-gestütztes Lektorat-Werkzeug, das Journalistinnen und Journalisten Rückmeldungen zu Satzstruktur, Wiederholungen, Rechtschreibfehlern und Schwächen in der Argumentation gibt.

Der entscheidende Unterschied: Das System ersetzt den redaktionellen Blick nicht — es macht ihn präziser.

Mit vs. ohne KI — ein ehrlicher Vergleich

KennzahlOhne KI-UnterstützungMit KI-Redaktionsassistent
Schlussredaktion je Artikel30–60 Minuten10–20 Minuten ¹
Erkannte Stilinkonsistenzen vor VeröffentlichungStark abhängig von Tageszeit und AuslastungKonsistent, unabhängig von Tageszeit
Abdeckung des Hausorthografie-RegelwerksTeilweise — kein Mensch kennt 200 Regeln auswendigVollständig, für alle definierten Regeln
Priorisierung von PrüfaufwandGleiche Zeit für einfache und risikobehaftete StellenMarkierungsliste priorisiert riskante Passagen zuerst
Fehlerraten bei definierten FehlerklassenBasis-LevelRückgang 40–60 % ²
Abendliche QualitätsdegradierungUnvermeidlich — systemischStark reduziert, KI prüft konstant

¹ Durch priorisierte Markierungsliste statt vollständiges Durchlesen; erfahrungsgemäße Schätzwerte aus vergleichbaren Implementierungen. ² Quelle: WAN-IFRA AI in News Report, 2024; gilt für explizit definierte Fehlerklassen, nicht für inhaltliche Fehler.

Einschätzung auf einen Blick

Zeitersparnis — hoch (4/5) Schlussredaktion bedeutet heute: jede Zeile lesen, weil man nicht weiß, wo der Fehler steckt. Mit einem KI-Assistenten, der 80 Prozent der mechanischen Prüfaufgaben übernimmt, ändert sich die Tätigkeit: Schlussredakteurinnen und -redakteure lesen nur noch die markierten Stellen, bestätigen oder verwerfen — der Rest ist erledigt. In der Praxis reduziert sich der Zeitaufwand je Artikel um 50 bis 70 Prozent für den mechanischen Teil. Nicht bewertet wurde Zeitersparnis 5, weil inhaltlich-journalistische Prüfung menschliche Lesezeit bleibt.

Kosteneinsparung — niedrig (2/5) Die Werkzeuge sind günstig: LanguageTool Teams kostet ab ca. 18 €/Nutzer/Monat, der LLM-API-Einsatz für 40 Artikel täglich liegt bei unter 20 €/Monat. Der eigentliche Aufwand liegt in der Einrichtung — Hausorthografie digitalisieren, Fehlerprofile erstellen, den Prompt kalibrieren: zwei bis vier Wochen Arbeit. Und der Nutzen der Zeitersparnis ist real, führt aber selten zu direktem FTE-Abbau. Schlussredaktion bleibt Schlussredaktion — die Einsparung entlastet, ersetzt aber keine Stelle.

Schnelle Umsetzung — mittel (3/5) LanguageTool ist in wenigen Stunden eingerichtet — Browser-Extension, Word-Add-in, fertig. Der wirklich wertvolle Teil, der LLM-basierte Checklisten-Assistent mit redaktionsspezifischem Fehlerprofil, braucht Vorbereitung: Hausorthografie muss schriftlich vorliegen, die häufigsten Fehler müssen analysiert und kategorisiert werden. Das ist keine KI-Aufgabe — das ist Redaktionsarbeit. Wer das überspringt, baut eine generische Prüfroutine, keine redaktionsspezifische. Der Zeitplan unterscheidet diese Einführung von schnelleren Automatisierungslösungen im Branchenvergleich.

ROI-Sicherheit — hoch (4/5) Die Messbarkeit ist klar: Wie viele Fehler wurden im letzten Quartal pro 100 Artikel veröffentlicht und anschließend korrigiert? Wie lange dauerte die Schlussredaktion je Artikel vor Einführung, danach? Beide Kennzahlen sind direkt erhebbar — anders als bei Reichweiten- oder Engagement-Optimierungen, wo Kausalität selten eindeutig ist. Der Vorbehalt: Das System prüft nur, was definiert wurde. Faktische Fehler und journalistische Beurteilungsfragen bleiben menschliche Aufgabe und entziehen sich der Messung.

Skalierbarkeit — sehr hoch (5/5) Das ist die zentrale Stärke dieses Anwendungsfalles: Artikel 40 eines Tages kostet denselben API-Aufwand wie Artikel 1. Ein System-Prompt prüft 200 Artikel täglich genauso vollständig wie 20 — ohne Erschöpfung, ohne Aufmerksamkeitsverlust, ohne Mehrkosten. Wenn das Redaktionsvolumen wächst — mehr Ressorts, mehr Formate, eine neue Redaktion im Verbund — muss die KI-Prüfung nicht proportional teurer oder langsamer werden.

Richtwerte — stark abhängig von Redaktionsgröße, Artikelvolumen und Grad der Hausorthografie-Dokumentation.

Was der KI-Redaktionsassistent konkret macht

Der Assistent ist kein Faktenchecker und kein Ersatz für das Vier-Augen-Prinzip. Er ist ein strukturierter Checklisten-Assistent — er prüft jeden Artikel automatisch gegen einen definierten Regelkatalog und liefert der Schlussredaktion eine priorisierte Markierungsliste. Die Entscheidung liegt immer beim Menschen.

Die zwei Prüfebenen

Ebene 1: Regelbasierte Formalkorrektheit via LanguageTool Teams.

Das übernimmt: Rechtschreibung, Grammatik, Zeichensetzung, Silbentrennung. Zusätzlich das, was LanguageTool besonders gut kann: Hausorthografie als Regelset hinterlegen. „Bundesland” wird in dieser Redaktion so geschrieben, nicht anders. „dpa” immer in Kleinbuchstaben. „Oberbürgermeisterin” statt „Bürgermeisterin” für bestimmte Ämter. Diese Regeln werden im Team-Wörterbuch hinterlegt und gelten für alle Artikel, die alle Mitglieder des Teams schreiben.

Ebene 2: LLM-basierte Fehlerprofil-Prüfung via LLM (z.B. Claude oder ChatGPT API).

Das übernimmt: Ein Prompt lädt den Artikel und prüft ihn gegen ein redaktionsspezifisches Fehlerprofil. Dieses Profil enthält:

  • Die sieben häufigsten Fehlerklassen dieser Redaktion der letzten sechs Monate (z.B.: Passivkonstruktionen in Gerichtstexten, die den Urteilsstatus verzerren; Verwechslung von „mehr als” und „über” bei Zahlenangaben; fehlende Differenzierung zwischen erstinstanzlichen und rechtskräftigen Urteilen)
  • Passagen im Text, die eine faktenprüfwürdige Aussage enthalten (Jahreszahlen, Amtsbezeichnungen, Gesetze, Zeitangaben) — nicht geprüft, aber als prüfwürdig markiert
  • Sätze mit mehrdeutiger Kausalität oder unklar zugeordneten Aussagen (Wer hat was wann gesagt?)
  • Artikel, die bestimmte stilistische Grenzregeln verletzen: Passivkonstruktionen in aktivem Erzählstil, Modalverb-Stapelung, unverhältnismäßig lange Satzgefüge

Das System gibt kein binäres „Fehler gefunden / nicht gefunden” zurück, sondern eine Liste mit Signifikanz-Einschätzungen: „Diese Passage sollte vor Veröffentlichung geprüft werden, weil…” — und die Schlussredaktion entscheidet.

Was das System nicht tut

  • Es erfüllt keine journalistische Sorgfaltspflicht. Diese liegt nach wie vor vollständig bei der Redaktion — dazu unten mehr.
  • Es prüft keine Fakten. Es markiert nur Stellen als prüfwürdig.
  • Es erkennt keine falschen Quellen. Wer die dpa mit Bild verwechselt, bleibt menschliche Aufgabe.
  • Es ersetzt keine Redaktionskonferenz. Journalistische Relevanz- und Qualitätsurteile sind keine LLM-Aufgabe.

Presserecht und Sorgfaltspflicht — was die KI beim Lektorat NICHT übernehmen kann

Dieser Abschnitt ist kein rechtlicher Ausrutscher — er gehört in jede seriöse Diskussion über KI in der Schlussredaktion.

Der Deutsche Presserat hat in seiner Stellungnahme von 2024 klargestellt: Die presseethische Verantwortung liegt uneingeschränkt bei der Redaktion — auch für Inhalte, an denen KI-Werkzeuge beteiligt waren. Wer einen Text mit KI-Unterstützung geprüft hat und ihn veröffentlicht, trägt dieselbe Haftung wie ohne KI-Prüfung. Die KI ist ein Werkzeug, kein Verantwortungsträger.

Das ist keine Einschränkung des Nutzens — es ist eine notwendige Klarstellung, damit dieser Nutzen richtig eingesetzt wird.

Was das für die Einführung bedeutet:

Faktenprüfung bleibt menschlich. Ein LLM, das Artikel gegen ein Fehlerprofil prüft, halluziniert gelegentlich — und zwar nicht zufällig, sondern oft in Richtung plausibler Fehler. Eine Springer-Nature-Studie zu KI in Lektoratsprozessen (2024) stellte fest, dass LLMs bei der Prüfung längerer Texte Aussagen ohne Beleg als Bewertungen umformulieren und attribuierte Meinungen in allgemeine Aussagen verwandeln. In einem Gerichtsreportage-Kontext ist das gefährlich. Das System muss so konfiguriert sein, dass es nur Stellen markiert — und niemals korrigiert.

Journalistische Beurteilung nicht delegierbar. Ist ein Sachverhalt ausreichend recherchiert? Ist eine Quelle zuverlässig genug für eine unverifizigte Behauptung? Ist ein Bericht einseitig? Diese Fragen kann kein Sprachmodell beantworten — weil sie Kontextwissen voraussetzen, das nicht im Artikel steht.

Passiv im Gerichtstext ist kein Stilfehler. Ein LLM, das generell auf passive Konstruktionen hinweist, wird in Gerichtstexten genau die Formulierungen markieren, die aus presserechtlichen Gründen korrekt sind. „Der Angeklagte wurde zu drei Jahren Haft verurteilt” ist keine stilistische Schwäche — es ist die einzig korrekte Formulierung für eine nicht-rechtskräftige Verurteilung, die den Angeklagten nicht als Täter bezeichnet, bevor das Urteil gilt. Stilregeln für KI-Prüfungen müssen diese Kontexte explizit ausschließen.

Die KI verdeckt keine Verantwortung. Wenn ein Artikel trotz KI-Prüfung einen presserechtlich problematischen Fehler enthält und veröffentlicht wird, ist das ein redaktionelles Versagen — nicht ein Systemversagen. Die Schlussredakteurin oder der -redakteur, der freigegeben hat, trägt die volle Verantwortung. Die KI ist ein Unterstützungswerkzeug, das die menschliche Prüfung effizienter macht — sie ersetzt sie nicht.

Dieser Abschnitt ist eine inhaltliche Einschätzung, keine Rechtsberatung. Bei presserechtlichen Fragen zur Einführung von KI in redaktionelle Prozesse sollte Rechtsberatung eingeholt werden.

Konkrete Werkzeuge — was wann passt

LanguageTool Teams — die Basisinfrastruktur

Für deutschsprachige Redaktionen ist LanguageTool die erste Wahl beim regelbasierten Korrektorat. Der entscheidende Unterschied zum kostenlosen Plan: das Team-Wörterbuch und der Regel-Editor. Hausorthografie, Schreibkonventionen, redaktionsspezifische Termini — alles zentral hinterlegt, gilt für alle Texte aller Mitarbeitenden. EU-Hosting (Potsdam), AVV verfügbar, Open-Source-Engine kann selbst gehostet werden. Kosten: ab ca. 18 €/Nutzer/Monat im Teams-Tarif.

Wenn nicht geeignet: Für strukturelle, inhaltliche oder journalistisch-beurteilende Prüfaufgaben. Und für tiefes Gerichtstextlektorat — die generellen Stilvorschläge müssen durch redaktionsspezifische Ausnahmeregeln ergänzt werden.

Claude oder ChatGPT API — der LLM-basierte Checklisten-Assistent

Für die zweite Prüfebene — das redaktionsspezifische Fehlerprofil — eignet sich ein LLM-Aufruf über die API. Claude (Sonnet oder Haiku) oder ChatGPT (GPT-4o-mini für Effizienz, GPT-4o für komplexere Texte) lassen sich mit einem detaillierten System-Prompt gegen jeden Artikel laufen lassen. Die API-Kosten für 40 Artikel täglich liegen bei unter 20 €/Monat — der günstigste Teil der gesamten Infrastruktur.

Unterschied zwischen den Modellen für diesen Anwendungsfall: Claude neigt in Tests zu etwas niedrigeren Fehlalarmquoten bei komplexem Deutsch (Konjunktiv I in indirekter Rede, Genitiv-Konstruktionen) — weil es tendenziell zurückhaltender als ChatGPT bei der Markierung von Konstruktionen ist, die mehrdeutig, aber nicht falsch sind. Das ist in einer Schlussredaktion relevant: Jeder unnötige Hinweis trainiert die Redakteurin oder den Redakteur, Hinweise zu ignorieren.

Zusammenfassung: Wann welcher Ansatz

  • Formale Rechtschreibung und Hausorthografie → LanguageTool Teams
  • Redaktionsspezifisches Fehlerprofil + Markierung prüfwürdiger Stellen → LLM via API (Claude oder ChatGPT)
  • Kombiniert: LanguageTool als erste Ebene im Editor, LLM-Checkliste als zweite Ebene vor Freigabe
  • Duden Mentor: eine Alternative zu LanguageTool mit stärkerem akademischen Profil — sinnvoll für Publikationen mit gehobenen Sprachansprüchen, aber ohne eigenes Teamwörterbuch-Feature auf LanguageTool-Niveau

Datenschutz und Datenhaltung

Redaktionsinhalte enthalten vor der Veröffentlichung personenbezogene Daten — Namen von Personen, Ortsangaben, manchmal sensible Details, die in der Endfassung möglicherweise nicht erscheinen. Das macht die Datenschutzfrage besonders wichtig.

LanguageTool Teams: Deutsche GmbH (Potsdam), EU-Hosting, AVV verfügbar. Im Premium- und Teams-Tarif werden Texte laut Anbieter nicht für KI-Training verwendet. Für die maximale Kontrolle: LanguageTool kann als Open-Source-Engine selbst gehostet werden — auch auf eigener Infrastruktur ohne Drittanbieter. Für Verlage mit besonders sensiblen unveröffentlichten Texten ist das die sauberste Lösung.

LLM-API (ChatGPT / Claude): Hier ist mehr Sorgfalt gefragt. Unveröffentlichte Texte — mit personenbezogenen Daten, die in der Endfassung möglicherweise nicht erscheinen — werden an externe APIs übertragen. Das erfordert:

  • DSGVO-konforme Einwilligungsprüfung und interne Richtlinien
  • AVV mit dem jeweiligen Anbieter (OpenAI und Anthropic bieten das an)
  • Für sehr sensible Inhalte: Erwägung, ob eine lokale Lösung (z.B. ein auf eigener Infrastruktur laufendes Open-Source-Modell via Ollama) die bessere Wahl ist

Der sicherste Workflow: Texte vor dem API-Aufruf pseudonymisieren — Namen durch Platzhalter ersetzen, sodass das Modell nur den stilistischen und formalen Kontext prüft, nicht die konkreten Personen. Das Mapping kann lokal gespeichert und anschließend zurückgespielt werden.

EU AI Act: LLM-basierte Prüfsysteme in Redaktionen fallen unter die EU AI Act-Klassifizierung — die konkrete Risikoklasse hängt vom Einsatz ab. Für reine Stilprüfung ohne automatisierte Entscheidungsfindung ist das Risikoprofil niedrig. Empfehlung: Interne KI-Richtlinie dokumentieren und den Einsatz für Personaldokumentation oder Vergütungsentscheidungen explizit ausschließen.

Was es kostet — realistisch gerechnet

Einmalige Einrichtungskosten

Der teurere Teil ist die Vorarbeit, nicht die Software:

  • Hausorthografie und Stilguide schriftlich fixieren (falls noch nicht vollständig dokumentiert): 1–3 Wochen Aufwand intern, Ressourcenkosten je nach Redaktionsgröße. Häufig gibt es Grunddokumente, die nur ergänzt werden müssen.
  • Fehlerprofil erstellen: Analyse der letzten 100–200 Korrekturen und Korrekturhinweise — welche Fehlerklassen treten wie oft auf? Das dauert 1–2 Tage.
  • Prompt entwickeln und kalibrieren: 3–5 Iterationsrunden, je 2–4 Stunden. Wichtig: Kalibrierung auf Fehlalarmquote — zu viele irrelevante Hinweise machen das System wertlos.
  • Externe Unterstützung (optional): 1.000–4.000 € für einen Tag Prompt-Engineering-Workshop mit einem erfahrenen Dienstleister.

Laufende Kosten (monatlich)

PostenKosten
LanguageTool Teams (5 Personen)ca. 90 €/Monat
LLM-API (40 Artikel/Tag via GPT-4o-mini oder Claude Haiku)5–20 €/Monat
LLM-API (40 Artikel/Tag via GPT-4o oder Claude Sonnet)20–60 €/Monat
Pflege Fehlerprofil (ca. 1h/Monat intern)Personalaufwand
Gesamt (Basisvariante)ca. 95–110 €/Monat

Wie der ROI tatsächlich messbar ist

Die einfachste Messmethode: Zähle die veröffentlichten Korrekturnachrichten, Nachbesserungen und Leserhinweise auf Fehler pro Quartal — und messe wieder, nachdem das System drei Monate läuft. Wenn die Fehlerrate bei den definierten Fehlerklassen um 40–60 Prozent sinkt, hat das System geliefert, was es kann.

Für die Zeitersparnis: Zeitmessung einer Stichprobe von zehn Artikeln vorher und nachher. Bei einem durchschnittlichen Schlussredakteur-Stundensatz von 25–40 Euro brutto und einer Einsparung von 20 Minuten je Artikel bei 40 Artikeln täglich ergibt das: ca. 13 Person-Stunden täglich (800 Minuten) — also rund 6–7 Stunden je Person in einem Zweier-Team, was bei 25 € je Stunde rund 325 €/Tag oder 6.500–7.000 €/Monat (22 Arbeitstage) entspricht. Da die eingesparte Zeit jedoch nicht eins zu eins in andere Aufgaben umgewandelt wird, ist das Deckeneffekt-Szenario: Im konservativen Szenario mit 30 Prozent tatsächlich realisierter Einsparung sind das noch immer 2.000–2.100 €/Monat — bei Werkzeugkosten von 100–110 €.

(Zeitersparnis-Kalkulation als Orientierungswert; tatsächlicher Nutzen hängt davon ab, ob die eingesparte Zeit in anderen journalistischen Aufgaben produktiv eingesetzt wird.)

Vier typische Einstiegsfehler

1. Mit einem generischen Prompt starten. „Prüfe diesen Artikel auf Fehler” ist kein Prompt — es ist ein Auftrag ohne Maßstab. Ein generisches LLM ohne redaktionsspezifisches Fehlerprofil prüft gegen seine eigenen Qualitätsurteile, nicht gegen die Maßstäbe der Redaktion. Das Ergebnis: Stilvorschläge, die den Hausorthografie-Regeln widersprechen, und Fehlalarme, die das Team innerhalb einer Woche darin trainieren, den Assistenten zu ignorieren. Lösung: Das Fehlerprofil vor dem ersten Test-Prompt fertigstellen.

2. Passiv-Markierung ohne Ausnahmeregeln für Gerichtstexte. Jedes gut trainierte LLM und jede Stilprüfung erkennt Passivkonstruktionen als potenzielle Schwäche. In einem allgemeinen Kontext stimmt das. In einem Gerichtsbericht ist die Passivkonstruktion die presserechtlich korrekte Formulierung — sie vermeidet die Suggestion von Schuld, die eine Aktivformulierung implizieren würde. Wer das nicht als Ausnahmeregel definiert, trainiert die Redaktion, ausgerechnet die presserechtlich korrekten Formulierungen umzuschreiben. Das Ergebnis kann teurer werden als kein System.

3. Das System einrichten und dann nicht pflegen. Das Fehlerprofil veraltet. Neue häufige Fehler entstehen, alte verschwinden. Eine Stilregel, die 2024 für ein bestimmtes Ressort korrekt war, kann 2026 überholt sein. Wer das System nach der Einrichtung sich selbst überlässt, hat nach 18 Monaten ein Prüfsystem, das gegen veraltete Maßstäbe prüft — und systematisch die falschen Stellen markiert. Lösung: Einen monatlichen 30-Minuten-Check einplanen: Welche der letzten 20 Korrekturen hätte das System markiert — und welche nicht? Das ist gleichzeitig das Feedback-Signal für die nächste Prompt-Anpassung.

4. Hinweis-Überflutung durch zu viele Markierungen. Wenn das System jeden Artikel mit 30 Hinweisen zurückgibt, öffnen Schlussredakteurinnen und -redakteure die Liste nicht mehr. Die kritische Designentscheidung ist nicht, was markiert wird, sondern was nicht markiert wird. Priorität 1 (Sofort prüfen) sollte maximal 3–5 Stellen pro Artikel enthalten. Alles andere kann in einer separaten „Zur Kenntnis”-Liste landen, die bei Bedarf geöffnet wird.

Was mit der Einführung wirklich passiert — und was nicht

Die technische Einrichtung ist der einfachere Teil. Das Schwierigere ist die redaktionsinterne Akzeptanz.

Der „KI-misstraut-mir”-Effekt. Erfahrene Schlussredakteurinnen und -redakteure reagieren auf ein System, das ihnen sagt, was sie prüfen sollen, zunächst mit Widerstand — weil es so klingt, als wolle eine Maschine ihren Beruf neu definieren. Was hilft: das System wird nicht als Überprüfung der Redakteurin oder des Redakteurs positioniert, sondern als Unterstützung gegen systemische Erschöpfung. „Du arbeitest am Abend genauso gut wie morgens — das System hilft dabei” ist eine andere Botschaft als „Das System findet, was du übersiehst.”

Die Hausstil-Archäologie. In fast jeder Redaktion existiert ein Hausstil-Dokument — und daneben eine Praxis, die vom Dokument an 15 Stellen abweicht. Wenn Stilregeln in einen System-Prompt eingebaut werden, wird sofort sichtbar, welche Regeln tatsächlich gelten und welche nur auf dem Papier stehen. Das ist nicht angenehm, aber wertvoll — die Einführung des Systems wird zum Anlass, den echten Hausstil zu dokumentieren.

Die ersten drei Wochen sind Kalibrierung, nicht Betrieb. Das System prüft beim ersten Lauf nicht optimal. Der erste Prompt enthält Lücken, die erst im Betrieb sichtbar werden — Formulierungen, die als Fehler markiert werden und keine sind; Fehlerklassen, die nicht erkannt werden, obwohl sie auftreten. Plant drei bis vier Iterations-Runden ein, bevor das System im Vollbetrieb verwendet wird.

Was konkret hilft:

  • Die Schlussredaktion frühzeitig in die Fehlerprofil-Erstellung einbinden — sie kennt die häufigsten Fehler besser als jede Analyse
  • Eine „Feedbackschleife” institutionalisieren: Wenn ein Hinweis sich als Fehlalarm herausstellt, wird das in einer geteilten Notiz dokumentiert — nächster Monat wird der Prompt entsprechend angepasst
  • Den Unterschied zwischen Ebene 1 (LanguageTool) und Ebene 2 (LLM-Checkliste) klar kommunizieren: LanguageTool prüft Formales, der LLM-Assistent prüft redaktionsspezifisch — beide sind komplementär, nicht redundant

Realistischer Zeitplan mit Risikohinweisen

PhaseDauerWas passiertTypisches Risiko
Hausorthografie-InventurWoche 1–2Hausstil-Dokument prüfen, Lücken identifizieren, echte vs. dokumentierte Praxis abgleichenDokument ist veraltet oder unvollständig — mehr Arbeit als erwartet
Fehlerprofil erstellenWoche 2–3Letzte 100–200 Korrekturen auswerten, häufigste Fehlerklassen kategorisierenKorrekturen nicht systematisch dokumentiert — manuelle Analyse aufwendiger
Prompt-Entwicklung Ebene 2Woche 3–4Ersten LLM-Prompt entwickeln, gegen historische Artikel testen, Fehlalarmquote messenZu hohe Fehlalarmquote — mehrere Iterationen nötig
Pilottest mit 5 Artikeln täglichWoche 4–5Parallelbetrieb: System und Mensch prüfen unabhängig, Abgleich der ErgebnisseZeitaufwand des Abgleichs wird unterschätzt — Puffer einplanen
LanguageTool Teams einrichtenWoche 3Konten anlegen, Hausorthografie im Wörterbuch hinterlegen, Team einführenEinarbeitungszeit: nicht alle erfahrenen Redakteurinnen und Redakteure öffnen Add-ins sofort
Vollbetrieb + MonitoringAb Woche 6Beide Ebenen im Echtbetrieb, monatliches Feedback-Meeting, Fehlalarmquote verfolgenKalibrierungsaufwand hört nicht auf — monatlich 30 Minuten ist realistisch

Häufige Einwände — und was dahintersteckt

„Wir haben schon LanguageTool als Browser-Extension.” Einzelne Browser-Extensions sind nicht dasselbe wie ein Team-Wörterbuch. Wenn jede Person ihr eigenes Profil pflegt, gibt es keine gemeinsame Basis für Hausorthografie-Regeln — und kein gemeinsames Wörterbuch, das neue Mitarbeitende sofort korrekt prüft. Erst das Team-Setup macht aus einem Einzelwerkzeug eine redaktionelle Infrastruktur.

„ChatGPT halluziniert. Das kann ich in der Schlussredaktion nicht gebrauchen.” Richtig — und deshalb macht das System keine inhaltlichen Korrekturen. Es markiert Stellen, die geprüft werden sollen, und begründet, warum. Eine Halluzination in einem Lektorats-Assistenten ist ein Fehlalarm — die Schlussredakteurin oder der -redakteur schaut drauf und entscheidet, dass die Stelle in Ordnung ist. Das ist anders als ein Halluzinations-Problem in einem System, das autonome Entscheidungen trifft. Der Risikopfad ist: das System setzt eine plausible Ergänzung in den Text ein — das tut ein Lektorats-Assistent nicht. Er markiert nur.

„Wir sind eine kleine Redaktion. Das lohnt sich für uns nicht.” Kommt auf das Volumen an. Eine Redaktion mit 5 Artikeln täglich braucht dieses System nicht — der Setup-Aufwand ist nicht gerechtfertigt. Für Redaktionen ab 20–25 Artikeln täglich, insbesondere mit Themen-Schwerpunkten, bei denen Präzision besonders wichtig ist (Wirtschaft, Recht, Lokalpolitik), ist der Aufwand vertretbar. Die Schwelle liegt nicht bei der Unternehmensgröße, sondern beim täglichen Artikelvolumen.

„Der Hausstil ist in den Köpfen erfahrener Leute — den kann man nicht in einen Prompt packen.” Das ist der wichtigste Einwand — und er verweist auf das wahre Vorprojekt: den Hausstil schriftlich fixieren. Nicht für die KI, sondern für die nächste Stelle, die besetzt wird. Für den ersten Arbeitstag neuer Mitarbeitender. Für die Stelle, die jahrzehntelange Erfahrung aus der Redaktion trägt und dann in Rente geht. Der LLM-Prompt ist der Katalysator, nicht der Grund. Wer diesen Schritt macht, gewinnt auch dann, wenn das KI-System kein einziges Mal läuft.

Woran du merkst, dass das zu dir passt

  • Deine Redaktion veröffentlicht täglich mehr als 20 Artikel, und die Schlussredaktion wird von maximal drei Personen getragen
  • Die meisten Fehler, die du in Leserzuschriften bekommst, sind wiederkehrend — keine Überraschungen, sondern immer wieder dieselben Klassen
  • Du hast ein Hausorthografie-Dokument (oder könntest eines erstellen), das mehr als zehn konkrete Regeln enthält
  • Deine Schlussredaktion arbeitet unter täglichem Zeitdruck — nicht gelegentlich, sondern strukturell: Es ist jeden Abend knapp
  • Du unterscheidest zwischen Formalkorrektheit und journalistischer Qualität — und suchst ein Werkzeug, das nur Erstere automatisiert, nicht Letzteres beurteilt

Wann es sich (noch) nicht lohnt — drei harte Ausschlusskriterien:

  1. Weniger als 15–20 Artikel täglich. Der Einrichtungsaufwand (Hausorthografie dokumentieren, Fehlerprofil erstellen, Prompt kalibrieren) amortisiert sich bei kleinem Volumen nicht. Eine Redaktion, die zehn Artikel täglich veröffentlicht, braucht eine halbe Schlussredaktionsstelle — nicht ein KI-System. Erst ab einem gewissen Volumen ändert sich das Verhältnis.

  2. Kein dokumentierter Hausstil. Das System prüft gegen Regeln. Wenn die Regeln in den Köpfen erfahrener Redakteurinnen und Redakteure leben und nicht auf Papier existieren, kann das System nichts durchsetzen, was nicht definiert ist. Das Vorprojekt ist immer die Dokumentation — nicht die KI. Wer diesen Schritt überspringt und hofft, die KI löst das Problem, landet bei einem generischen Stilassistenten, der gegen eigene Maßstäbe prüft.

  3. Keine technische Infrastruktur für API-Zugriff. Das LLM-basierte Checklisten-System setzt voraus, dass jemand in der Redaktion — oder in der IT — eine einfache API-Anbindung bauen kann. Das ist kein Entwicklerprojekt, aber es braucht jemanden, der einen Skript-Aufruf einrichten kann, der Artikeltext an eine API schickt und das Ergebnis zurückgibt. Wer das nicht intern kann und keinen externen Dienstleister beauftragen will, bleibt bei Ebene 1: LanguageTool — was schon erheblich besser ist als gar nichts.

Das kannst du heute noch tun

Öffne den letzten Artikel, der in deiner Redaktion nachträglich korrigiert wurde — entweder wegen eines Leserhinweises oder weil ihr selbst einen Fehler entdeckt habt. Schau dir an, welche Fehlerklasse das war. Formuliere drei Sätze, die beschreiben, wie dieser Fehler in Zukunft erkannt werden soll. Das ist der Kern des Fehlerprofils, das du brauchst.

Wenn du fünf dieser Beispiele hast, bist du bereit für den ersten Prompt-Test. Lade einen unveröffentlichten Artikel in Claude oder ChatGPT und füge diese Fehlerprofil-Beschreibung als System-Anweisung hinzu. Das dauert 30 Minuten — und zeigt dir sofort, ob das Konzept für eure Redaktion funktioniert.

Fertiger Prompt für deinen Schlussredaktions-Assistenten
Du bist ein Schlussredaktions-Assistent für [REDAKTIONSNAME]. Du prüfst Artikel bevor der Mensch die finale Freigabe erteilt. Du machst KEINE inhaltlichen Korrekturen und ersetzt NICHT das menschliche Urteil. Du markierst nur — und begründest. Prüfe den folgenden Artikel auf genau diese Kategorien: **KATEGORIE A — Sofort prüfen (max. 3–5 Stellen):** [HIER FEHLERPROFIL EINTRAGEN, z.B.:] - Verwechslung von Erst- und Rechtskraft bei Gerichtsurteilen: Prüfe alle Formulierungen, die ein Urteil als "endgültig", "final" oder "abgeschlossen" beschreiben - Passivkonstruktionen, die in Nicht-Gerichtstexten unangemessen verschleiern (NICHT in Gerichtstexten — dort ist Passiv korrekt) - Zahlenkonsistenz: Prozent vs. Prozentpunkte; Veränderungsangaben "mehr als" vs. "über" - Amtstitel: Prüfe alle Personennamen auf korrekte Amtsbezeichnung nach [HAUSORTHOGRAFIE] **KATEGORIE B — Zur Kenntnis (nicht dringend):** - Sätze über 40 Wörter ohne Hauptsatz-Unterbrechung - Stilistische Wiederholungen desselben Substantivs innerhalb eines Absatzes - Direkte Rede ohne klare Quellenangabe im selben Satz **KATEGORIE C — Faktenprüfwürdige Stellen:** Markiere alle Stellen, die Jahreszahlen, Amtsbezeichnungen, Gesetzesangaben oder Zeitangaben enthalten. Du prüfst diese nicht — du markierst sie nur als "menschliche Prüfung empfohlen". Antworte ausschließlich mit einer strukturierten Liste. Keine Korrekturen. Keine Umformulierungen. Nur Flags mit Begründung. ARTIKEL: [ARTIKEL-TEXT HIER EINFÜGEN]
Funktioniert mit Claude, ChatGPT
Beispiel-Ausgabe

Mitarbeiter:in

Ein Bezirksgericht hat den Angeklagten gestern zu drei Jahren Freiheitsstrafe ohne Bewährung verurteilt. Das Urteil ist damit endgültig. Der Politiker kündigte an, in Berufung zu gehen. Zuletzt hatte er seine Unschuld beteuert.

KI-Assistent

**KATEGORIE A — Sofort prüfen:** 1. **„Das Urteil ist damit endgültig"** — mögliche Verwechslung Erst- und Rechtskraft. Ein Urteil eines Bezirksgerichts in erster Instanz ist nicht automatisch endgültig — es kann in Berufung angefochten werden. Der unmittelbar folgende Satz ("kündigte an, in Berufung zu gehen") widerspricht der Formulierung. Empfehlung: Formulierung prüfen, z.B. "Das Urteil ist noch nicht rechtskräftig." **KATEGORIE B — Zur Kenntnis:** — Keine Auffälligkeiten in diesem Artikel-Ausschnitt. **KATEGORIE C — Faktenprüfwürdig:** 1. "gestern" — relative Zeitangabe; beim Veröffentlichungszeitraum prüfen, ob das Datum konkret angegeben werden sollte. 2. "Bezirksgericht" — korrekte Bezeichnung des Gerichts prüfen. Ich habe keine Korrekturen vorgenommen. Die oben markierten Stellen erfordern menschliche Prüfung und Entscheidung.

Quellen & Methodik

  • Aftonbladet „Buddy Reader” und AI Buffet: WAN-IFRA, „Aftonbladet serves up innovation with AI Buffet” (Juli 2024), Präsentation von Martin Schori, Deputy Managing Editor, beim WAN-IFRA World Congress Kopenhagen. Dokumentiert u.a. KI-gestützte Lektoratswerkzeuge im Newsroom-Alltag. wan-ifra.org
  • Keystone-SDA / Barnaby Skinner (NZZ): Keystone-SDA, „KI im Redaktionsalltag: Wo die Maschine hilft und der Mensch entscheidet” (2024). Zitat: „Jeder Inhalt beginnt und endet mit dem Menschen.” Human-in-the-loop-Prinzip und redaktionelle Verantwortung. keystone-sda.ch
  • Presserat zu KI-Inhalten: Deutscher Presserat, „Redaktionen auch für KI-generierte Inhalte ethisch verantwortlich” (2024). Presserechtliche Verantwortung bleibt bei der Redaktion. presserat.de
  • LLM-Fehler in Lektoratsprozessen: Naveed et al., „Navigating the impact: a study of editors’ and proofreaders’ perceptions of AI tools in editing and proofreading”, Discover Artificial Intelligence (Springer Nature, 2024). Halluzinationsraten und Fehlalarm-Muster bei LLM-gestütztem Lektorat. link.springer.com
  • MVFP-KPMG Verlagsstudie „Trusted AI”: Medienverband der freien Presse, „KI zwischen Automatisierung, Authentizität und Akzeptanz” (2024). KI-Nutzung in Redaktionen und ethische Standards. mvfp.de
  • LanguageTool-Preise: Veröffentlichte Tarife LanguageTooler GmbH, Stand Mai 2026. languagetool.org
  • Fehlerhäufigkeit und Tageszeit: Erfahrungswerte aus redaktionellen KI-Implementierungen; DFKI-Handbuch für Redaktionen zum KI-Einsatz (DFKI Wegweiser KI, 2024). Kognitive Belastungsforschung zur Prüfleistung im Schichtverlauf — Schätzwerte, keine repräsentative Studie.

Du willst wissen, ob dein Fehlerprofil konkret genug ist, um es in einen System-Prompt zu packen — oder ob du zuerst euren Hausstil-Prozess durchleuchten solltest? Meld dich — das klären wir gemeinsam in einem kurzen Gespräch.

Diesen Inhalt teilen:

🤝

Interesse an diesem Use Case?

Schreib uns, wenn du mehr erfahren oder diesen Use Case für dein Unternehmen umsetzen möchtest. Wir melden uns zeitnah bei dir.

Deine Daten werden ausschließlich zur Bearbeitung deiner Anfrage verwendet (Art. 6 Abs. 1 lit. b DSGVO). Mehr in unserer Datenschutzerklärung.

Kostenloser Newsletter

Bleib auf dem neuesten
Stand der KI

Wähle deine Themen und erhalte relevante KI-News, Praxistipps und exklusive Inhalte direkt in dein Postfach – kein Spam, jederzeit abmeldbar.

Was interessiert dich? Wähle 1–3 Themen — du bekommst nur Inhalte dazu.

Mit der Anmeldung stimmst du unserer Datenschutzerklärung zu. Jederzeit abmeldbar.

Kostenlos
Kein Spam
Jederzeit abmeldbar