KI-Redaktionsassistent für Schlussredaktion und Lektorat
KI fungiert als strukturierter Checklisten-Assistent in der Schlussredaktion — prüft Artikel gegen Hausorthografie, Stilguide und redaktionsspezifische Fehlerprofile, bevor das Vier-Augen-Prinzip greift.
- Problem
- Unter Deadlines wächst das Tempo, sinkt die Sorgfalt. Die Schlussredaktion von 40 Artikeln pro Tag mit zwei Personen funktioniert morgens anders als um 17:45 — und genau dort passieren die Fehler, die 200 Kommentare provozieren.
- KI-Lösung
- Ein zweistufiges System aus regelbasiertem NLP (LanguageTool) und LLM-basiertem Checklisten-Assistenten prüft jeden Artikel gegen Hausorthografie, spezifische Fehlerprofile und Stilrichtlinien. Die Schlussredaktion bekommt eine priorisierte Markierungsliste, kein Rohergebnis — und konzentriert sich auf das, was nur Journalistinnen und Journalisten entscheiden können.
- Typischer Nutzen
- Fehlerrate bei Rechtschreibung und Stilinkonsistenzen messbar um 40–60 % reduziert; Schlussredaktionszeit je Artikel von 30–60 auf 10–20 Minuten verkürzt; faktische Klärungsaufgaben besser priorisiert.
- Setup-Zeit
- LanguageTool sofort; vollst. Stilguide-Prompt: 2–4 Wochen
- Kosteneinschätzung
- LanguageTool Teams ab 18 €/Nutzer/Monat; LLM-API für 40 Artikel/Tag unter 20 €/Monat; Gesamtkosten ca. 95–110 €/Monat
Es ist Freitag, 17:43 Uhr.
Tanja Mertens ist seit elf Jahren Schlussredakteurin bei einem regionalen Nachrichtenportal. Zusammen mit einem Kollegen trägt sie täglich die Verantwortung für 35 bis 45 Artikel, die vor der Veröffentlichung freigegeben werden müssen. Morgens läuft das gut. Um 17:43 Uhr, nach dem sechsten Kaffee und zwanzig fertigen Texten, läuft es weniger gut.
Der Artikel um 17:43 Uhr handelt von einem Gerichtsurteil. Ein Lokalpolitiker wurde in erster Instanz verurteilt — aber noch nicht rechtskräftig, was einen erheblichen Bedeutungsunterschied macht. Der Satz im Artikel lautet: „Das Urteil ist damit endgültig.” Er lautet nicht endgültig. Tanja liest darüber hinweg, weil sie in dieser Minute auch noch drei andere Texte im Browser offen hat und einer davon fünf Minuten vor Redaktionsschluss online muss.
Der Artikel geht live. 214 Kommentare. Ein Anruf vom Anwalt des Politikers am nächsten Morgen. Eine Korrektur mit Entschuldigungszeile. Und das Bewusstsein, dass das kein menschliches Versagen war — sondern ein systemisches. Zwei Personen, 40 Artikel, acht Stunden, unterschiedliche Aufmerksamkeitskurven über den Tag. Das Ergebnis ist so vorhersehbar wie vermeidbar.
Das ist kein Einzelfall. Das ist jeden Freitagnachmittag, in jeder Redaktion, die unter Volumen und Deadlines arbeitet.
Das echte Ausmaß des Problems
Die Schlussredaktion ist der letzte Filter vor der Öffentlichkeit. In Online-Redaktionen mit täglichem Artikelvolumen ist dieser Filter strukturell überlastet.
Studien zur kognitiven Belastung zeigen, dass Fehlererkennungsleistung bereits nach 90 Minuten konzentrierter Lektüre signifikant abnimmt. In einer Redaktion mit 40 Artikeln pro Tag und zwei Schlussredakteurinnen und -redakteuren bedeutet das: Jede Person liest im Schnitt 20 Artikel. Wenn die ersten fünf sorgfältig geprüft werden, werden die letzten fünf unter Zeitdruck gescannt. Die Fehlerwahrscheinlichkeit in Artikel 20 ist strukturell höher als in Artikel 1 — nicht wegen Nachlässigkeit, sondern wegen Erschöpfung.
Was in der Praxis fehlt, sind drei Kategorien systematischer Aufmerksamkeit:
- Stilkonsistenz mit dem Hausmanual: Wird „Bundesland” konsequent kleingeschrieben? Nutzt die Redaktion „beziehungsweise” oder „bzw.”? Viele Redaktionen haben klare Regeln — die in der Hektik nicht jeder kennt, und die kein Mensch für 40 Artikel täglich nachschlagen kann.
- Redaktionsspezifische Fehlermuster: Jede Redaktion wiederholt dieselben Fehler. Verwechslung von Prozent und Prozentpunkten. Aktiv statt Passiv in Gerichtstexten. Falsches Genus bei bestimmten Institutionsnamen. Diese Fehler sind bekannt — aber das Wissen ist nirgends strukturiert festgehalten.
- Faktenbehauptungen, die eine zweite Prüfung verdienen: Jahreszahlen, Amtstitel, Gesetzesbezeichnungen — Stellen im Text, die KI zwar nicht faktisch prüfen kann, aber als prüfwürdig markieren kann.
Laut einer WAN-IFRA-Auswertung redaktioneller KI-Implementierungen (2024) berichten Newsrooms, die KI-gestützte Qualitätsprüfung einführen, von Fehlerraten-Rückgängen zwischen 35 und 60 Prozent bei den Fehlerklassen, die explizit im System definiert wurden. Das schwedische Nachrichtenportal Aftonbladet entwickelte unter der Leitung von Deputy Managing Editor Martin Schori 2024 das interne Tool „Buddy Reader” — ein KI-gestütztes Lektorat-Werkzeug, das Journalistinnen und Journalisten Rückmeldungen zu Satzstruktur, Wiederholungen, Rechtschreibfehlern und Schwächen in der Argumentation gibt.
Der entscheidende Unterschied: Das System ersetzt den redaktionellen Blick nicht — es macht ihn präziser.
Mit vs. ohne KI — ein ehrlicher Vergleich
| Kennzahl | Ohne KI-Unterstützung | Mit KI-Redaktionsassistent |
|---|---|---|
| Schlussredaktion je Artikel | 30–60 Minuten | 10–20 Minuten ¹ |
| Erkannte Stilinkonsistenzen vor Veröffentlichung | Stark abhängig von Tageszeit und Auslastung | Konsistent, unabhängig von Tageszeit |
| Abdeckung des Hausorthografie-Regelwerks | Teilweise — kein Mensch kennt 200 Regeln auswendig | Vollständig, für alle definierten Regeln |
| Priorisierung von Prüfaufwand | Gleiche Zeit für einfache und risikobehaftete Stellen | Markierungsliste priorisiert riskante Passagen zuerst |
| Fehlerraten bei definierten Fehlerklassen | Basis-Level | Rückgang 40–60 % ² |
| Abendliche Qualitätsdegradierung | Unvermeidlich — systemisch | Stark reduziert, KI prüft konstant |
¹ Durch priorisierte Markierungsliste statt vollständiges Durchlesen; erfahrungsgemäße Schätzwerte aus vergleichbaren Implementierungen. ² Quelle: WAN-IFRA AI in News Report, 2024; gilt für explizit definierte Fehlerklassen, nicht für inhaltliche Fehler.
Einschätzung auf einen Blick
Zeitersparnis — hoch (4/5) Schlussredaktion bedeutet heute: jede Zeile lesen, weil man nicht weiß, wo der Fehler steckt. Mit einem KI-Assistenten, der 80 Prozent der mechanischen Prüfaufgaben übernimmt, ändert sich die Tätigkeit: Schlussredakteurinnen und -redakteure lesen nur noch die markierten Stellen, bestätigen oder verwerfen — der Rest ist erledigt. In der Praxis reduziert sich der Zeitaufwand je Artikel um 50 bis 70 Prozent für den mechanischen Teil. Nicht bewertet wurde Zeitersparnis 5, weil inhaltlich-journalistische Prüfung menschliche Lesezeit bleibt.
Kosteneinsparung — niedrig (2/5) Die Werkzeuge sind günstig: LanguageTool Teams kostet ab ca. 18 €/Nutzer/Monat, der LLM-API-Einsatz für 40 Artikel täglich liegt bei unter 20 €/Monat. Der eigentliche Aufwand liegt in der Einrichtung — Hausorthografie digitalisieren, Fehlerprofile erstellen, den Prompt kalibrieren: zwei bis vier Wochen Arbeit. Und der Nutzen der Zeitersparnis ist real, führt aber selten zu direktem FTE-Abbau. Schlussredaktion bleibt Schlussredaktion — die Einsparung entlastet, ersetzt aber keine Stelle.
Schnelle Umsetzung — mittel (3/5) LanguageTool ist in wenigen Stunden eingerichtet — Browser-Extension, Word-Add-in, fertig. Der wirklich wertvolle Teil, der LLM-basierte Checklisten-Assistent mit redaktionsspezifischem Fehlerprofil, braucht Vorbereitung: Hausorthografie muss schriftlich vorliegen, die häufigsten Fehler müssen analysiert und kategorisiert werden. Das ist keine KI-Aufgabe — das ist Redaktionsarbeit. Wer das überspringt, baut eine generische Prüfroutine, keine redaktionsspezifische. Der Zeitplan unterscheidet diese Einführung von schnelleren Automatisierungslösungen im Branchenvergleich.
ROI-Sicherheit — hoch (4/5) Die Messbarkeit ist klar: Wie viele Fehler wurden im letzten Quartal pro 100 Artikel veröffentlicht und anschließend korrigiert? Wie lange dauerte die Schlussredaktion je Artikel vor Einführung, danach? Beide Kennzahlen sind direkt erhebbar — anders als bei Reichweiten- oder Engagement-Optimierungen, wo Kausalität selten eindeutig ist. Der Vorbehalt: Das System prüft nur, was definiert wurde. Faktische Fehler und journalistische Beurteilungsfragen bleiben menschliche Aufgabe und entziehen sich der Messung.
Skalierbarkeit — sehr hoch (5/5) Das ist die zentrale Stärke dieses Anwendungsfalles: Artikel 40 eines Tages kostet denselben API-Aufwand wie Artikel 1. Ein System-Prompt prüft 200 Artikel täglich genauso vollständig wie 20 — ohne Erschöpfung, ohne Aufmerksamkeitsverlust, ohne Mehrkosten. Wenn das Redaktionsvolumen wächst — mehr Ressorts, mehr Formate, eine neue Redaktion im Verbund — muss die KI-Prüfung nicht proportional teurer oder langsamer werden.
Richtwerte — stark abhängig von Redaktionsgröße, Artikelvolumen und Grad der Hausorthografie-Dokumentation.
Was der KI-Redaktionsassistent konkret macht
Der Assistent ist kein Faktenchecker und kein Ersatz für das Vier-Augen-Prinzip. Er ist ein strukturierter Checklisten-Assistent — er prüft jeden Artikel automatisch gegen einen definierten Regelkatalog und liefert der Schlussredaktion eine priorisierte Markierungsliste. Die Entscheidung liegt immer beim Menschen.
Die zwei Prüfebenen
Ebene 1: Regelbasierte Formalkorrektheit via LanguageTool Teams.
Das übernimmt: Rechtschreibung, Grammatik, Zeichensetzung, Silbentrennung. Zusätzlich das, was LanguageTool besonders gut kann: Hausorthografie als Regelset hinterlegen. „Bundesland” wird in dieser Redaktion so geschrieben, nicht anders. „dpa” immer in Kleinbuchstaben. „Oberbürgermeisterin” statt „Bürgermeisterin” für bestimmte Ämter. Diese Regeln werden im Team-Wörterbuch hinterlegt und gelten für alle Artikel, die alle Mitglieder des Teams schreiben.
Ebene 2: LLM-basierte Fehlerprofil-Prüfung via LLM (z.B. Claude oder ChatGPT API).
Das übernimmt: Ein Prompt lädt den Artikel und prüft ihn gegen ein redaktionsspezifisches Fehlerprofil. Dieses Profil enthält:
- Die sieben häufigsten Fehlerklassen dieser Redaktion der letzten sechs Monate (z.B.: Passivkonstruktionen in Gerichtstexten, die den Urteilsstatus verzerren; Verwechslung von „mehr als” und „über” bei Zahlenangaben; fehlende Differenzierung zwischen erstinstanzlichen und rechtskräftigen Urteilen)
- Passagen im Text, die eine faktenprüfwürdige Aussage enthalten (Jahreszahlen, Amtsbezeichnungen, Gesetze, Zeitangaben) — nicht geprüft, aber als prüfwürdig markiert
- Sätze mit mehrdeutiger Kausalität oder unklar zugeordneten Aussagen (Wer hat was wann gesagt?)
- Artikel, die bestimmte stilistische Grenzregeln verletzen: Passivkonstruktionen in aktivem Erzählstil, Modalverb-Stapelung, unverhältnismäßig lange Satzgefüge
Das System gibt kein binäres „Fehler gefunden / nicht gefunden” zurück, sondern eine Liste mit Signifikanz-Einschätzungen: „Diese Passage sollte vor Veröffentlichung geprüft werden, weil…” — und die Schlussredaktion entscheidet.
Was das System nicht tut
- Es erfüllt keine journalistische Sorgfaltspflicht. Diese liegt nach wie vor vollständig bei der Redaktion — dazu unten mehr.
- Es prüft keine Fakten. Es markiert nur Stellen als prüfwürdig.
- Es erkennt keine falschen Quellen. Wer die dpa mit Bild verwechselt, bleibt menschliche Aufgabe.
- Es ersetzt keine Redaktionskonferenz. Journalistische Relevanz- und Qualitätsurteile sind keine LLM-Aufgabe.
Presserecht und Sorgfaltspflicht — was die KI beim Lektorat NICHT übernehmen kann
Dieser Abschnitt ist kein rechtlicher Ausrutscher — er gehört in jede seriöse Diskussion über KI in der Schlussredaktion.
Der Deutsche Presserat hat in seiner Stellungnahme von 2024 klargestellt: Die presseethische Verantwortung liegt uneingeschränkt bei der Redaktion — auch für Inhalte, an denen KI-Werkzeuge beteiligt waren. Wer einen Text mit KI-Unterstützung geprüft hat und ihn veröffentlicht, trägt dieselbe Haftung wie ohne KI-Prüfung. Die KI ist ein Werkzeug, kein Verantwortungsträger.
Das ist keine Einschränkung des Nutzens — es ist eine notwendige Klarstellung, damit dieser Nutzen richtig eingesetzt wird.
Was das für die Einführung bedeutet:
Faktenprüfung bleibt menschlich. Ein LLM, das Artikel gegen ein Fehlerprofil prüft, halluziniert gelegentlich — und zwar nicht zufällig, sondern oft in Richtung plausibler Fehler. Eine Springer-Nature-Studie zu KI in Lektoratsprozessen (2024) stellte fest, dass LLMs bei der Prüfung längerer Texte Aussagen ohne Beleg als Bewertungen umformulieren und attribuierte Meinungen in allgemeine Aussagen verwandeln. In einem Gerichtsreportage-Kontext ist das gefährlich. Das System muss so konfiguriert sein, dass es nur Stellen markiert — und niemals korrigiert.
Journalistische Beurteilung nicht delegierbar. Ist ein Sachverhalt ausreichend recherchiert? Ist eine Quelle zuverlässig genug für eine unverifizigte Behauptung? Ist ein Bericht einseitig? Diese Fragen kann kein Sprachmodell beantworten — weil sie Kontextwissen voraussetzen, das nicht im Artikel steht.
Passiv im Gerichtstext ist kein Stilfehler. Ein LLM, das generell auf passive Konstruktionen hinweist, wird in Gerichtstexten genau die Formulierungen markieren, die aus presserechtlichen Gründen korrekt sind. „Der Angeklagte wurde zu drei Jahren Haft verurteilt” ist keine stilistische Schwäche — es ist die einzig korrekte Formulierung für eine nicht-rechtskräftige Verurteilung, die den Angeklagten nicht als Täter bezeichnet, bevor das Urteil gilt. Stilregeln für KI-Prüfungen müssen diese Kontexte explizit ausschließen.
Die KI verdeckt keine Verantwortung. Wenn ein Artikel trotz KI-Prüfung einen presserechtlich problematischen Fehler enthält und veröffentlicht wird, ist das ein redaktionelles Versagen — nicht ein Systemversagen. Die Schlussredakteurin oder der -redakteur, der freigegeben hat, trägt die volle Verantwortung. Die KI ist ein Unterstützungswerkzeug, das die menschliche Prüfung effizienter macht — sie ersetzt sie nicht.
Dieser Abschnitt ist eine inhaltliche Einschätzung, keine Rechtsberatung. Bei presserechtlichen Fragen zur Einführung von KI in redaktionelle Prozesse sollte Rechtsberatung eingeholt werden.
Konkrete Werkzeuge — was wann passt
LanguageTool Teams — die Basisinfrastruktur
Für deutschsprachige Redaktionen ist LanguageTool die erste Wahl beim regelbasierten Korrektorat. Der entscheidende Unterschied zum kostenlosen Plan: das Team-Wörterbuch und der Regel-Editor. Hausorthografie, Schreibkonventionen, redaktionsspezifische Termini — alles zentral hinterlegt, gilt für alle Texte aller Mitarbeitenden. EU-Hosting (Potsdam), AVV verfügbar, Open-Source-Engine kann selbst gehostet werden. Kosten: ab ca. 18 €/Nutzer/Monat im Teams-Tarif.
Wenn nicht geeignet: Für strukturelle, inhaltliche oder journalistisch-beurteilende Prüfaufgaben. Und für tiefes Gerichtstextlektorat — die generellen Stilvorschläge müssen durch redaktionsspezifische Ausnahmeregeln ergänzt werden.
Claude oder ChatGPT API — der LLM-basierte Checklisten-Assistent
Für die zweite Prüfebene — das redaktionsspezifische Fehlerprofil — eignet sich ein LLM-Aufruf über die API. Claude (Sonnet oder Haiku) oder ChatGPT (GPT-4o-mini für Effizienz, GPT-4o für komplexere Texte) lassen sich mit einem detaillierten System-Prompt gegen jeden Artikel laufen lassen. Die API-Kosten für 40 Artikel täglich liegen bei unter 20 €/Monat — der günstigste Teil der gesamten Infrastruktur.
Unterschied zwischen den Modellen für diesen Anwendungsfall: Claude neigt in Tests zu etwas niedrigeren Fehlalarmquoten bei komplexem Deutsch (Konjunktiv I in indirekter Rede, Genitiv-Konstruktionen) — weil es tendenziell zurückhaltender als ChatGPT bei der Markierung von Konstruktionen ist, die mehrdeutig, aber nicht falsch sind. Das ist in einer Schlussredaktion relevant: Jeder unnötige Hinweis trainiert die Redakteurin oder den Redakteur, Hinweise zu ignorieren.
Zusammenfassung: Wann welcher Ansatz
- Formale Rechtschreibung und Hausorthografie → LanguageTool Teams
- Redaktionsspezifisches Fehlerprofil + Markierung prüfwürdiger Stellen → LLM via API (Claude oder ChatGPT)
- Kombiniert: LanguageTool als erste Ebene im Editor, LLM-Checkliste als zweite Ebene vor Freigabe
- Duden Mentor: eine Alternative zu LanguageTool mit stärkerem akademischen Profil — sinnvoll für Publikationen mit gehobenen Sprachansprüchen, aber ohne eigenes Teamwörterbuch-Feature auf LanguageTool-Niveau
Datenschutz und Datenhaltung
Redaktionsinhalte enthalten vor der Veröffentlichung personenbezogene Daten — Namen von Personen, Ortsangaben, manchmal sensible Details, die in der Endfassung möglicherweise nicht erscheinen. Das macht die Datenschutzfrage besonders wichtig.
LanguageTool Teams: Deutsche GmbH (Potsdam), EU-Hosting, AVV verfügbar. Im Premium- und Teams-Tarif werden Texte laut Anbieter nicht für KI-Training verwendet. Für die maximale Kontrolle: LanguageTool kann als Open-Source-Engine selbst gehostet werden — auch auf eigener Infrastruktur ohne Drittanbieter. Für Verlage mit besonders sensiblen unveröffentlichten Texten ist das die sauberste Lösung.
LLM-API (ChatGPT / Claude): Hier ist mehr Sorgfalt gefragt. Unveröffentlichte Texte — mit personenbezogenen Daten, die in der Endfassung möglicherweise nicht erscheinen — werden an externe APIs übertragen. Das erfordert:
- DSGVO-konforme Einwilligungsprüfung und interne Richtlinien
- AVV mit dem jeweiligen Anbieter (OpenAI und Anthropic bieten das an)
- Für sehr sensible Inhalte: Erwägung, ob eine lokale Lösung (z.B. ein auf eigener Infrastruktur laufendes Open-Source-Modell via Ollama) die bessere Wahl ist
Der sicherste Workflow: Texte vor dem API-Aufruf pseudonymisieren — Namen durch Platzhalter ersetzen, sodass das Modell nur den stilistischen und formalen Kontext prüft, nicht die konkreten Personen. Das Mapping kann lokal gespeichert und anschließend zurückgespielt werden.
EU AI Act: LLM-basierte Prüfsysteme in Redaktionen fallen unter die EU AI Act-Klassifizierung — die konkrete Risikoklasse hängt vom Einsatz ab. Für reine Stilprüfung ohne automatisierte Entscheidungsfindung ist das Risikoprofil niedrig. Empfehlung: Interne KI-Richtlinie dokumentieren und den Einsatz für Personaldokumentation oder Vergütungsentscheidungen explizit ausschließen.
Was es kostet — realistisch gerechnet
Einmalige Einrichtungskosten
Der teurere Teil ist die Vorarbeit, nicht die Software:
- Hausorthografie und Stilguide schriftlich fixieren (falls noch nicht vollständig dokumentiert): 1–3 Wochen Aufwand intern, Ressourcenkosten je nach Redaktionsgröße. Häufig gibt es Grunddokumente, die nur ergänzt werden müssen.
- Fehlerprofil erstellen: Analyse der letzten 100–200 Korrekturen und Korrekturhinweise — welche Fehlerklassen treten wie oft auf? Das dauert 1–2 Tage.
- Prompt entwickeln und kalibrieren: 3–5 Iterationsrunden, je 2–4 Stunden. Wichtig: Kalibrierung auf Fehlalarmquote — zu viele irrelevante Hinweise machen das System wertlos.
- Externe Unterstützung (optional): 1.000–4.000 € für einen Tag Prompt-Engineering-Workshop mit einem erfahrenen Dienstleister.
Laufende Kosten (monatlich)
| Posten | Kosten |
|---|---|
| LanguageTool Teams (5 Personen) | ca. 90 €/Monat |
| LLM-API (40 Artikel/Tag via GPT-4o-mini oder Claude Haiku) | 5–20 €/Monat |
| LLM-API (40 Artikel/Tag via GPT-4o oder Claude Sonnet) | 20–60 €/Monat |
| Pflege Fehlerprofil (ca. 1h/Monat intern) | Personalaufwand |
| Gesamt (Basisvariante) | ca. 95–110 €/Monat |
Wie der ROI tatsächlich messbar ist
Die einfachste Messmethode: Zähle die veröffentlichten Korrekturnachrichten, Nachbesserungen und Leserhinweise auf Fehler pro Quartal — und messe wieder, nachdem das System drei Monate läuft. Wenn die Fehlerrate bei den definierten Fehlerklassen um 40–60 Prozent sinkt, hat das System geliefert, was es kann.
Für die Zeitersparnis: Zeitmessung einer Stichprobe von zehn Artikeln vorher und nachher. Bei einem durchschnittlichen Schlussredakteur-Stundensatz von 25–40 Euro brutto und einer Einsparung von 20 Minuten je Artikel bei 40 Artikeln täglich ergibt das: ca. 13 Person-Stunden täglich (800 Minuten) — also rund 6–7 Stunden je Person in einem Zweier-Team, was bei 25 € je Stunde rund 325 €/Tag oder 6.500–7.000 €/Monat (22 Arbeitstage) entspricht. Da die eingesparte Zeit jedoch nicht eins zu eins in andere Aufgaben umgewandelt wird, ist das Deckeneffekt-Szenario: Im konservativen Szenario mit 30 Prozent tatsächlich realisierter Einsparung sind das noch immer 2.000–2.100 €/Monat — bei Werkzeugkosten von 100–110 €.
(Zeitersparnis-Kalkulation als Orientierungswert; tatsächlicher Nutzen hängt davon ab, ob die eingesparte Zeit in anderen journalistischen Aufgaben produktiv eingesetzt wird.)
Vier typische Einstiegsfehler
1. Mit einem generischen Prompt starten. „Prüfe diesen Artikel auf Fehler” ist kein Prompt — es ist ein Auftrag ohne Maßstab. Ein generisches LLM ohne redaktionsspezifisches Fehlerprofil prüft gegen seine eigenen Qualitätsurteile, nicht gegen die Maßstäbe der Redaktion. Das Ergebnis: Stilvorschläge, die den Hausorthografie-Regeln widersprechen, und Fehlalarme, die das Team innerhalb einer Woche darin trainieren, den Assistenten zu ignorieren. Lösung: Das Fehlerprofil vor dem ersten Test-Prompt fertigstellen.
2. Passiv-Markierung ohne Ausnahmeregeln für Gerichtstexte. Jedes gut trainierte LLM und jede Stilprüfung erkennt Passivkonstruktionen als potenzielle Schwäche. In einem allgemeinen Kontext stimmt das. In einem Gerichtsbericht ist die Passivkonstruktion die presserechtlich korrekte Formulierung — sie vermeidet die Suggestion von Schuld, die eine Aktivformulierung implizieren würde. Wer das nicht als Ausnahmeregel definiert, trainiert die Redaktion, ausgerechnet die presserechtlich korrekten Formulierungen umzuschreiben. Das Ergebnis kann teurer werden als kein System.
3. Das System einrichten und dann nicht pflegen. Das Fehlerprofil veraltet. Neue häufige Fehler entstehen, alte verschwinden. Eine Stilregel, die 2024 für ein bestimmtes Ressort korrekt war, kann 2026 überholt sein. Wer das System nach der Einrichtung sich selbst überlässt, hat nach 18 Monaten ein Prüfsystem, das gegen veraltete Maßstäbe prüft — und systematisch die falschen Stellen markiert. Lösung: Einen monatlichen 30-Minuten-Check einplanen: Welche der letzten 20 Korrekturen hätte das System markiert — und welche nicht? Das ist gleichzeitig das Feedback-Signal für die nächste Prompt-Anpassung.
4. Hinweis-Überflutung durch zu viele Markierungen. Wenn das System jeden Artikel mit 30 Hinweisen zurückgibt, öffnen Schlussredakteurinnen und -redakteure die Liste nicht mehr. Die kritische Designentscheidung ist nicht, was markiert wird, sondern was nicht markiert wird. Priorität 1 (Sofort prüfen) sollte maximal 3–5 Stellen pro Artikel enthalten. Alles andere kann in einer separaten „Zur Kenntnis”-Liste landen, die bei Bedarf geöffnet wird.
Was mit der Einführung wirklich passiert — und was nicht
Die technische Einrichtung ist der einfachere Teil. Das Schwierigere ist die redaktionsinterne Akzeptanz.
Der „KI-misstraut-mir”-Effekt. Erfahrene Schlussredakteurinnen und -redakteure reagieren auf ein System, das ihnen sagt, was sie prüfen sollen, zunächst mit Widerstand — weil es so klingt, als wolle eine Maschine ihren Beruf neu definieren. Was hilft: das System wird nicht als Überprüfung der Redakteurin oder des Redakteurs positioniert, sondern als Unterstützung gegen systemische Erschöpfung. „Du arbeitest am Abend genauso gut wie morgens — das System hilft dabei” ist eine andere Botschaft als „Das System findet, was du übersiehst.”
Die Hausstil-Archäologie. In fast jeder Redaktion existiert ein Hausstil-Dokument — und daneben eine Praxis, die vom Dokument an 15 Stellen abweicht. Wenn Stilregeln in einen System-Prompt eingebaut werden, wird sofort sichtbar, welche Regeln tatsächlich gelten und welche nur auf dem Papier stehen. Das ist nicht angenehm, aber wertvoll — die Einführung des Systems wird zum Anlass, den echten Hausstil zu dokumentieren.
Die ersten drei Wochen sind Kalibrierung, nicht Betrieb. Das System prüft beim ersten Lauf nicht optimal. Der erste Prompt enthält Lücken, die erst im Betrieb sichtbar werden — Formulierungen, die als Fehler markiert werden und keine sind; Fehlerklassen, die nicht erkannt werden, obwohl sie auftreten. Plant drei bis vier Iterations-Runden ein, bevor das System im Vollbetrieb verwendet wird.
Was konkret hilft:
- Die Schlussredaktion frühzeitig in die Fehlerprofil-Erstellung einbinden — sie kennt die häufigsten Fehler besser als jede Analyse
- Eine „Feedbackschleife” institutionalisieren: Wenn ein Hinweis sich als Fehlalarm herausstellt, wird das in einer geteilten Notiz dokumentiert — nächster Monat wird der Prompt entsprechend angepasst
- Den Unterschied zwischen Ebene 1 (LanguageTool) und Ebene 2 (LLM-Checkliste) klar kommunizieren: LanguageTool prüft Formales, der LLM-Assistent prüft redaktionsspezifisch — beide sind komplementär, nicht redundant
Realistischer Zeitplan mit Risikohinweisen
| Phase | Dauer | Was passiert | Typisches Risiko |
|---|---|---|---|
| Hausorthografie-Inventur | Woche 1–2 | Hausstil-Dokument prüfen, Lücken identifizieren, echte vs. dokumentierte Praxis abgleichen | Dokument ist veraltet oder unvollständig — mehr Arbeit als erwartet |
| Fehlerprofil erstellen | Woche 2–3 | Letzte 100–200 Korrekturen auswerten, häufigste Fehlerklassen kategorisieren | Korrekturen nicht systematisch dokumentiert — manuelle Analyse aufwendiger |
| Prompt-Entwicklung Ebene 2 | Woche 3–4 | Ersten LLM-Prompt entwickeln, gegen historische Artikel testen, Fehlalarmquote messen | Zu hohe Fehlalarmquote — mehrere Iterationen nötig |
| Pilottest mit 5 Artikeln täglich | Woche 4–5 | Parallelbetrieb: System und Mensch prüfen unabhängig, Abgleich der Ergebnisse | Zeitaufwand des Abgleichs wird unterschätzt — Puffer einplanen |
| LanguageTool Teams einrichten | Woche 3 | Konten anlegen, Hausorthografie im Wörterbuch hinterlegen, Team einführen | Einarbeitungszeit: nicht alle erfahrenen Redakteurinnen und Redakteure öffnen Add-ins sofort |
| Vollbetrieb + Monitoring | Ab Woche 6 | Beide Ebenen im Echtbetrieb, monatliches Feedback-Meeting, Fehlalarmquote verfolgen | Kalibrierungsaufwand hört nicht auf — monatlich 30 Minuten ist realistisch |
Häufige Einwände — und was dahintersteckt
„Wir haben schon LanguageTool als Browser-Extension.” Einzelne Browser-Extensions sind nicht dasselbe wie ein Team-Wörterbuch. Wenn jede Person ihr eigenes Profil pflegt, gibt es keine gemeinsame Basis für Hausorthografie-Regeln — und kein gemeinsames Wörterbuch, das neue Mitarbeitende sofort korrekt prüft. Erst das Team-Setup macht aus einem Einzelwerkzeug eine redaktionelle Infrastruktur.
„ChatGPT halluziniert. Das kann ich in der Schlussredaktion nicht gebrauchen.” Richtig — und deshalb macht das System keine inhaltlichen Korrekturen. Es markiert Stellen, die geprüft werden sollen, und begründet, warum. Eine Halluzination in einem Lektorats-Assistenten ist ein Fehlalarm — die Schlussredakteurin oder der -redakteur schaut drauf und entscheidet, dass die Stelle in Ordnung ist. Das ist anders als ein Halluzinations-Problem in einem System, das autonome Entscheidungen trifft. Der Risikopfad ist: das System setzt eine plausible Ergänzung in den Text ein — das tut ein Lektorats-Assistent nicht. Er markiert nur.
„Wir sind eine kleine Redaktion. Das lohnt sich für uns nicht.” Kommt auf das Volumen an. Eine Redaktion mit 5 Artikeln täglich braucht dieses System nicht — der Setup-Aufwand ist nicht gerechtfertigt. Für Redaktionen ab 20–25 Artikeln täglich, insbesondere mit Themen-Schwerpunkten, bei denen Präzision besonders wichtig ist (Wirtschaft, Recht, Lokalpolitik), ist der Aufwand vertretbar. Die Schwelle liegt nicht bei der Unternehmensgröße, sondern beim täglichen Artikelvolumen.
„Der Hausstil ist in den Köpfen erfahrener Leute — den kann man nicht in einen Prompt packen.” Das ist der wichtigste Einwand — und er verweist auf das wahre Vorprojekt: den Hausstil schriftlich fixieren. Nicht für die KI, sondern für die nächste Stelle, die besetzt wird. Für den ersten Arbeitstag neuer Mitarbeitender. Für die Stelle, die jahrzehntelange Erfahrung aus der Redaktion trägt und dann in Rente geht. Der LLM-Prompt ist der Katalysator, nicht der Grund. Wer diesen Schritt macht, gewinnt auch dann, wenn das KI-System kein einziges Mal läuft.
Woran du merkst, dass das zu dir passt
- Deine Redaktion veröffentlicht täglich mehr als 20 Artikel, und die Schlussredaktion wird von maximal drei Personen getragen
- Die meisten Fehler, die du in Leserzuschriften bekommst, sind wiederkehrend — keine Überraschungen, sondern immer wieder dieselben Klassen
- Du hast ein Hausorthografie-Dokument (oder könntest eines erstellen), das mehr als zehn konkrete Regeln enthält
- Deine Schlussredaktion arbeitet unter täglichem Zeitdruck — nicht gelegentlich, sondern strukturell: Es ist jeden Abend knapp
- Du unterscheidest zwischen Formalkorrektheit und journalistischer Qualität — und suchst ein Werkzeug, das nur Erstere automatisiert, nicht Letzteres beurteilt
Wann es sich (noch) nicht lohnt — drei harte Ausschlusskriterien:
-
Weniger als 15–20 Artikel täglich. Der Einrichtungsaufwand (Hausorthografie dokumentieren, Fehlerprofil erstellen, Prompt kalibrieren) amortisiert sich bei kleinem Volumen nicht. Eine Redaktion, die zehn Artikel täglich veröffentlicht, braucht eine halbe Schlussredaktionsstelle — nicht ein KI-System. Erst ab einem gewissen Volumen ändert sich das Verhältnis.
-
Kein dokumentierter Hausstil. Das System prüft gegen Regeln. Wenn die Regeln in den Köpfen erfahrener Redakteurinnen und Redakteure leben und nicht auf Papier existieren, kann das System nichts durchsetzen, was nicht definiert ist. Das Vorprojekt ist immer die Dokumentation — nicht die KI. Wer diesen Schritt überspringt und hofft, die KI löst das Problem, landet bei einem generischen Stilassistenten, der gegen eigene Maßstäbe prüft.
-
Keine technische Infrastruktur für API-Zugriff. Das LLM-basierte Checklisten-System setzt voraus, dass jemand in der Redaktion — oder in der IT — eine einfache API-Anbindung bauen kann. Das ist kein Entwicklerprojekt, aber es braucht jemanden, der einen Skript-Aufruf einrichten kann, der Artikeltext an eine API schickt und das Ergebnis zurückgibt. Wer das nicht intern kann und keinen externen Dienstleister beauftragen will, bleibt bei Ebene 1: LanguageTool — was schon erheblich besser ist als gar nichts.
Das kannst du heute noch tun
Öffne den letzten Artikel, der in deiner Redaktion nachträglich korrigiert wurde — entweder wegen eines Leserhinweises oder weil ihr selbst einen Fehler entdeckt habt. Schau dir an, welche Fehlerklasse das war. Formuliere drei Sätze, die beschreiben, wie dieser Fehler in Zukunft erkannt werden soll. Das ist der Kern des Fehlerprofils, das du brauchst.
Wenn du fünf dieser Beispiele hast, bist du bereit für den ersten Prompt-Test. Lade einen unveröffentlichten Artikel in Claude oder ChatGPT und füge diese Fehlerprofil-Beschreibung als System-Anweisung hinzu. Das dauert 30 Minuten — und zeigt dir sofort, ob das Konzept für eure Redaktion funktioniert.
Mitarbeiter:in
KI-Assistent
Quellen & Methodik
- Aftonbladet „Buddy Reader” und AI Buffet: WAN-IFRA, „Aftonbladet serves up innovation with AI Buffet” (Juli 2024), Präsentation von Martin Schori, Deputy Managing Editor, beim WAN-IFRA World Congress Kopenhagen. Dokumentiert u.a. KI-gestützte Lektoratswerkzeuge im Newsroom-Alltag. wan-ifra.org
- Keystone-SDA / Barnaby Skinner (NZZ): Keystone-SDA, „KI im Redaktionsalltag: Wo die Maschine hilft und der Mensch entscheidet” (2024). Zitat: „Jeder Inhalt beginnt und endet mit dem Menschen.” Human-in-the-loop-Prinzip und redaktionelle Verantwortung. keystone-sda.ch
- Presserat zu KI-Inhalten: Deutscher Presserat, „Redaktionen auch für KI-generierte Inhalte ethisch verantwortlich” (2024). Presserechtliche Verantwortung bleibt bei der Redaktion. presserat.de
- LLM-Fehler in Lektoratsprozessen: Naveed et al., „Navigating the impact: a study of editors’ and proofreaders’ perceptions of AI tools in editing and proofreading”, Discover Artificial Intelligence (Springer Nature, 2024). Halluzinationsraten und Fehlalarm-Muster bei LLM-gestütztem Lektorat. link.springer.com
- MVFP-KPMG Verlagsstudie „Trusted AI”: Medienverband der freien Presse, „KI zwischen Automatisierung, Authentizität und Akzeptanz” (2024). KI-Nutzung in Redaktionen und ethische Standards. mvfp.de
- LanguageTool-Preise: Veröffentlichte Tarife LanguageTooler GmbH, Stand Mai 2026. languagetool.org
- Fehlerhäufigkeit und Tageszeit: Erfahrungswerte aus redaktionellen KI-Implementierungen; DFKI-Handbuch für Redaktionen zum KI-Einsatz (DFKI Wegweiser KI, 2024). Kognitive Belastungsforschung zur Prüfleistung im Schichtverlauf — Schätzwerte, keine repräsentative Studie.
Du willst wissen, ob dein Fehlerprofil konkret genug ist, um es in einen System-Prompt zu packen — oder ob du zuerst euren Hausstil-Prozess durchleuchten solltest? Meld dich — das klären wir gemeinsam in einem kurzen Gespräch.
Diesen Inhalt teilen:
Interesse an diesem Use Case?
Schreib uns, wenn du mehr erfahren oder diesen Use Case für dein Unternehmen umsetzen möchtest. Wir melden uns zeitnah bei dir.
Weitere Use Cases
KI-gestützte Recherche für Journalisten
KI durchsucht Quellen, wertet Dokumente aus und baut Kontextwissen auf — Redakteurinnen recherchieren in einem Bruchteil der Zeit gründlicher als vorher.
Mehr erfahrenAutomatisierte Transkription für Redaktionen
KI transkribiert Interviews und O-Töne in Minuten statt Stunden — mit 90–95% Genauigkeit für klares Deutsch und vollständiger Sprechertrennung.
Mehr erfahrenSEO-Optimierung für Redaktionen
KI analysiert Artikel und generiert SEO-optimierte Überschriften, Keywords und Metatexte — mehr organische Reichweite ohne redaktionelle Qualitätseinbußen.
Mehr erfahren