Zum Inhalt springen
Kreativwirtschaft qualitaetssicherungqafreigabe

KI-Output-Qualitätssicherung vor Kundenübergabe

KI prüft fertige Kreativmaterialien systematisch gegen Briefing, Brand Guidelines und Checklisten — bevor sie den Kunden erreichen. Vier-Augen-Prinzip ohne vier Augen.

⚡ Auf einen Blick
Problem
Fehler in Kundenmaterialien kosten Vertrauen und Nacharbeit. Unter Zeitdruck werden Abgaben-Checks vergessen oder abgekürzt — und kleinere Fehler (falscher Claim, altes Logo, falsche Farbe) fallen erst beim Kunden auf.
KI-Lösung
LLM (GPT-4o oder Claude) prüft Texte und Beschreibungen per strukturiertem Prompt gegen eine Checkliste: Briefing-Ziele erfüllt? Brand-Voice eingehalten? Alle Pflichtinformationen vorhanden? Für visuelle Outputs: GPT-4o Vision analysiert KI-generierte Bilder auf Markenkonsistenz und Lizenzrisiken.
Typischer Nutzen
Qualitätsfehler um 50–70 % reduziert, kein vergessener Freigabe-Schritt, weniger Nacharbeitsrunden durch früh erkannte Fehler.
Setup-Zeit
QA-Template je Projekt-Typ: 1–3 Tage Einrichtung
Kosteneinschätzung
20–40 €/Person/Monat (ChatGPT/Claude + LanguageTool); kein Einmalaufwand für Software
ChatGPT / Claude mit QA-Prompt (kein Setup)LanguageTool zusätzlich für SprachprüfungGPT-4o Vision für KI-Bildprüfung
Worum geht's?

Es ist Donnerstag, 15:37 Uhr.

Jonas Weidner, Creative Director einer mittelgroßen Hamburger Kreativagentur, schaut auf seine Uhr. In 26 Minuten startet der Kundencall — ein Pharmaunternehmen wartet auf den Pitch für eine neue Produktlinie. Die Präsentation ist fertig, der Copy wurde letzte Woche mit ChatGPT beschleunigt, sein Texter hat überarbeitet. Alles gut.

Dann öffnet Jonas die Folie auf Seite 8. Da steht: „Klinisch belegt: Reduziert Beschwerden bei 78 % der Anwenderinnen und Anwender bereits nach vier Wochen.”

Jonas stockt. Er ruft seinen Texter an. „Woher kommt diese 78-Prozent-Zahl?” Stille. „Ich… habe ich das aus der KI-Version übernommen. Ich dachte, du hättest die Daten überprüft.” Jonas öffnet die Originalquellen im Briefing. Keine klinischen Daten. Kein Studienverweis. Keine 78 Prozent.

ChatGPT hatte die Zahl erfunden — selbstbewusst, korrekt klingend, ohne jede Grundlage. Der Texter hatte sie für einen internen Platzhalter gehalten und sie in den finalen Copy übernommen. Und niemand hatte sie gegen das Briefing geprüft.

Jonas löscht die Folie. Improvisiert eine Formulierung ohne Zahlenwert. Der Pitch läuft trotzdem gut — aber das hätte er vielleicht nicht berichten können.

Das ist kein Ausnahmefall. Das ist das strukturelle Risiko, das jede Agentur eingeht, die KI in die Produktion integriert, ohne den QA-Prozess mitzudenken.

Das echte Ausmaß des Problems

Wenn Agenturen über ihren KI-Einsatz sprechen, reden sie über Geschwindigkeit, Effizienz, Ideenvielfalt. Was selten laut diskutiert wird: Generative KI produziert mit derselben Souveränität korrekte und falsche Inhalte. Modelle unterscheiden nicht zwischen Fakten und Mustern, die wie Fakten klingen.

Laut Untersuchungen, die vom National Institutes of Health ausgewertet wurden, sind bis zu 47 Prozent der Quellenangaben, die ChatGPT in Texten macht, ungenau oder erfunden. Bei Marketingcopy, die keine wissenschaftlichen Zitate enthält, ist das Halluzinationsmuster subtiler: falsche Produkteigenschaften, nicht existierende Zertifizierungen, übertriebene Wirkversprechen — alles formuliert in einem Stil, der nach Recherchearbeit klingt.

Gleichzeitig ist KI-Einsatz in Kreativagenturen längst kein Experiment mehr. Laut dem Bericht „The State of AI in the Creative Industry” von Multiply (2024) haben 1 von 4 Kreativagenturen KI vollständig in ihre Produktionsabläufe integriert, und über 80 Prozent der Kreativprofessionals nutzen KI-Tools regelmäßig. Nur 48 Prozent dieser Agenturen haben bisher eine interne KI-Ethik-Policy.

Das Muster, das dabei entsteht: Agenturen beschleunigen die Produktion, bauen aber den Freigabe-Prozess nicht entsprechend nach. Die Qualitätssicherung läuft noch nach dem alten Modus — als wäre der Text von einem erfahrenen Texter vollständig konzipiert worden, nicht von einem Modell, das auf statistisch plausible Sprachausgabe hin trainiert ist.

Die Konsequenzen reichen von Unangenehm bis Kritisch:

  • Copytext mit falschen Claims, der durch alle Prüfstufen rutscht, weil die Zahlen überzeugend klingen
  • KI-generierte Bilder, die Elemente aus urheberrechtlich geschützten Werken reproduzieren — besonders riskant nach den Disney- und Universal-Klagen gegen Midjourney (2025)
  • Brand-Voice-Drift: Texte, die nicht gegen die Tonalität des Kunden-Brand-Books geprüft wurden, wirken in der Summe unpräzise oder generisch
  • Fehlende Pflichtinformationen: Bei Branchen mit Pflichtangaben (Pharma, Finanzdienstleistungen, Lebensmittel) ist ein ausgelassener Disclaimer nicht nur unschön — er kann Abmahnungen auslösen

Und das Tückische daran: KI-Output klingt gut. Er ist grammatikalisch korrekt, klar strukturiert und frei von den Fehlern, die man bei müden Textern um 22 Uhr erwarten würde. Deshalb läuft er oft durch Freigabe-Runden, die auf Stilfehler trainiert sind — nicht auf Faktenfehler.

Mit vs. ohne KI — ein ehrlicher Vergleich

KennzahlOhne systematischen KI-QA-CheckMit KI-gestütztem QA-Check
Halluzinierte Claims in finalen DeliverablesHäufig unbemerkt — keine Prüfebene dafürStrukturiert geprüft gegen Briefing und Quellen
Rückläufer-Runden durch inhaltliche Fehler1–2 Korrekturschleifen pro ProjektTypisch unter 0,5 — Fehler vor Übergabe identifiziert
QA-Dauer pro Deliverable30–60 Minuten (manuell, inkonsistent)10–15 Minuten (prompt-gestützt, konsistent)
Brand-Voice-Konsistenz über ProjekteVariiert stark, abhängig vom BearbeiterEinheitliche Prüfbasis für alle Projekte
Copyright-Risiko bei KI-BildernUnsichtbar ohne explizite PrüfungErkannt durch strukturierte Bildprüf-Checkliste
Onboarding neuer Mitarbeitender„Check halt nochmal alles”Checkliste und Prompt — eigenständig einsetzbar

Werte basieren auf Praxisberichten aus Agenturen sowie Angaben von Search Engine Land und Multiply (2024).

Einschätzung auf einen Blick

Zeitersparnis — niedrig (2/5) Das ist die wichtigste Ehrlichkeit zuerst: Ein strukturierter QA-Check spart keine Zeit im Vergleich zu gar keinem QA. Er spart Zeit gegenüber einer Fehler-Korrektur-Schleife nach der Kundenübergabe — aber er ist ein zusätzlicher Schritt, kein wegfallender. Im Vergleich zu anderen Anwendungsfällen in dieser Kategorie — KI-Texterstellung oder Kreative Konzeptvarianten — ist der Zeitgewinn im laufenden Workflow gering. Der Wert liegt woanders: in der Verhinderung von teurem Nacharbeitsaufwand.

Kosteneinsparung — mittel (3/5) Der Nutzen ist real, aber indirekt. Eine eingesparte Nacharbeitsrunde bei einem mittelgroßen Projekt entspricht 2–6 Stunden Arbeitszeit — bei einem Stundensatz von 80–120 Euro sind das 160–720 Euro je Vorfall. Kein direkter Kostenhebel, aber ein berechenbarer Schutz vor Rückläufern. Stärker als die Projektnachkalkulation, aber weniger direkt messbar als Werkzeuge, die Produktionsprozesse beschleunigen.

Schnelle Umsetzung — gut (4/5) Ein QA-Template lässt sich in ein bis drei Tagen aufsetzen — Briefing als Referenz-Dokument einlesen, Checkliste für den Projekttyp definieren, Prompt testen. Das ist deutlich schneller als ein vollständiges Brand Compliance Check-System (4–8 Wochen für Guidelines-Integration). Wer heute anfangen will, kann heute anfangen.

ROI-Sicherheit — mittel (3/5) Die Fehlerrate ist messbar — du kannst zählen, wie viele Probleme der KI-Check findet. Der Nutzen in Kundenzufriedenheit und Vertrauenserhalt ist real, aber schwerer als Eurobeträge auszudrücken. Besser als Use Cases mit rein indirektem Effekt, schlechter als direkte Kostenhebel wie Projektkalkulation.

Skalierbarkeit — gut (4/5) Einmal entwickelt, kostet dasselbe QA-Template wenig mehr — egal ob du es auf 5 oder 50 Projekte im Monat anwendest. Neues Projektformat? Neue Checkliste anpassen, 30 Minuten Aufwand. Das ist der echte Hebel dieser Methode: Sie skaliert mit dem Agenturwachstum ohne proportionalen Mehraufwand.

Richtwerte — stark abhängig von Projektvolumen, KI-Einsatztiefe und bestehender QA-Infrastruktur.

Was der KI-QA-Check konkret macht

Das Grundprinzip ist einfach: Ein LLM — dasselbe Modell, das den Content erzeugt hat — prüft den fertigen Output gegen eine strukturierte Checkliste. Du gibst ihm drei Dinge: den fertigen Text (oder eine Bildbeschreibung), das originale Briefing und eine Liste von Prüfkriterien. Es antwortet mit einem Report.

Das klingt trivial. Es funktioniert, weil Sprachmodelle die Fähigkeit haben, Aussagen miteinander zu vergleichen — zu prüfen, ob ein behaupteter Fakt im Referenzdokument vorkommt, ob der Tonfall mit dem Brand-Guide übereinstimmt, ob alle Pflichtinformationen enthalten sind. Sie sind schlecht darin, Fakten aus dem Nichts zu kennen — aber gut darin, Vergleiche anzustellen, wenn du ihnen die Vergleichsdokumente gibst.

Die drei Prüfebenen

Ebene 1: Fakten und Claims Jede spezifische Aussage im Text wird gegen das Briefing und die bereitgestellten Quelldokumente geprüft. Zahlen, Prozentwerte, Wirkversprechen, Auszeichnungen, Zertifizierungen — alles wird daraufhin bewertet, ob es im Ausgangsmaterial belegt ist. Was nicht belegt ist, wird als unbestätigt markiert.

Ebene 2: Brand Voice und Briefing-Ziele Ton, Wortwahl, Ansprache und inhaltlicher Fokus werden gegen den Brand Guide und die Briefing-Ziele gehalten. Ist der Text zu formal oder zu locker? Fehlen die Key Messages? Wurde die Zielgruppe richtig adressiert?

Ebene 3: Vollständigkeit und Format Sind alle Pflichtangaben vorhanden (Disclaimer, Preisangaben, Quellenhinweise)? Stimmt die Textlänge mit den Formatvorgaben überein? Wurde das richtige CTA verwendet?

Für visuelle Outputs: strukturierte Bildprüfung

Bei KI-generierten Bildern — aus Midjourney oder Adobe Firefly — funktioniert die Bildanalyse anders. Aktuelle LLMs mit Vision-Funktion (ChatGPT mit GPT-4o, Claude) können Bilder direkt analysieren. Du definierst eine Checkliste: Entsprechen die Farben der Markenpalette? Gibt es erkennbare Markensymbole oder Charaktere Dritter im Bild? Wirken die dargestellten Personen realistisch genug für Missverständnisse?

Das ist keine rechtliche Prüfung — aber es ist ein systematischer Filter, der offensichtliche Risiken abfängt, bevor ein Bild zum Kunden geht.

Welcher KI-Output braucht welche Prüftiefe

Nicht jeder KI-Output ist gleich riskant. Dieser Abschnitt beschreibt die realistische Prüftiefe je nach Ausgabe-Typ.

KI-generierter Fließtext (Claims, Produktbeschreibungen) Prüftiefe: Hoch. Das ist der gefährlichste Bereich. Halluzinationen passieren am häufigsten bei Zahlen, Studienreferenzen und Eigenschaftsangaben. Jede faktische Aussage — Prozentwerte, „klinisch erprobt”, „Testsieger” — muss gegen das Quellmaterial verifiziert werden. Prüfdauer: 10–20 Minuten je Text.

KI-generierter Image-Text (Headlines, Slogans, Social Captions) Prüftiefe: Mittel. Seltener halluzinierte Fakten, aber häufig Brand-Voice-Drift und Tonalitätsprobleme. Prüfung auf Wortwahl und Briefing-Übereinstimmung. Prüfdauer: 3–5 Minuten je Variante.

KI-generierte Bilder (Midjourney, Firefly) Prüftiefe: Mittel bis Hoch, je nach Motiv. Hauptrisiken: stilistische Abweichung, erkennbare Drittmarken im Bild, Lizenzbedingungen des Anbieters. Bei Personendarstellungen zusätzlich: Consent-Problematik. Prüfdauer: 5–10 Minuten je Bild, plus Dokumentation.

KI-generierte Voiceovers / Audio Prüftiefe: Mittel. Kein Halluzinationsrisiko im engeren Sinne, aber Consent-Fragen (Stimme, Persönlichkeitsrechte), Tonalität und Markenkonsistenz müssen geprüft werden. Rechtliche Situation zu KI-Stimmen ist in Deutschland noch nicht abschließend geklärt. Im Zweifel: Anwalt fragen, nicht KI.

KI-generierte Strukturvorschläge, Outlines, Briefing-Ideen Prüftiefe: Niedrig. Diese Outputs gehen nicht direkt zum Kunden — sie sind Zwischenschritte. Hier genügt ein kurzer inhaltlicher Check, kein vollständiger QA-Durchlauf.

Konkrete Werkzeuge — was wann passt

Das QA-System muss keine eigene Software sein. Es kann auf Tools aufbauen, die du bereits nutzt — mit einem strukturierten Prompt als Herzstück.

ChatGPT (GPT-4o) oder Claude — für Text- und Bild-QA Der Kern des Systems. Du gibst dem Modell das Briefing, den fertigen Text und eine Checkliste — und bekommst einen strukturierten Prüfreport zurück. ChatGPT mit GPT-4o unterstützt zusätzlich Bild-Uploads, sodass visuelle KI-Outputs direkt mitgeprüft werden können. Claude ist beim Vergleich langer Dokumente zuverlässiger und produziert differenziertere Berichte. Beide Tools: kostenlos mit Limits, Plus/Pro ab 20 USD/Monat.

LanguageTool — für deutschen Text-QA auf Sprachebene Ergänzend zum inhaltlichen LLM-Check prüft LanguageTool Grammatik, Stilfehler und Konsistenz — mit EU-Hosting und starkem Deutsch-Support. Premium ab ca. 7 €/Monat. Besonders wertvoll, wenn mehrere Texter mit unterschiedlichem Stilniveau an einem Projekt arbeiten.

Grammarly — für englischsprachige Deliverables Wenn deine Agentur internationale Kunden bedient und englischen Copy produziert: Grammarly prüft auf Tonalität, Stil und Brand-Voice — mit konfigurierbaren Style Guides im Pro-Plan (12 €/Monat). Nicht geeignet für DSGVO-sensible Inhalte (US-Hosting).

Originality.AI — für Plagiats- und KI-Erkennung Wenn dein Kunde explizit fordert, dass Inhalte „nicht KI-generiert” sind — oder wenn du prüfen willst, ob ein eingereichter Freelancer-Text wirklich von einem Menschen stammt: Originality.AI prüft beides in einem Durchgang. Ab 14,95 USD/Monat. Wichtig: Erkennung ist eine Einschätzung, kein Beweis.

Midjourney und Adobe Firefly — als Quellen, die QA benötigen Diese Tools erzeugen den Output, der geprüft werden muss. Adobe Firefly hat dabei einen Vorteil: Es ist explizit auf kommerziell lizenziertem Bildmaterial trainiert und bietet eine Content Credentials-Funktion, die KI-Genese transparent macht. Midjourney bietet mehr gestalterische Freiheit, aber weniger Lizenz-Transparenz — besonders nach den Klagen von Disney und Universal wegen Urheberrechtsverletzungen (2025) sollte das in der Kunden-Kommunikation berücksichtigt werden.

Zusammenfassung: Wann welcher Ansatz

  • Text-QA auf Briefing und Claims → ChatGPT oder Claude mit strukturiertem Prompt
  • Sprachliche Qualität (Deutsch) → LanguageTool
  • Englischer Copy + Brand Voice → Grammarly
  • Bild-QA (visuell, inhaltlich) → ChatGPT GPT-4o mit Bild-Upload
  • KI-Erkennung / Plagiat → Originality.AI

Datenschutz und Datenhaltung

KI-Output-QA bedeutet, dass du Kundenmaterialien — Texte, Briefings, Bilder — in externe KI-Systeme lädst. Das ist datenschutzrechtlich nicht trivial. Besonders, wenn das Briefing Kundennamen, Produktdetails oder strategische Informationen enthält, die nicht für die Öffentlichkeit bestimmt sind.

Die DSGVO verlangt: Wer personenbezogene Daten an einen Drittanbieter übergibt, braucht einen Auftragsverarbeitungsvertrag (AVV). Das gilt auch, wenn das Briefing lediglich Namen oder Ansprechpartner-Daten enthält.

Was das für die gängigen Tools bedeutet:

  • ChatGPT (Team/Business-Plan): Keine Nutzung der Daten für Modelltraining, US-Hosting. AVV vorhanden. EU-Datenresidenz nur im Enterprise-Plan.
  • Claude (Team-Plan): Ähnliche Situation. Kein Training auf Eingaben, US-Hosting für Consumer-App. Wer EU-Residenz braucht: Claude über AWS Bedrock (Frankfurt) oder Google Vertex AI.
  • LanguageTool (Premium): EU-Hosting, keine Nutzung für Training — DSGVO-sauberste Option für textlastige Prüfworkflows.
  • Grammarly: US-Hosting, AVV verfügbar ab Pro. Nicht geeignet für DSGVO-sensible Inhalte (Mandanten, Patientendaten, behördliche Kommunikation).

Praktischer Ansatz: Anonymisiere Briefings vor dem KI-QA-Schritt. Ersetze Kundennamen mit Platzhaltern, entferne strategische Zahlen, die nicht für den QA-Zweck relevant sind. Der QA-Check braucht den Inhalt, nicht die Kundenstammdaten. Das reduziert das Risiko erheblich und macht den Prozess DSGVO-freundlicher — unabhängig vom Tool.

Was es kostet — realistisch gerechnet

Einmalige Aufbaukosten Das System besteht nicht aus Software, sondern aus Prompts und Checklisten. Einmaliger Aufwand für die Entwicklung: 1–3 Tage je nach Komplexität und Anzahl der Projekttypen. Bei einer Agentur mit drei Kernprojektformaten (Social Content, Kampagnen, Pitches): realistisch 2 Tage Aufwand einer erfahrenen Person.

Laufende Kosten

  • ChatGPT Plus: 20 USD/Monat (für QA-Checks mit GPT-4o inkl. Bild)
  • Claude Pro: 20 USD/Monat (Alternative, besser bei langen Dokumenten)
  • LanguageTool Premium: ~7 €/Monat (für deutschen Copy)
  • Kombination: 27–40 €/Monat je Person — oft aus bestehenden Abonnements abgedeckt

Was du dagegenrechnen kannst Eine Nacharbeitsrunde beim Kunden kostet typischerweise 2–6 Stunden Kreativarbeit — bei einem Stundenverrechnungssatz von 80–120 Euro macht das 160–720 Euro. Wenn deine Agentur pro Monat 10–20 Kundenprojekte hat und die QA-Fehlerrate auch nur bei einem Projekt Rückläufer verhindert: Die monatlichen Tool-Kosten sind in einem einzigen vermiedenen Rückläufer mehr als amortisiert.

Der schwerere wirtschaftliche Schaden entsteht nicht beim Stundensatz — er entsteht beim Vertrauensverlust. Ein Kunde, der einen falschen Claim in seiner publizierten Werbung entdeckt, diskutiert keinen Nachlass: Er wechselt die Agentur.

So misst du den Nutzen tatsächlich Dokumentiere vor der Einführung: Wie viele Rückläufer-Runden pro Monat, durchschnittlicher Nacharbeitsaufwand? Nach drei Monaten mit QA-System: vergleiche. Das ist kein theoretischer ROI, sondern ein messbares Projektleiter-Dashboard.

Vier typische Einstiegsfehler

1. Denken, der KI-QA-Check ersetzt das menschliche Lektorat. Er ersetzt es nicht. Der KI-QA-Check prüft systematisch und schnell — aber er ist kein Lektor. Er versteht Ironie nicht, erkennt keine kulturellen Fettnäpfchen, und er kann keine Entscheidungen über gestalterische Abwägungen treffen. In der Praxis passiert der Fehler so: Team führt den Check ein, spart sich danach die menschliche Schlussredaktion — und ein Pharma-Deliverable mit einem unpassenden Wirkversprechen geht raus, weil der Check “inhaltlich korrekt” gemeldet hat, aber den Tonfall nicht beurteilen konnte. Konkrete Abhilfe: Den KI-Check als Pflichtschritt vor, nicht statt dem menschlichen Gegenlesen definieren — wer den Check-Report abhakt, darf das Dokument noch nicht freigeben, sondern danach eine Person lesen lassen.

2. Den Fakten-Check weglassen und nur auf Stil prüfen. Der Stil-Check ist einfach — er passiert fast automatisch, wenn du einen Text liest. Der Fakten-Check ist unbequem, weil er Zeit kostet und manchmal Probleme findet, die kurz vor der Deadline unangenehm sind. Genau das ist der Fehler: Fakten-Checks werden abgekürzt, wenn der Druck steigt — und laut Originality.AI-Auswertung sind bis zu 47 % der Quellenangaben in KI-generiertem Text ungenau oder erfunden, also Werte, die kein Stilcheck erkennen würde. Konkrete Abhilfe: Fakten- und Stil-Check als zwei getrennte Abschnitte im QA-Prompt definieren — Section A (Claims und Zahlen) zuerst, Section B (Ton und Sprache) danach. Wer Section A überspringt, sieht sofort, dass er es getan hat.

3. Einen generischen Prompt verwenden statt eines projektspezifischen. „Prüfe den Text auf Fehler” produziert eine unbrauchbare Antwort — in Tests liefert ein solcher Prompt typischerweise 3–5 unspezifische Stilanmerkungen, erkennt aber keinen einzigen halluzinierten Claim. Erst wenn du Briefing, Brand Guide und konkrete Prüfkriterien mitgibst, wird der Check wertvoll. Konkrete Abhilfe: Zwei Blöcke fest im Prompt verankern — Block 1: das Briefing (oder eine anonymisierte Zusammenfassung davon) als Referenz; Block 2: eine nummerierte Prüfliste mit mindestens 5 konkreten Ja/Nein-Fragen. Der Aufwand für das Einlesen der Referenzdokumente beträgt 5 Minuten pro Projekt — danach ist der Check wiederholbar.

4. Das QA-System wird eingeführt, aber die Checkliste wird nie aktualisiert. Das ist der am häufigsten unterschätzte Fehler — und er passiert still. Ein QA-System, das einmal aufgesetzt und dann nicht gepflegt wird, verliert an Qualität: Neue Projekttypen werden nicht abgedeckt, veränderte Brand Guidelines fließen nicht ein, und die Checkliste prüft in 18 Monaten gegen veraltete Standards. Typisches Muster: Nach 6–12 Monaten hat die Agentur zwei neue Kunden in regulierten Branchen gewonnen, aber die Checkliste enthält noch keine Pharma- oder Finanzdienstleistungs-Pflichtangaben — und der erste Rückläufer passiert, weil ein Disclaimer fehlt, der eigentlich bekannt war. Konkrete Abhilfe: Quartalsweise Termin im Teamkalender, 30 Minuten, namentlich einer Person zugewiesen — Aufgabe ist ausschließlich: Checkliste gegen aktuelle Projektportfolio prüfen und fehlende Projekttypen ergänzen.

Was mit der Einführung wirklich passiert — und was nicht

Das Schwierige an diesem Use Case ist sein paradoxer Charakter: Das System soll KI-Output prüfen — aber es besteht selbst aus KI-Tools. Das erzeugt im Team manchmal Irritation.

Widerstandsmuster 1: „Das macht es doch noch komplizierter.” Der Einwand ist berechtigt — wenn man an eine separate Software denkt. Wenn der QA-Check als fünfminütiger Schritt im bestehenden ChatGPT-Workflow integriert ist (Briefing einfügen, Prompt laufen lassen, Report abhaken), fühlt er sich nicht komplizierter an. Das ist die entscheidende UX-Frage bei der Einführung: Ist der Check so eingebettet, dass er keinen separaten Gedanken kostet?

Widerstandsmuster 2: „Ich prüfe das schon beim Schreiben.” Das stimmt bei Senior-Textern oft sogar. Aber erstens prüfen auch erfahrene Texter nicht konsequent auf Fakten, wenn KI-Output als Grundlage dient — das Modell liefert Text, der korrekt klingt. Zweitens hängt das System dann an einer Person, nicht an einem Prozess. Wenn diese Person krank, im Urlaub oder abgelenkt ist, fällt die Prüfebene weg.

Was konkret hilft:

  • Einen QA-Step explizit in die Deliverable-Checkliste aufnehmen — als Pflichtschritt vor dem Absenden
  • Das erste Mal gemeinsam durchführen: Briefing einlesen, Prompt laufen lassen, Ergebnis besprechen — so sieht das Team, was der Check leistet und was nicht
  • Bei gefundenem Fehler kommunizieren, dass das System gearbeitet hat — nicht wer den Fehler gemacht hat. Das System ist dazu da, Fehler zu fangen, bevor sie kritisch werden

Realistischer Zeitplan mit Risikohinweisen

PhaseDauerWas passiertTypisches Risiko
Vorbereitung und Template-EntwicklungTag 1Projekttypen identifizieren, erste Checkliste entwickeln, Referenzprompt bauen und testenCheckliste zu allgemein — prüft nichts Konkretes
Pilottest mit zwei bis drei ProjektenWoche 1–2Check auf laufende Projekte anwenden, Ergebnisse auswerten, Checkliste anpassenKI-Check findet Dinge, die niemand sehen wollte — Klärung, wie mit gefundenen Fehlern umgegangen wird
Einführung ins TeamWoche 2–3Alle im Team durchlaufen den Check bei einem Projekt, Feedback einsammelnWiderstand: „Brauche ich nicht” — erfordert Führungsentscheidung, ob es verpflichtend ist
Etablierung als StandardprozessWoche 4–6QA-Check ist fester Schritt vor Kundenfreigabe, Checkliste lebt im Team-WikiCheckliste wird nicht gepflegt — braucht klare Verantwortlichkeit

Wichtig: Das System funktioniert nicht, wenn der QA-Check optional ist. Er muss zur Pflichtbedingung für die Freigabe werden — genauso wie heute ein PDF im richtigen Format oder eine Datei in der korrekten Auflösung. Optionalität bedeutet, dass der Check unter Zeitdruck als erstes wegfällt.

Häufige Einwände — und was dahintersteckt

„Wir prüfen unsere Texte ohnehin vor der Übergabe.” Ja — aber nicht gegen das Briefing. Und nicht mit dem Fokus auf KI-spezifische Fehlerquellen wie halluzinierte Claims. Der klassische Pre-Delivery-Check schaut auf Grammatik, Stil und Format — nicht auf die Frage, ob eine bestimmte Aussage im Ausgangsmaterial belegt ist. Das ist eine neue Prüfebene, keine Verdopplung.

„KI prüft sich selbst — das kann nicht zuverlässig sein.” Das ist ein berechtigter Einwand, der einen wichtigen Unterschied verkennt: Sprachmodelle produzieren Halluzinationen, wenn sie aus dem Gedächtnis schöpfen müssen. Sie vergleichen zuverlässig, wenn du ihnen zwei Dokumente gibst und fragst, ob Dokument A zu Dokument B konsistent ist. Das ist eine fundamentale andere Aufgabe. Trotzdem: 100 Prozent zuverlässig ist kein LLM-System. Der Check ist ein systematischer Filter, kein forensischer Beweis.

„Wir haben keine Zeit dafür.” Das stimmt — wenn man annimmt, dass der Check 30 Minuten kostet. Mit einem gut entwickelten Prompt und eingespieltem Prozess kostet er 5–15 Minuten. Die Frage ist nicht, ob man die Zeit hat — die Frage ist, ob man 10–15 Minuten investiert, um möglicherweise eine 4-Stunden-Nacharbeitsrunde zu verhindern.

Wenn du KI-Output nicht kennzeichnest — was dann?

Das ist die unbequeme Frage, die die meisten Agenturen nicht laut stellen: Müsst ihr eurem Kunden mitteilen, dass Deliverables mit KI erstellt wurden?

Die rechtliche Lage in Deutschland ist Ende 2025 noch uneinheitlich. Der EU AI Act regelt ab 2026 bestimmte KI-Hochrisikoanwendungen — Kreativproduktion fällt in der Regel nicht darunter. Es gibt kein allgemeines Gesetz, das Agenturen zur KI-Kennzeichnung gegenüber Kunden verpflichtet.

Was es gibt:

Vertragliche Fragen: Wenn im Dienstleistungsvertrag „eigenständig erstellte Kreativarbeit” vereinbart ist und der Anteil an KI-Output substanziell ist — ist der Vertrag erfüllt? Das ist nicht nur eine ethische Frage, sondern eine juristische. Manche Kunden haben inzwischen explizite Klauseln für „KI-freie Deliverables” in ihren Briefings.

Reputationsrisiko: Kein Gesetz, aber: Wenn ein Kunde herausfindet, dass Konzepte, für die er Kreativleistung gezahlt hat, zu wesentlichen Teilen KI-generiert waren — und das nicht kommuniziert wurde — ist das Vertrauensproblem schwerer als jede juristische Frage.

Die saubere Antwort: Sprich die Frage proaktiv mit dem Kunden an. Nicht jeder Kunde hat ein Problem mit KI-Unterstützung — viele sind froh, wenn Effizienz und Ergebnis stimmen. Aber die Entscheidung, ob und wie KI eingesetzt wird, sollte transparent gemacht werden — nicht herausgefunden.

Was das mit der QA zu tun hat: Wenn du KI-Einsatz kommunizierst und dafür einen nachvollziehbaren QA-Prozess zeigen kannst, stärkt das das Vertrauen. „Wir nutzen KI, aber so:” ist eine stärkere Aussage als „Wir garantieren Qualität”.

Hinweis: Dies ist keine Rechtsberatung. Die regulatorische Lage zu EU AI Act, vertraglichen KI-Klauseln und Kennzeichnungspflichten entwickelt sich laufend weiter — bei konkreten Fragen empfehlen wir eine Anwältin oder einen Anwalt mit Schwerpunkt IT- oder Medienrecht. Stand: Mai 2026.

Woran du merkst, dass das zu dir passt

Du bist eine gute Kandidatin oder guter Kandidat für diesen Ansatz, wenn:

  • KI ist bei euch kein Experiment mehr, sondern tatsächlich in der Produktion — in der Text-Erstellung, Bildgenerierung oder Konzeptentwicklung
  • Deliverables enthalten faktische Aussagen: Produkteigenschaften, Preisangaben, Auszeichnungen, Studienreferenzen — irgendetwas, das falsch sein kann und weh tut, wenn es falsch ist
  • Ihr habt mehr als eine Person, die KI-Output produziert, und ihr könnt nicht jede Ausgabe persönlich prüfen
  • Ihr betreut Kunden in regulierten Branchen: Pharma, Finanzdienstleistungen, Lebensmittel, Medizintechnik — dort sind falsche Claims nicht nur peinlich, sondern haftungsrelevant

Wann es sich (noch) nicht lohnt — drei harte Ausschlusskriterien:

  1. Ihr nutzt KI ausschließlich intern für Ideation und Recherche — nichts davon geht direkt in Kundenmaterialien. Dann ist ein formales QA-System für KI-Output verfrüht. Baut zuerst die Produktionsprozesse, dann die Prüfprozesse.

  2. Euer gesamtes KI-Output-Volumen liegt unter 3–5 Projekten pro Monat und ihr seid ein kleines Team, das jeden Output sowieso persönlich kennt. Die Checkliste wäre Overhead ohne messbaren Nutzen. Eine mündliche Absprache — „wir prüfen Zahlen immer gegen das Briefing” — reicht dann aus.

  3. Die Deliverables, bei denen KI eingesetzt wird, sind ausschließlich strukturelle Vorarbeiten (Outlines, Briefing-Vorlagen, interne Meeting-Protokolle). Prüfaufwand für nicht-kundenseitige Outputs ist Verschwendung.

Das kannst du heute noch tun

Nimm ein abgeschlossenes Projekt — eines aus den letzten vier Wochen, bei dem KI in der Textproduktion involviert war. Öffne das finale Deliverable. Öffne parallel das Briefing.

Dann öffne ChatGPT oder Claude und nutze den Prompt unten. Füge das Briefing als ersten Block ein, dann den Text aus dem Deliverable. Schau, was der Check findet.

Das Ergebnis zeigt dir in 10 Minuten, ob ein strukturierter QA-Prozess für eure Projekte einen Unterschied machen würde — bevor du auch nur eine Minute in Systemaufbau investierst.

QA-Prompt für KI-Output vor Kundenübergabe
Du bist ein erfahrener Kreativberater mit Fachkenntnis in Qualitätssicherung für Agenturen. Ich gebe dir zwei Dokumente: 1. Das Briefing — das ist der vereinbarte Ausgangspunkt 2. Den fertigen Text — das ist das Deliverable, das zum Kunden gehen soll Prüfe den fertigen Text systematisch gegen das Briefing und beantworte die folgenden Fragen: **A — Fakten und Claims:** - Welche konkreten Aussagen (Zahlen, Prozentwerte, Eigenschaften, Auszeichnungen) enthält der Text? - Ist jede dieser Aussagen im Briefing oder in bereitgestellten Quellen belegt? - Markiere jede Aussage als "belegt", "unbelegt" oder "im Briefing nicht vorhanden" **B — Briefing-Ziele:** - Welche Kernziele hat das Briefing definiert? - Werden sie im Text adressiert? - Gibt es Briefing-Ziele, die im Text fehlen oder untergewichtet sind? **C — Tonalität und Brand-Voice:** - Wie würdest du den Ton des Textes beschreiben? - Gibt es Formulierungen, die dem Brand-Profil des Kunden widersprechen (falls angegeben)? **D — Vollständigkeit:** - Fehlen Pflichtangaben (Disclaimer, CTA, Preishinweise), die das Briefing oder die Branche erfordert? Gib das Ergebnis als strukturierten Report aus — zuerst eine Zusammenfassung (gut/auffällig/kritisch), dann die Details je Kategorie. --- [BRIEFING HIER EINFÜGEN] --- [FERTIGER TEXT HIER EINFÜGEN]
Funktioniert mit ChatGPT, Claude
Beispiel-Ausgabe

Mitarbeiter:in

Briefing: Produktlancierung Nahrungsergänzungsmittel, Zielgruppe 45+ aktive Männer, Key Message: natürliche Inhaltsstoffe, Energie ohne Nervosität, keine klinischen Claims erlaubt. Text: 'Reenergize enthält 200mg natürliches Koffein aus Guarana — wissenschaftlich belegt für nachhaltige Energie ohne den Crash. Reduziert Müdigkeit nachweislich um 43 % gegenüber Placebo.'

KI-Assistent

QA-Report — Zusammenfassung: KRITISCH (1 kritischer Fund, 1 Auffälligkeit) **A — Fakten und Claims:** - "200mg natürliches Koffein aus Guarana" → Im Briefing nicht verifiziert. Bitte Mengenangabe gegen Produktspezifikation prüfen. Status: unbelegt. - "wissenschaftlich belegt für nachhaltige Energie" → Pauschalaussage ohne Quellenangabe, wirkt wie ein wissenschaftlicher Claim. Status: unbelegt. - "Reduziert Müdigkeit nachweislich um 43 % gegenüber Placebo" → KRITISCH: Diese Aussage erscheint nicht im Briefing und ist nicht durch eine genannte Studie belegt. Das Briefing schließt klinische Claims explizit aus. Diese Aussage muss entfernt oder vollständig belegt werden. **B — Briefing-Ziele:** - "natürliche Inhaltsstoffe" → adressiert ✓ - "Energie ohne Nervosität" → adressiert ✓ - "keine klinischen Claims" → NICHT eingehalten (s. oben) **C — Tonalität:** Grundsätzlich passend für Zielgruppe 45+ aktiv. "ohne den Crash" ist umgangssprachlich — je nach Markentonalität prüfen. **D — Vollständigkeit:** Kein Hinweis auf Lebensmittelrechtliche Pflichtangaben (§ 7 HCVO). Bei Nahrungsergänzungsmitteln: Disclaimer prüfen. Empfehlung: Vor Übergabe Zeile mit 43%-Claim entfernen und alle Mengenangaben gegen Produktspezifikation verifizieren.

Quellen & Methodik

  • KI-Halluzinationen in Quellenangaben (bis 47 %): Befund aus mehreren systematischen Untersuchungen, u.a. ausgewertet in Originality.AI Blog: „8 Times AI Hallucinations or Factual Errors Caused Serious Problems” (2024). Ursprüngliche NIH-Befundlage zu ChatGPT-Referenzgenauigkeit.
  • State of AI in the Creative Industry: Multiply Report „The State of AI in the Creative Industry” (multiply.co, 2024): 1 von 4 Kreativagenturen mit vollständig integriertem KI-Workflow; 48 % mit interner KI-Ethik-Policy; über 80 % der Kreativprofessionals mit regelmäßiger KI-Nutzung.
  • QA-Fehlerbeispiel (B2B-Cybersecurity): ProsMedia, „AI Content QA Checklist: How to Catch Errors Before They Embarrass Your Brand” (prosemedia.com, 2024): Konkrete Fallbeschreibung einer Landing Page mit halluziniertem Performance-Wert.
  • Brand-Konsistenz-Failure-Modes: Adobe Experience League, „Brand Consistency at Scale: Why Guidelines Fail” (2024): Drei Failure-Modes in Brand Governance (Interpretation, Enforcement, Learning).
  • Midjourney und Urheberrecht: Lawsuits Disney/Universal v. Midjourney (June 2025); eRecht24: „Midjourney: Urheberrecht & Bildrechte”; Georgetown Law Tech Institute: „Disney, NBC Universal, and DreamWorks File Major IP Lawsuit Against AI Image Generator Midjourney” (law.georgetown.edu, 2025).
  • Preisangaben Tools: Veröffentlichte Tarife von OpenAI, Anthropic, LanguageTooler GmbH, Grammarly/Superhuman Platform Inc. (Stand Mai 2026).
  • EU AI Act Kontext: Europäische Kommission, EU AI Act (verabschiedet 2024, Anwendungsbeginn gestaffelt 2025–2026).

Du willst wissen, welche QA-Prüftiefe für eure spezifischen Projekttypen Sinn macht und wie ihr die Checkliste für euren Kontext aufbaut? Meld dich — das klären wir in einem kurzen Gespräch.

Diesen Inhalt teilen:

🤝

Interesse an diesem Use Case?

Schreib uns, wenn du mehr erfahren oder diesen Use Case für dein Unternehmen umsetzen möchtest. Wir melden uns zeitnah bei dir.

Deine Daten werden ausschließlich zur Bearbeitung deiner Anfrage verwendet (Art. 6 Abs. 1 lit. b DSGVO). Mehr in unserer Datenschutzerklärung.

Kostenloser Newsletter

Bleib auf dem neuesten
Stand der KI

Wähle deine Themen und erhalte relevante KI-News, Praxistipps und exklusive Inhalte direkt in dein Postfach – kein Spam, jederzeit abmeldbar.

Was interessiert dich? Wähle 1–3 Themen — du bekommst nur Inhalte dazu.

Mit der Anmeldung stimmst du unserer Datenschutzerklärung zu. Jederzeit abmeldbar.

Kostenlos
Kein Spam
Jederzeit abmeldbar