Zum Inhalt springen
Pharmaindustrie medical-writingcsrregulatorisch

Medical-Writing-Assistent für regulatorische Dokumente

KI-Assistent unterstützt Medical Writer bei der Erstellung regulatorischer Texte: strukturiert Entwürfe, prüft auf Konsistenz mit Quelldaten und schlägt Standardformulierungen vor.

Worum geht's?

Es ist Dienstagabend, 19:30 Uhr.

Sophia ist Medical Writer in einem großen deutschen Pharmaunternehmen. Sie arbeitet am Clinical Study Report (CSR) für eine Phase-III-Studie — eines der umfangreichsten und regulatorisch schwersten Dokumente, die das Unternehmen je einreicht. 1.200 Seiten, Monate Arbeit, und jedes Detail hat Folgen.

Sie schreibt den Methodenabschnitt um. Der Text nennt eine Patientenzahl von 450. Ein Klick weiter steht in Tabelle 2.1 die Zahl 448. Sie ruft den Biostatistiker an — der ist schon im Feierabend. Im Ordner liegen zwei Versionen des Statistical Analysis Plans, jede mit anderer Zahl. Welche ist die gültige? Eine halbe Stunde Abgleich, bevor sie die Frage beantwortet hat — eine halbe Stunde, in der sie eigentlich am Text feilen wollte.

Das ist kein Einzelfall. Bei zehn Dokumenten pro Jahr und fünf bis zehn solcher Konsistenzrätsel pro Dokument summieren sich 50 bis 100 Stunden, in denen der beste Medical Writer des Unternehmens keine Sätze formuliert, sondern Zahlen jagt.

Das echte Ausmaß des Problems

Medical Writing ist die Disziplin, klinische Rohdaten in regulatorisch belastbare Texte zu übersetzen. Ein Clinical Study Report (CSR) ist das paradigmatische Dokument — 500 bis 1.500 Seiten, strukturiert nach ICH-E3, aufgebaut aus:

  • Studienpopulation und Basischarakteristika (Tabellen)
  • Methodenbeschreibung (Text)
  • Ergebnisse (Text plus Tabellen aus dem Statistikprogramm)
  • Sicherheitsanalyse (Text mit Fallbeschreibungen)
  • Regulatorischer Kontext und Einordnung (Text)

Der Schreibprozess ist nicht linear. Das Dokument ist ein Geflecht aus Querverweisen — und genau dort entstehen die Probleme:

  • „Tabelle 3.2 zeigt die Ergebnisse” — aber Tabelle 3.2 existiert in dieser Version nicht mehr oder heißt jetzt 3.5.
  • „Die Altersgruppe 18–65 Jahre …” — die finale Analysenpopulation umfasst aber 18 bis 70 Jahre, nachdem der SAP angepasst wurde.
  • „Die finale Stichprobengröße war N=450.” — im Statistik-Bericht steht N=448, weil zwei Patienten aus der Analyse ausgeschlossen wurden.

Jeder dieser Konflikte muss aufgelöst sein, bevor das Dokument eingereicht wird. FDA und EMA sind hier besonders wachsam — solche Inkonsistenzen signalisieren schwache Qualitätssicherung, und das wirft ein schlechtes Licht auf die gesamte Einreichung.

Wie viel Zeit geht verloren?

Eine Umfrage unter Medical Writern (2023, Applied Clinical Trials) beziffert die Verteilung der Arbeitszeit so:

  • 30 bis 40 Prozent für Recherche in Quelldokumenten (CSR-Anhänge, SAP, Tabellenspezifikationen)
  • 10 bis 15 Prozent für Konsistenzprüfungen zwischen Text und Tabellen
  • 15 bis 20 Prozent für Review-Schleifen, die aus Konsistenzfehlern entstehen

Das heißt: In einem CSR-Projekt mit 600 Stunden Schreibaufwand fließen 180 bis 300 Stunden in Recherche und Konsistenzprüfung — statt in die eigentliche inhaltliche Arbeit.

Das reale Risiko:

  • Manche Inkonsistenzen rutschen durch und werden erst in den Questions from the Agency aufgeworfen. Die Nacharbeit kostet drei bis sechs Monate.
  • Die Fehlerquote ist messbar: FDA-Inspektionsberichte dokumentieren, dass 20 bis 30 Prozent aller CSRs mindestens eine regulatorisch relevante Unstimmigkeit enthalten.
  • Menschen ermüden. Wer an einem 1.200-Seiten-Dokument über Wochen arbeitet, verliert Konzentration genau an den Querverweisstellen, an denen sie am meisten zählt.

Mit vs. ohne KI — ein ehrlicher Vergleich

KennzahlOhne KI-AssistentMit KI-Schreibassistenten
Recherche in Quelldokumenten3–4 Std. pro Tag1–1,5 Std. pro Tag (KI findet Stelle, Mensch validiert)
Konsistenzprüfung (Zahlenabgleich)2–3 Std. manuell30 Min. (KI flaggt Konflikte, Mensch reviewt)
Review-Iterationen bis akzeptabel3–5 Iterationen2–3 Iterationen (weniger Fehler im Draft)
Schreib-Produktivität400–600 Wörter/Stunde Netto600–900 Wörter/Stunde Netto (nach KI-Draft)
Fehler/Inkonsistenzen vor Einreichung5–15 übersehen / CSRunter 2 pro CSR (KI-Flagging voraus)

Die Zahlen basieren auf Fallstudien von GenInvo, Certara CoAuthor und internen Benchmarks aus CRO-Implementierungen (2023–2024). Wichtig: Diese Zeiten gelten für Standarddokumente (CSR, ECTD, Regulatory Summary). Sehr spezialisierte Dokumente (z.B. Advanced Pharmacology Sections) profitieren weniger von KI.

Einschätzung auf einen Blick

Zeitersparnis — hoch (4/5)
Die automatisierte Recherche in Quelldokumenten und die Konsistenzprüfung zwischen Text und Tabellen sparen messbar Zeit. Ein KI-Assistent, der meldet „Parameter X ist in drei Tabellen unterschiedlich definiert”, spart zwei bis drei Stunden Fehlersuche. Nicht voll bewertet, weil die eigentliche Schreibarbeit — klinische Interpretation, Risikobewertung, regulatorische Argumentation — in menschlicher Hand bleibt. KI hilft beim Handwerk, nicht beim Urteil.

Kosteneinsparung — niedrig (2/5)
Direkte Einsparungen sind klein. Medical Writer werden nicht gekündigt, weil KI schneller formulieren kann. Der Nutzen entsteht indirekt: Ein Team, das bisher vier Medical Writer für vier parallele CSRs brauchte, könnte theoretisch mit 3,5 arbeiten. In der Praxis fließt die gewonnene Zeit meist zurück in Qualitätsarbeit — mehr Reviewschleifen, bessere Struktur — nicht in Stellenabbau.

Schnelle Umsetzung — hoch (4/5)
Einer der großen Vorteile dieses Anwendungsfalls. Anders als bei der Batch-Record-Automation, wo die GAMP5-Validierung sechs bis zehn Monate verschlingt, lässt sich KI-Unterstützung für Medical Writing unkompliziert starten:

  • Keine GxP-Validierungspflicht, wenn die KI ein Schreibwerkzeug ist und der Writer jeden Output prüft, bevor er in das System einfließt.
  • Schnell aufzusetzen: Claude oder ChatGPT mit einem RAG-Setup oder spezialisierte Tools wie GenInvo oder Certara CoAuthor.
  • Proof-of-Concept in zwei bis vier Wochen realistisch.

Einzige Einschränkung: Schreibt die KI direkt in das eTMF-System, ohne menschliche Freigabe, wird Validierung wieder Thema. Als externes Werkzeug bleibt es einfach.

ROI-Sicherheit — mittel (3/5)
Die Zeitersparnis lässt sich zählen — Stunden pro Dokument. Die Qualitätssteigerung (weniger Fehler, schnellere Behördenfreigabe) ist schwerer zu isolieren: Hat die KI genau diesen Fehler verhindert, oder hätte ihn der Writer ohnehin gefunden? Die Antwort bleibt meist unscharf. Deshalb nicht voll bewertet.

Skalierbarkeit — mittel (3/5)
Das System skaliert mit wachsender Dokumentenzahl. Aber jeder neue Dokumenttyp — Scientific Rationale, Regulatory History, ECTD-Technikteil — braucht eigene Vorlagen und angepasste Prompts. Skalierung ist möglich, aber nicht ohne Anpassungsaufwand.

Richtwerte — stark abhängig von Dokumenttyp, Studienkomplexität und Erfahrung des Writer-Teams.

Was das System konkret macht

Ein KI-Schreibassistent für Medical Writing arbeitet auf drei Ebenen.

1. Intelligente Recherche in Quelldokumenten. Der Writer braucht eine Statistik aus einer Tabelle, die irgendwo in einem 200-seitigen Statistical Analysis Plan liegt. Ein RAG-System (Retrieval-Augmented Generation) indiziert alle Quelldokumente — SAP, Studienprotokoll, Tabellenspezifikationen, Investigator’s Brochures — und antwortet auf semantische Fragen:

  • „Wie viele Patientinnen und Patienten waren in Gruppe A?”
  • „Wie war der primäre Endpunkt definiert?”
  • „Welche Sicherheitsparameter wurden erhoben?”

Statt 30 Minuten Blättern antwortet das System in 30 Sekunden: „Laut SAP Seite 47 waren es 450 Patientinnen und Patienten in Gruppe A, Tabelle 2.1 nennt dagegen 448 — hier besteht ein Konflikt.” Das ist der eigentliche Kern des Nutzens.

2. Entwurfsgenerierung für Standardabschnitte. Teile eines CSR sind strukturell repetitiv. Methodenabschnitte folgen dem Muster Studiendesign → Populationskriterien → Dosierung → Endpunktmessung → Statistischer Analyseplan. Das System generiert auf Basis der Quelldaten einen ersten Entwurf:

Studiendesign: Diese randomisierte, doppelblinde, placebokontrollierte Studie umfasste ...
Populationskriterien: Einschlusskriterien waren Alter ≥ 18 Jahre, ECOG 0–2 und diagnostizierte [Erkrankung] ...

Der Writer liest den Entwurf, passt ihn an, fertig. Das erspart 30 bis 40 Prozent der Schreibzeit für die standardisierten Abschnitte.

3. Konsistenz- und Referenzprüfung. Das System liest den gesamten Entwurf und markiert potenzielle Konflikte:

  • „In der Einleitung steht Patientenzahl 450, Tabelle 3.1 nennt 448.”
  • „Sie referenzieren Tabelle 4.5 — diese Tabelle existiert nicht mehr, sie heißt jetzt 4.7.”
  • „Die Dosis wird zuerst als ‚50 mg einmal täglich’ beschrieben, später als ‚1,7 mg/kg pro Tag’ — ist das konsistent?”

Diese Prüfung kostet manuell Stunden. Das System erledigt sie in Sekunden.

Was KI hier nicht leistet

  • Die klinische Relevanz einer Beobachtung. Die Frage „Ist ein Blutdruckanstieg von 5 mmHg klinisch bedeutsam?” entscheidet eine Ärztin oder ein Arzt mit therapeutischer Kompetenz.
  • Die regulatorische Nuance. Wenn es um eine subtile Formulierung geht, mit der die Einreichung strategisch positioniert wird, reicht KI nicht.
  • Absolute Verlässlichkeit. Halluzinationen sind ein reales Risiko — KI erfindet gelegentlich Zahlen oder Bezüge, die plausibel klingen. Menschliches Review ist deshalb keine Kür, sondern Pflicht.

Rechtliche Besonderheiten

Das zentrale Thema heißt GxP-Konformität und Validierungsstatus.

Die Ausgangslage:

  • Medical Writing ist nicht ausdrücklich als GxP-Prozess definiert — der CSR ist jedoch ein GxP-Dokument.
  • Ein KI-Assistent als reines Schreibwerkzeug, dessen Output der Writer prüft und anschließend ins eTMF einbringt, braucht keine GxP-Validierung des Tools selbst.
  • Ein KI-System, das direkt in das eTMF schreibt, ohne menschliche Freigabe dazwischen, braucht dagegen eine vollständige GxP-Validierung.

Was das konkret heißt:

  • Szenario 1 (einfach). Ein Writer nutzt Claude oder ChatGPT, um einen CSR-Entwurf zu erzeugen. Der Entwurf entsteht außerhalb des validierten Systems. Der Writer prüft ihn Satz für Satz, ergänzt und korrigiert, und erst das final freigegebene Dokument wandert in das eTMF. Keine Validierungspflicht für die KI.
  • Szenario 2 (komplex). Ein Unternehmen baut ein System, das CSR-Abschnitte automatisiert generiert und direkt ins eTMF schreibt — ohne dass ein Mensch jeden Satz gelesen hat. Volle GxP-Validierung erforderlich.

Die pragmatische Realität: Fast alle Unternehmen fahren Szenario 1 — KI als Assistenz, mit menschlicher Freigabe als festem Schritt. Schneller umgesetzt, regulatorisch sauber, und genau so konzipiert, wie es in den ICH-E3-Leitlinien vorgesehen ist.

Konkrete Werkzeuge — was wann passt

Claude oder ChatGPT mit RAG-Setup — der schnellste Einstieg Lade Studienprotokoll, SAP und Tabellenspezifikationen als PDF in NotebookLM oder als Kontext in Claude bzw. ChatGPT. Definiere Prompts, die der KI sagen, wie ein CSR-Abschnitt strukturiert sein soll. Kosten: 20 bis 30 Euro pro Person und Monat (Claude Pro, ChatGPT Plus oder Team). Keine Validierungsformalität, aber auch keine GxP-Freigabe — nur für Entwürfe mit menschlicher Schlussprüfung.

NotebookLM — günstig, gut für den Proof-of-Concept Kostenlos in der Grundversion, 9,99 Euro pro Monat für Plus. Quellen hochladen, Übersichten erzeugen lassen, Widersprüche identifizieren. Einschränkung: Datenverarbeitung bei Google in den USA, keine EU-Datenresidenz — für echte Patientendaten nicht geeignet, wohl aber für Probeläufe mit anonymisierten Beispielen.

GenInvo DocWrightAI — spezialisiert auf regulatorische Dokumentation Trainiert auf hunderten CSR-Dokumenten, kennt ICH-Leitlinien nativ. Kommt mit GxP-Dokumentation und Audit-Trail. Lizenzkosten etwa 20.000 bis 50.000 Euro pro Jahr. Eine vollwertige professionelle Lösung für Teams, die regelmäßig CSRs schreiben.

Certara CoAuthor — Teil der Certara-Suite Fokussiert auf klinische und regulatorische Dokumente. Sinnvoll, wenn Certara ohnehin im Haus ist (Pharmacometrics, IVIVC). Enterprise-Lizenzmodell, stark abhängig vom Umfang.

Azure OpenAI Service mit EU-Region — GPT-4 mit EU-Datenhaltung und AVV Die passende Wahl, wenn du die Stärke von GPT-4 brauchst und gleichzeitig EU-Konformität einhalten willst. Viele Unternehmen bauen darauf eigene RAG-Systeme. Kosten nutzungsabhängig, typisch 2.000 bis 5.000 Euro pro Monat für ein Medical-Writing-Team.

Kurze Entscheidungshilfe:

  • Schneller Pilot ohne echte Patientendaten → Claude, ChatGPT oder NotebookLM
  • Produktiv mit EU-Datenhaltung → Azure OpenAI mit eigenem RAG-Aufbau
  • Vollwertige Plattform mit Anbieter-Support → GenInvo oder Certara CoAuthor

Datenschutz und Datenhaltung

CSRs enthalten potenziell Patientendaten — auch wenn pseudonymisiert. Diese Daten fallen unter besondere Schutzkategorien nach DSGVO Art. 9 (Gesundheitsdaten).

Was zu beachten ist:

  • Cloud-Systeme brauchen einen belastbaren Auftragsverarbeitungsvertrag nach Art. 28 DSGVO.
  • EU-Datenhaltung ist für deutsche Pharmakonzerne faktisch Pflicht — Inspektoren erwarten sie, auch wenn kein Gesetz sie ausdrücklich vorschreibt.
  • GenInvo und Certara bieten EU-Hosting an. Die Standard-Versionen von Claude und ChatGPT verarbeiten Daten in den USA und sind damit für echte CSR-Inhalte nicht geeignet.
  • NotebookLM läuft auf Google-Infrastruktur in den USA — geeignet für anonymisierte Testläufe, nicht für echte Studienrohdaten.
  • Azure OpenAI bietet EU-Regionen mit Microsoft-AVV — die gängige Wahl für den produktiven Einsatz mit Patientendaten.

Praktische Handhabung:

  • Pilotphase und Testing: Claude oder ChatGPT mit anonymisierten oder synthetischen Beispieldaten.
  • Produktivbetrieb mit echten Studiendaten: GenInvo, Certara oder Azure OpenAI in EU-Region.

Was es kostet — realistisch gerechnet

Drei Szenarien nach CSR-Frequenz und Unternehmensgröße. Richtwerte aus Branchenprojekten, keine Listenpreise.

Szenario 1: Großes Pharmaunternehmen (fünf oder mehr CSRs pro Jahr)

KostenblockAufwand
Spezialisierte Plattform (GenInvo, Certara), Jahreslizenz für 10 Writer50.000–150.000 € pro Jahr
Integration in das bestehende eTMF- oder Vault-System5.000–15.000 €
Schulung und Prozessanpassung (4–6 Wochen)10.000–20.000 €
Summe Jahr 165.000–185.000 €
Summe ab Jahr 250.000–150.000 € pro Jahr
Zeitersparnis200–400 Stunden pro Jahr (entspricht einer Vollzeitstelle)
Personalkosten-Äquivalent40.000–100.000 € pro Jahr
Break-evennach 1 bis 2 Jahren

Szenario 2: Mittleres Pharmaunternehmen oder CRO (zwei bis drei CSRs pro Jahr)

KostenblockAufwand
Claude Pro oder ChatGPT Team (10 Writer)2.400–3.600 € pro Jahr
Azure OpenAI in EU-Region, für Produktivdaten3.000–8.000 € pro Jahr
Prozess-Setup und Prompt-Engineering (leicht)2.000–5.000 €
Summe Jahr 17.400–16.600 €
Summe ab Jahr 25.400–11.600 € pro Jahr
Zeitersparnis80–150 Stunden pro Writer und Jahr
Personalkosten-Äquivalent15.000–30.000 € pro Jahr
Break-evenbereits im ersten Jahr positiv

Szenario 3: Biotech-Startup oder kleiner Sponsor (eine CSR alle zwei Jahre)

KostenblockAufwand
Claude Pro oder ChatGPT Plus (3–5 Writer)720–1.500 € pro Jahr
Prozess-Training und Prompt-Design (in Eigenregie)1.000–3.000 € einmalig
Summe Jahr 11.720–4.500 €
Summe ab Jahr 2720–1.500 € pro Jahr
Zeitersparnis30–50 Stunden pro CSR
Personalkosten-Äquivalent6.000–12.000 € pro CSR
Break-evenbereits positiv, wenn mindestens eine CSR pro Jahr entsteht

Ehrliche Einordnung: Der ROI ist gut — sogar für kleine Teams. Die eigentliche Hürde ist nicht der Preis, sondern die Datenqualität und Prozessdefinition. RAG-Systeme brauchen strukturierte Quellen — SAP, Protokoll, Tabellenspezifikationen. Ist die Dokumentation chaotisch, bringt auch das beste Tool wenig.

Drei typische Einstiegsfehler

Fehler 1: Zu viel Vertrauen in den KI-Output — zu wenig kritisches Review. Die verführerische Annahme: „Die KI hat den Entwurf geschrieben, ich lese ihn durch und gebe frei.” Die Realität: KI-Texte enthalten subtile Fehler, die schwer zu erkennen sind. Der Text liest sich professionell — die klinische Logik dahinter stimmt aber nicht immer.

Ein typisches Beispiel: Die KI schreibt „Mit einer Response Rate von 45 Prozent (95 % KI 40–50) zeigte das Medikament Wirksamkeit.” Der Statistical Analysis Plan hat die Erfolgsschwelle aber bei 50 Prozent definiert — und damit ist die Aussage streng genommen falsch. Eine formal korrekt wirkende, inhaltlich unbelegte Interpretation.

Was hilft: Aktives Review statt passiver Freigabe. Gerade bei klinischer Interpretation und statistischen Aussagen muss eine Person mit biometrischer oder medizinischer Kompetenz den Text prüfen, nicht allein ein zweiter Writer.

Fehler 2: Das RAG-System wird nicht mit aktuellen Quellen gepflegt. Die KI wird auf SAP Version 1.0 trainiert. Später wird auf Version 2.0 aktualisiert. Die KI referenziert aber weiter die alte Version — und niemand merkt es, bis die Einreichung mit überholten Zahlen in die Behörde geht.

Was hilft: Dokumentieren, welche Quellen das System nutzt und wann sie zuletzt aktualisiert wurden. Vor jedem neuen Projekt eine Quellenaktualisierung ansetzen. Das ist kein einmaliger Setup-Aufwand, sondern laufende Pflege — mit klar benannter Verantwortung.

Fehler 3: Überzogene Erwartungen an die Fehlerreduktion. Die Hoffnung: „Mit KI haben wir 80 Prozent weniger Fehler.” Die Realität: KI reduziert bestimmte Fehlertypen — Formatierung, Zahlenkonsistenz, Referenzlücken. Gleichzeitig entstehen neue Fehlerquellen: Halluzinationen, falsch interpretierte Tabellen, subtil verschobene Formulierungen. Die realistische Fehlerreduktion liegt eher bei 30 bis 50 Prozent.

Was hilft: Realistische Erwartungen setzen. KI reduziert die typischen menschlichen Fehler (Zahlendreher, Tippfehler), erzeugt aber eigene, subtilere Fehler. Beide Seiten gehören in die Erwartung — und beide gehören in den Review-Prozess.

Was mit der Einführung wirklich passiert — und was nicht

Was passiert:

  • Woche 1–2. Das Team lernt das Werkzeug kennen. Erste Versuche mit Beispielentwürfen. Die dominierende Frage: „Kann ich der KI in diesem Kontext überhaupt trauen?”
  • Woche 3–4. Erste echte CSR-Entwürfe entstehen mit KI-Unterstützung. Direkter Vergleich mit der bisherigen Arbeitsweise: Wie schnell geht es, wie viele Fehler schleichen sich ein?
  • Woche 5–8. Prozessoptimierung. Welche Prompts liefern verwertbare Entwürfe? Welche Quellen braucht das System im Kontext? Wo lohnt sich manuelle Nachbearbeitung, wo nicht?
  • Woche 9–12. Die Nutzung wird Routine. Der Produktivitätsgewinn wird sichtbar, die Debatten verlagern sich von „ob” zu „wie”.

Was nicht passiert:

  • Die erste CSR wird nicht 40 Prozent schneller fertig. Sie dauert ähnlich lange oder sogar länger, weil das Team die KI-Funktionen erst lernt und ausreichend testet.
  • Nicht alle sind sofort begeistert. Skepsis ist normal: „Die KI macht Fehler, ich prüfe ohnehin alles manuell.” Diese Phase legt sich zwischen Woche 8 und 12, wenn die Ersparnis im Alltag spürbar wird.
  • Die Qualität steigt nicht ab Tag eins. In den ersten Wochen ist sie teils niedriger — weil neue Fehlerquellen auftauchen. Sie verbessert sich, sobald das Team gelernt hat, den KI-Output kritisch zu lesen.

Typische Adoptionsrisiken:

  • Skepsis erfahrener Writer. „Ich mache das seit zehn Jahren — die KI ist Spielzeug.” Gegenmittel: am konkreten Beispiel zeigen, dass die KI die repetitive Arbeit abnimmt und mehr Zeit für Interpretation und Argumentation freischaufelt.
  • Halluzinationen. Die KI erfindet gelegentlich Zahlen. Wird das nicht bemerkt, landet eine Halluzination in der Einreichung — mit entsprechenden Folgen. Gegenmittel: verpflichtende Regel, dass jede Zahl im Text mit der Quelle abgeglichen wird, ohne Ausnahme.
  • Vertrauen ohne Prüfung. Eine Junior-Kraft übernimmt einen KI-Entwurf, „weil er ja von der KI stammt”. Gegenmittel: klare Prozessregel, dass jeder Entwurf durch eine erfahrene Person freigegeben wird, bevor er weitergereicht wird.

Realistischer Zeitplan mit Risikohinweisen

PhaseDauerWas passiertTypisches Risiko
Werkzeug-Evaluierung2–3 WochenClaude, ChatGPT und NotebookLM testen, mit bestehenden Prozessen vergleichenÜberoptimismus, unrealistische Erwartungen
Proof-of-Concept mit Beispiel-CSR2–4 WochenEin echter CSR-Abschnitt wird mit KI-Hilfe erstellt, Vergleich zur manuellen FassungKI-Output ist schlechter als erwartet — Fehleranalyse nötig
Prompt-Design und Feintuning2–4 WochenWelche Prompts tragen? Wie muss die Quelldatenstruktur aufbereitet sein?Viel Iteration, anfängliche Ernüchterung
Pilotbetrieb im Team4–6 WochenEin Dokumenttyp (z. B. Methodenabschnitt eines CSR) wird mit zwei bis drei Writern produktiv bearbeitetUnterschiedliche Qualität je nach Writer, Schulungsbedarf
Rollout auf alle CSRslaufendKI-Unterstützung wird Standard, neue CSRs nutzen den Assistenten von Anfang anLaufende Pflege, Tool-Updates, Aktualisierung der Quellen

Gesamtdauer bis zur eingespielten Routine: 10 bis 14 Wochen.

Zentrales Risiko: Sind die Quelldokumente schlecht strukturiert — unvollständige SAPs, fehlende Tabellenspezifikationen — verlängert sich die Pilotphase um zwei bis vier Wochen.

Häufige Einwände — und was dahintersteckt

Einwand 1: „KI macht Fehler — das Risiko können wir nicht eingehen.”

Eine berechtigte Sorge. CSRs sind regulatorisch sensibel, ein einzelner Fehler kann einen Zulassungsprozess um Monate verzögern.

Der Punkt: KI macht andere Fehler als Menschen — Halluzinationen, Kontextverluste, subtile Verschiebungen. Menschen machen ihre eigenen Fehler, besonders nach vielen Stunden an einem 1.200-Seiten-Dokument: Zahlendreher, Referenzfehler, übersehene Inkonsistenzen. Der Mix aus KI-Entwurf und menschlicher Freigabe reduziert beide Fehlerarten — besonders dort, wo KI präzise ist, etwa bei der Konsistenzprüfung. Das Risiko ist nicht höher, es ist anders. Beides muss im Review-Prozess adressiert werden.

Einwand 2: „Das ist zu komplex für unsere Prozesse — wir brauchten eine Integration ins eTMF.”

Reale Komplexität, wenn die KI tatsächlich direkt in das eTMF schreiben soll — dann steht Integrationsarbeit an und möglicherweise eine GxP-Validierung.

Der Punkt: Das ist gar nicht nötig. Der Assistent läuft als eigenständiges Werkzeug. Der Writer erstellt den Entwurf außerhalb des validierten Systems, exportiert das finale Dokument und legt es erst nach menschlicher Freigabe ins eTMF ab. Keine technische Integration, keine Validierung des KI-Tools. Der Weg über die Freigabegrenze hinweg bleibt manuell — und genau das hält die Prozesskomplexität niedrig.

Einwand 3: „Unsere Quelldaten sind zu chaotisch — die KI wird damit nicht funktionieren.”

Ein reales Problem. RAG-Systeme brauchen strukturierte Quellen. Wenn SAPs unvollständig sind und Tabellen uneinheitlich benannt, liefert das beste Modell schwache Ergebnisse.

Der Punkt: Das ist kein KI-Problem, sondern ein Problem der Dokumentationsdisziplin. Die Unterlagen müssten ohnehin besser strukturiert sein — KI macht diesen Mangel nur sichtbar. In der Praxis ist der KI-Einsatz oft der Anlass, der endlich zu Ordnung in der Quellenablage führt. Wer vorab in SAP-Struktur und Dokumentationsstandards investiert, bekommt ein produktives System — und gleichzeitig saubere Grundlagen für alle künftigen Einreichungen.

Woran du merkst, dass das zu dir passt

✓ Du schreibst mindestens zwei bis drei CSRs oder große regulatorische Dossiers pro Jahr ✓ Deine Medical Writer verbringen mehr als 30 Prozent ihrer Zeit mit Recherche und Konsistenzprüfung — nicht mit der eigentlichen inhaltlichen Arbeit ✓ Deine Quelldokumente (Protokolle, SAPs, Tabellenspezifikationen) sind halbwegs strukturiert ✓ Du hast einen Dokumentationsstandard im Haus — oder bist bereit, ihn aufzubauen: klare Nomenklatur, versionierte Quellen, verantwortliche Personen ✓ Dein Team ist bereit, Prüfroutinen für KI-Output zu etablieren — nicht nur „drüberlesen”

Wann das nicht zu dir passt:

✗ Du schreibst weniger als zwei CSRs pro Jahr — der Setup-Aufwand rechtfertigt die Investition nicht. Bleib vorerst bei der bisherigen Methode oder setze den Assistenten punktuell für einzelne Abschnitte ein. ✗ Deine Quelldokumente sind zu mehr als 60 Prozent unstrukturiert — dann kommt Dokumentationsordnung vor KI. Ein RAG-System verarbeitet nur, was es findet. ✗ Du kannst keine klare Reviewkette aufbauen — KI-Texte ohne qualifizierte Freigabe sind in der regulatorischen Arbeit keine Option, sondern ein Risiko.

Das kannst du heute noch tun

Schritt 1: Proof-of-Concept mit einem alten CSR-Abschnitt. Nimm einen bereits eingereichten und akzeptierten CSR, extrahiere den Methodenabschnitt und teste ihn in Claude oder ChatGPT — in einer Enterprise-Variante mit klarer Datenverwendungszusage, nicht im öffentlichen Chat. Nutze den folgenden Prompt als Startpunkt. Ziel ist kein regulatorisches Artefakt, sondern eine ehrliche Einschätzung: Was würde die KI finden, was hat der Mensch damals gefunden, wo liegen die Lücken?

CSR-Methodenabschnitt: Review und Überarbeitung
Du bist Medical Writer spezialisiert auf Clinical Study Reports. Ich gebe dir einen CSR-Methodenabschnitt und ein paar Quelldateien (SAP, Studienprotokoll). AUFGABEN: 1. Lese den Methodenabschnitt und identifiziere alle Zahlen, Parameter und Definitionen 2. Vergleiche sie mit dem SAP und Protokoll 3. Flagge alle Unstimmigkeiten oder fehlende Erklärungen 4. Schlage Verbesserungen für Klarheit vor 5. Generiere einen verbesserten Methodenabschnitt mit den Korrektionen QUELLDATEIEN: [Studienprotokoll gekürzt: Primary Endpoint ist X, Sample Size N=450, Dosierung 50mg QD] [SAP Ausschnitt: N=448 nach Ausschluss-Kriterien, Primary Endpoint definiert als...] CSR-METHODENABSCHNITT (zu prüfen): [Hier den Text einfügen] Gib folgende Ausgabe: 1. Liste aller Unstimmigkeiten 2. Verbesserte Fassung des Abschnitts 3. Risikobewertung: Welche Punkte wären regulatorisch kritisch?
Funktioniert mit Claude, ChatGPT
Beispiel-Ausgabe

Mitarbeiter:in

Ein Methodenabschnitt mit Quelldaten

KI-Assistent

**Identifizierte Unstimmigkeiten:** 1. Der CSR nennt N=450, der SAP nennt N=448 — zwei Patientinnen oder Patienten wurden nach den Ausschlusskriterien entfernt. 2. Der CSR nennt den Zeitpunkt des Ausschlusses nicht — Baseline oder Einschluss? 3. Das Dosierungsschema wird im CSR als „50 mg täglich" beschrieben, das Protokoll spricht dagegen von „50 mg einmal täglich oder 25 mg zweimal täglich nach Entscheidung der Prüfärztin/des Prüfarztes" — nicht deckungsgleich. **Verbesserter Methodenabschnitt:** „Diese randomisierte, doppelblinde, placebokontrollierte Studie umfasste 450 Patientinnen und Patienten bei Studieneinschluss. Zwei Teilnehmende wurden nach Überprüfung der Basisdaten ausgeschlossen, weil sie die Einschlusskriterien nicht erfüllten (IgG unterhalb X); die Primäranalysepopulation umfasste damit N=448. Die Dosierung war protokollseitig flexibel: 50 mg einmal täglich oder 25 mg zweimal täglich nach Entscheidung der Prüfärztin oder des Prüfarztes. Primärer Endpunkt war ..." **Risikobewertung:** ⚠️ Kritisch: Die Abweichung zwischen 450 und 448 muss mit Zeitpunkt und Begründung im Text erklärt sein — die FDA wird diese Lücke monieren. ✓ Niedrig: Die Dosierungsflexibilität ist unproblematisch, solange sie im Studienprotokoll verankert ist.

Das Ergebnis zeigt dir, wo die KI trägt — und wo nicht. Wenn der Pilot überzeugt, trägt auch der Business-Case für die produktive Einführung.

Schritt 2: Prozessaudit (2–4 Wochen). Wie lange braucht ein Medical Writer für einen CSR? Schlüssele die Zeit auf:

  • Recherche in Quelldaten: X Stunden
  • Eigentliches Schreiben: Y Stunden
  • Konsistenzprüfungen: Z Stunden
  • Review-Schleifen: W Stunden

Liegen X und Z zusammen über 30 Prozent der Gesamtzeit, ist der KI-Einsatz wirtschaftlich begründet. Andernfalls bleibt das Problem wahrscheinlich woanders — etwa in der wissenschaftlichen Interpretation, die KI nicht ersetzt.

Schritt 3: Werkzeugvergleich (nächster Monat). Teste Claude, ChatGPT und NotebookLM an einem echten Fall aus deinem Projekt. Drei Kriterien:

  • Geschwindigkeit: Wie schnell beantwortet das Tool eine konkrete Rechercheanfrage?
  • Genauigkeit: Wie viele KI-Fehler musst du manuell korrigieren?
  • Integration: Wie reibungslos fügt sich das Tool in deinen bestehenden Arbeitsablauf ein?

Auf dieser Grundlage entscheidest du: Reichen die allgemeinen Modelle (Claude, ChatGPT) oder lohnt eine spezialisierte Plattform (GenInvo, Certara)? Die Antwort hängt mehr an der CSR-Frequenz und der Datenarchitektur als am Modell selbst.

Quellen & Methodik

Diesen Inhalt teilen:

🤝

Interesse an diesem Use Case?

Schreib uns, wenn du mehr erfahren oder diesen Use Case für dein Unternehmen umsetzen möchtest. Wir melden uns zeitnah bei dir.

Deine Daten werden ausschließlich zur Bearbeitung deiner Anfrage verwendet (Art. 6 Abs. 1 lit. b DSGVO). Mehr in unserer Datenschutzerklärung.

Kostenloser Newsletter

Bleib auf dem neuesten
Stand der KI

Wähle deine Themen und erhalte relevante KI-News, Praxistipps und exklusive Inhalte direkt in dein Postfach – kein Spam, jederzeit abmeldbar.

Was interessiert dich? Wähle 1–3 Themen — du bekommst nur Inhalte dazu.

Mit der Anmeldung stimmst du unserer Datenschutzerklärung zu. Jederzeit abmeldbar.

Kostenlos
Kein Spam
Jederzeit abmeldbar