AMNOG-Nutzenbewertungsdossier mit KI effizienter erstellen
KI extrahiert klinische Evidenz automatisch aus Studienpublikationen und CTD-Modulen, strukturiert Dossier-Bausteine für die G-BA-Einreichung und reduziert den manuellen Aufwand bei der AMNOG-Dossier-Erstellung erheblich.
- Problem
- Ein AMNOG-Dossier (Modul 4/5) kostet heute 6–12 Monate Expertenzeit von Medical Affairs, HEOR und Regulatory. Hunderte Studien müssen systematisch extrahiert, bewertet und im G-BA-Format aufbereitet werden — bei engen Einreichungsfristen.
- KI-Lösung
- KI-Systeme lesen klinische Studienpublikationen, Systematic Reviews und RWE-Daten, extrahieren PICO-Elemente automatisch, erstellen Evidenztabellen und befüllen vordefinierte Dossier-Templates. Medical Writer validieren statt strukturieren.
- Typischer Nutzen
- Screening-Aufwand bei systematischer Literaturrecherche um 40–80 % reduziert. Weniger manuelle Extraktionsfehler. Mehr Kapazität für strategische Bewertung und Argumentation gegenüber dem G-BA.
- Setup-Zeit
- 4–6 Monate bis validierter Pilot — Regulatory-Freigabe nicht überspringbar
- Kosteneinschätzung
- Externe Consulting-Kosten (ca. 800k€ je Dossier) teilweise substitutierbar
Es ist Donnerstag, 22:47 Uhr.
Dr. Jana Richter sitzt im Homeoffice vor drei Monitorbildschirmen. Der Zulassungstermin ist übernächsten Montag — das Dossier muss 12 Wochen nach Markteinführung beim G-BA vorliegen. Modul 4, Abschnitt 4.3.1: Systematische Literaturrecherche. Ihr Team hat 3.400 Treffer aus MEDLINE, Embase und Cochrane gezogen. Davon sind nach Titelscreening 420 übrig. Zwei Reviewerinnen haben parallel gearbeitet, 180 Konflikte müssen noch aufgelöst werden. Parallel extrahiert ihr Kollege Julien die PICO-Elemente aus 87 eingeschlossenen Studien in eine Excel-Tabelle, die nicht mehr mit der Datenextraktionsliste vom Medical Writer übereinstimmt — weil jemand letzte Woche eine neue Spalte eingefügt hat.
Der Medical Writer braucht die fertige Evidenztabelle bis Freitagmittag.
Das ist kein Ausnahmezustand. Das ist AMNOG-Alltag.
Das echte Ausmaß des Problems
Ein AMNOG-Dossier nach §35a SGB V kostet ein pharmazeutisches Unternehmen im Durchschnitt rund 800.000 Euro — das belegt eine Analyse des Verbands der forschenden Arzneimittelhersteller (vfa). Dieser Betrag umfasst internes Personalaufwand aus Medical Affairs, HEOR und Regulatory Affairs sowie externe Beratungskosten. Die Erstellungszeit liegt typischerweise bei 9–12 Monaten, obwohl das eigentliche Einreichungsfenster nach Markteinführung nur 12 Wochen beträgt.
Das Volumen der Dossiers hat sich in den letzten Jahren drastisch erhöht: Der Durchschnitt der Module 1–4 stieg von etwa 750 auf 3.500 Seiten — eine Vervierfachung. In einzelnen Indikationen — etwa onkologischen Erkrankungen mit mehreren Patientensubgruppen — sind Dossiers mit 20.000 bis 40.000 Seiten dokumentiert.
Was besonders verstört: Nur 23 Prozent der eingereichten Analysen werden in der G-BA-Nutzenbewertung tatsächlich berücksichtigt, wie eine vfa-beauftragte Studie zeigt. Subgruppenanalysen werden zu 14 Prozent einbezogen, Sensitivitätsanalysen für Wirksamkeitsendpunkte zu 39 Prozent, Ergebnis-Plots zu 23 Prozent. 77 Prozent der Analyseleistung landet faktisch im Papierkorb — nicht weil sie falsch war, sondern weil der G-BA eigene Selektionskriterien anlegt.
Das HEOR-Team verbringt also einen erheblichen Teil seiner Zeit damit, Analysen zu erstellen, die der G-BA nach den Vorgaben seiner Verfahrensordnung nicht in die Bewertung einfließen lassen kann. Das ist weder Schuld der Unternehmen noch des G-BA — es ist die Konsequenz eines hochstandardisierten Verfahrens, das jeden Spielraum für Ambiguität ausschließt.
Mit vs. ohne KI — ein ehrlicher Vergleich
| Teilaufgabe | Ohne KI | Mit KI-Unterstützung |
|---|---|---|
| Titel-/Abstract-Screening (3.000 Treffer) | 15–20 Werktage (2 Reviewer) | 6–10 Werktage — KI priorisiert relevante Treffer vorab |
| PICO-Extraktion aus 80–100 Studien | 3–5 Wochen | 1–2 Wochen — KI-Vorschläge, Reviewer validiert |
| Evidenztabelle strukturieren | 3–5 Tage | 1–2 Tage — KI füllt Templates aus validierten Extraktionen |
| Narrativer Abschnitt Modul 4.3 | 5–10 Tage Medical Writer | 2–4 Tage — KI-Erstentwurf, Fachexperte überarbeitet |
| Konsistenzprüfung Dossier | 3–5 Tage | 1–2 Tage — KI erkennt Inkonsistenzen zwischen Modulen |
Alle Zeitangaben sind Schätzungen aus HEOR-Erfahrungsberichten und Anbieter-Benchmarks (DistillerSR, ConnectHEOR). Jede KI-generierte Extraktion muss durch den zuständigen HEOR-Wissenschaftler validiert werden, bevor sie in das Dossier einfließt. KI verkürzt die Bearbeitungszeit, ersetzt aber nicht die fachliche Entscheidung.
Einschätzung auf einen Blick
Zeitersparnis — hoch (4/5) Der größte Hebel liegt beim systematischen Literaturscreening. DistillerSR dokumentiert eine mediane Aufwandsreduktion von 47 Prozent bei 95 Prozent Recall in validierten Reviews. ASReview berichtet in Studien aus Nature Machine Intelligence von bis zu 95 Prozent Aufwandsreduktion bei vollständiger lokaler Datenhaltung. Für ein Team, das regelmäßig drei bis fünf systematische Reviews parallel fährt, entspricht das mehreren Personenmonaten pro Dossier. Das Screening ist der zeitintensivste manuelle Schritt — genau dort greift KI am stärksten.
Kosteneinsparung — mittel (3/5) Die direkten Einsparungen sind real: Weniger Screening-Zeit bedeutet weniger Berater-Stunden, die zu 150–300 Euro netto abgerechnet werden. Bei einem 800.000-Euro-Dossier kann ein gut konfigurierter KI-Workflow realistisch 80.000–200.000 Euro an externer Consulting-Leistung ersetzen. Die Lizenzkosten für DistillerSR sind nicht unerheblich, fallen aber gegenüber dem Gesamtbudget kaum ins Gewicht. Nicht substituierbar: das HEOR-Expertenurteil für die strategische Evidenzbewertung und die Preisverhandlung mit dem GKV-Spitzenverband.
Schnelle Umsetzung — niedrig (2/5) Das ist der ehrlichste Score dieser Seite. Ein KI-Workflow für AMNOG-Dossiers ist kein Wochenend-Projekt. Vor dem Produktiveinsatz sind zu klären: Auswahl und Vertragsgestaltung der Tools, DSGVO-Prüfung für Studiendaten, Kalibrierung der Extraktionsformulare auf die spezifischen PICO-Kriterien, Validierungsruns mit bekannten Goldstandard-Reviews, und — besonders in regulierten Unternehmen — die formale Freigabe durch Regulatory Affairs und Qualitätssicherung. Realistisch vergehen 4–6 Monate bis zum ersten produktiven Einsatz. Die Bewertung ist im Pharma-Branch eine der niedrigsten, weil kein anderer Anwendungsfall in diesem Bereich so strenge Validierungsvoraussetzungen hat.
ROI-Sicherheit — mittel (3/5) Die Zeitersparnis beim Screening ist messbar und reproduzierbar — das ist der sichere Teil. Was schwerer zu greifen ist: ob ein KI-unterstützter Workflow die Argumentationsqualität des Dossiers verbessert oder nur die Erstellungsgeschwindigkeit. Der G-BA entscheidet auf Basis der klinischen Daten, nicht auf Basis der Dokumentenqualität. Ein schlechter Datensatz bleibt ein schlechter Datensatz — KI hilft, ihn schneller zu strukturieren, kann aber keinen Zusatznutzen herbeiargumentieren, der in den Studien nicht vorhanden ist.
Skalierbarkeit — niedrig (2/5) Jedes AMNOG-Dossier ist produktspezifisch: andere Indikation, andere zweckmäßige Vergleichstherapie (ZVT), andere PICO-Kriterien, andere eingeschlossene Studien. Der Workflow skaliert innerhalb eines Teams — aber nicht wie ein allgemeines KI-Tool, das für beliebige neue Anfragen verwendet werden kann. Was skaliert: das generische Screening-Setup und das Extractions-Framework. Was jedes Mal neu kalibriert werden muss: die Review-Frage, die Extraktionsfelder, die Inklusions- und Exklusionskriterien.
Richtwerte — stark abhängig von Unternehmensgröße, internem HEOR-Know-how und Regulierungskontext. Alle Scores beziehen sich auf den Vergleich innerhalb der pharmazeutischen Branche.
Was KI bei der AMNOG-Dossier-Erstellung konkret macht
Der klinische Nutzen eines neuen Arzneimittels wird im AMNOG-Verfahren nicht behauptet, sondern belegt — mit einer systematischen, reproduzierbaren Evidenzbasis, die einem Peer-Review standhalten muss. KI greift in diesem Prozess an mehreren Stellen an:
Schritt 1: Vorabscreening der Literaturtreffer. Aus den Datenbanken MEDLINE, Embase, Cochrane, ClinicalTrials.gov und gegebenenfalls RWE-Datenbanken entstehen typischerweise 2.000–6.000 Treffer. KI-gestützte Screening-Tools lernen aus den ersten 50–150 manuellen Inklusions- und Exklusionsentscheidungen und sortieren die verbleibenden Treffer nach Relevanz-Wahrscheinlichkeit. Der Reviewer arbeitet von oben nach unten und kann das Screening beenden, wenn die Trefferdichte deutlich unter die statistische Schwelle fällt — ohne relevante Studien zu übersehen.
Schritt 2: PICO-Extraktion aus Volltexten. Für jede eingeschlossene Studie müssen die vier Kern-Dimensionen extrahiert werden: Patientenpopulation, Intervention (das neue Arzneimittel), Comparator (die zweckmäßige Vergleichstherapie) und Outcome-Maße (Sterblichkeit, Morbidität, Nebenwirkungen, gesundheitsbezogene Lebensqualität). LLM-basierte Extraktionssysteme — entweder direkt in DistillerSR integriert oder via Elicit — schlagen für jedes Feld einen Wert vor, der dann vom zuständigen HEOR-Wissenschaftler verifiziert wird. Keine Automatisierung ohne menschliche Freigabe: Jedes extrahierte Datenelement muss vor der Übernahme in das Dossier explizit bestätigt werden.
Schritt 3: Evidenztabellen strukturieren. Aus den validierten Extraktionen entsteht die Evidenztabelle — das Herzstück von Modul 4. KI-Systeme befüllen vordefinierte Templates auf Basis der Extraktionsdatenbank, sortieren nach Studiendesign und Qualitätsmerkmalen und markieren Inkonsistenzen (etwa wenn verschiedene Studien unterschiedliche Definitionen desselben Endpunkts verwenden).
Schritt 4: Narrative Dossier-Abschnitte. Generative KI-Systeme können aus validierten Extraktionen narrative Erstentwürfe für Modul-4-Abschnitte erzeugen: Beschreibung der eingeschlossenen Studien, Zusammenfassung der Evidenzlage, Begründung für indirekte Vergleiche. Diese Entwürfe werden grundsätzlich als Arbeitsmaterial behandelt, nicht als finaler Text — der Medical Writer überarbeitet, ergänzt strategische Argumentation und stellt sicher, dass die Sprache der G-BA-Verfahrensordnung entspricht.
Was Modul 4 und Modul 5 konkret enthalten
Um zu verstehen, wo KI nützt und wo sie nichts beitragen kann, muss man die Modulstruktur kennen.
Modul 4 — Medizinischer Teil (Nutzenbewertung) ist der Kern des Dossiers. Es enthält:
- Die systematische Literaturrecherche mit vollständiger PRISMA-Dokumentation
- Beschreibung und kritische Bewertung aller eingeschlossenen Studien
- Extraktion und Aufbereitung der patientenrelevanten Endpunkte
- Indirekte Vergleiche / Netzwerk-Meta-Analysen, wenn kein Direktvergleich mit der ZVT vorliegt
- Integration von Real-World-Evidence (RWE), wenn direkte Studienbelege fehlen
- Zusammenfassung der Evidenzlage und Ableitung des Zusatznutzens
Modul 5 — Klinische Studienberichte enthält die vollständigen klinischen Studienberichte (CSRs) und Statistischen Analysepläne (SAPs) für alle relevanten Studien. Modul 5 ist häufig volumenmäßig das größte Modul — in onkologischen Indikationen mit globalen Zulassungsstudien kann allein Modul 5 mehrere Tausend Seiten umfassen. KI kann hier bei der Extraktion spezifischer Datenpunkte aus CSRs helfen (z. B. Tabellendaten, AE-Inzidenzen, Studienpopulationen), sofern die Systemdokumentation zeigt, dass die Extraktion korrekt ist.
Was KI nicht kann: die zweckmäßige Vergleichstherapie bestimmen (das ist eine regulatorische und strategische Entscheidung), die klinische Relevanz von Endpunkten beurteilen, oder die Argumentation gegenüber dem G-BA entwickeln. Diese Entscheidungen sind Kernkompetenz des HEOR-Teams und erfordern medizinisches Fachwissen, das kein heutiges Modell ersetzt.
Der AMNOG-Zeitplan: warum 12 Wochen das kritische Fenster sind
Nach der Markteinführung eines neuen Arzneimittels laufen genau 12 Wochen, bis das Dossier beim G-BA vorliegen muss. In der Praxis heißt das: Das Dossier muss fertig sein, bevor das Produkt für die breite GKV-Versorgung verfügbar ist. Wer zu spät einreicht, riskiert das gesamte AMNOG-Verfahren.
Dieser Zeitplan zwingt Pharma-Unternehmen dazu, die Dossier-Erstellung lange vor der Markteinführung zu beginnen — typischerweise 9–12 Monate vorher, parallel zur laufenden Zulassungsphase. Das HEOR-Team muss also mit vorläufigen Zulassungsdaten arbeiten und das Dossier sukzessive anpassen, wenn die finale Fachinformation vorliegt.
Für die KI-gestützte Arbeitsweise hat das eine konkrete Implikation: Der Screening- und Extraktions-Workflow muss so aufgebaut sein, dass er schnell aktualisierbar ist — wenn kurz vor Einreichung neue Studien publiziert werden oder der G-BA im Beratungsgespräch andere Endpunkte priorisiert, müssen Teile des Reviews innerhalb von Tagen, nicht Wochen angepasst werden können.
Der G-BA bietet vor der Einreichung ein freiwilliges Beratungsgespräch an, in dem Unternehmen die geplante ZVT und die geplante Evidenzstrategie vorab abstimmen können. Wer dieses Gespräch nutzt und die KI-gestützten Reviews bereits auf die dort besprochene ZVT und die dort priorisierten Endpunkte ausrichtet, vermeidet einen der teuersten Fehler: einen systematischen Review auf eine ZVT aufzusetzen, die der G-BA am Ende nicht anerkennt.
Konkrete Werkzeuge — was wann passt
Die Toollandschaft teilt sich nach Zielgruppe und Compliance-Anforderung:
DistillerSR — der Enterprise-Standard für regulierte HEOR-Reviews. Wird nach eigenen Angaben von über 70 Prozent der 20 größten Pharma-Unternehmen genutzt. AI Rerank reduziert den Screening-Aufwand im Median um 47 Prozent bei 95 Prozent Recall. Vollständiges Audit-Trail, konfigurierbare Extraktionsformulare für PICO-Daten, PRISMA-konforme Dokumentation. Preis nur auf Anfrage, liegt aber im Enterprise-Bereich. Die Datenhaltung erfolgt in den USA — DSGVO-Prüfung vor Einsatz mit unveröffentlichten Studiendaten erforderlich. Klare Empfehlung für große Pharma-Unternehmen mit mehreren parallelen Dossiers.
ASReview — die kostenlose, Open-Source-Alternative für Teams, die lokale Datenhaltung benötigen. Entwickelt von der Universität Utrecht, in Nature Machine Intelligence publiziert. Active-Learning-Modell, vollständige lokale Verarbeitung (keine Cloud), DSGVO-konform auch für unveröffentlichte CSR-Daten. Erfordert Python-Installation, kein kommerzieller Support. Klare Empfehlung für mittelgroße Biotechs und Akademiker mit Compliance-Anforderungen und begrenztem Budget.
Rayyan — für das initiale Titelscreening in kleineren Reviews oder als Einstiegstool. Freemium-Modell, PRISMA-konformes Screening, KI-Scoring im Essential/Advanced-Plan (ab 4,99–8,33 USD/Sitz/Monat). Datenhaltung US-seitig. PICO-Extraktion nur im Advanced-Plan. Sinnvoll als Ergänzung zu DistillerSR bei hohem Treffervolumen oder als Solo-Tool für Unternehmen, die noch keine regulatorische KI-Freigabe für DistillerSR haben.
Covidence — Cochrane-zertifizierter Standard-Workflow mit LLM-gestützten Extraktionsvorschlägen und Doppelreviewer-Protokoll. 339 USD/Jahr für einen Review, US-Datenhaltung. Weniger auf HEOR/HTA spezialisiert als DistillerSR, dafür methodisch solider für Reviews, die in Publikationen münden (z. B. begleitende Systematic Reviews zur Dossierstrategie).
Elicit — für die Vorab-Discovery-Phase, nicht für den formalen Review. Elicit ist ideal, um zu sondieren, wie dicht die Studienlage zu einer neuen Indikation ist, welche Vergleichstherapien in der Literatur auftauchen und ob indirekte Evidenz verfügbar ist. Für 49 USD/Monat (Pro-Plan) verarbeitet Elicit bis zu 5.000 Paper. Kein Ersatz für den PRISMA-konformen Review, aber ein hervorragendes Frühwarnsystem vor der G-BA-Beratung.
Custom LLM-Pipelines — für Unternehmen mit interner IT-Kapazität: Claude oder ChatGPT über EU-gehostete API-Zugriffswege (AWS Bedrock Frankfurt, Azure Deutschland) können für spezifische Extraktionsaufgaben konfiguriert werden. Der Vorteil: vollständige Kontrolle über System-Prompts, Extraktionslogik und Datenhaltung. Der Nachteil: kein vorgefertigter Review-Workflow — alles muss intern gebaut und validiert werden. Empfehlenswert nur für Unternehmen mit dedizierter Digital-HEOR-Kapazität.
Zusammenfassung: Wann welcher Ansatz
- Großes Pharma, mehrere Dossiers parallel → DistillerSR
- Mittelgroßes Biotech, Datenschutz-Anforderungen, knappes Budget → ASReview
- Einzeldossier, kein IT-Aufwand gewünscht → Rayyan + Covidence
- Explorative Evidenz-Sondierung vor G-BA-Beratung → Elicit
- Maximale Kontrolle, internes IT-Team vorhanden → Custom LLM-Pipeline
Was der G-BA tatsächlich bewertet — und was im Papierkorb landet
Das Verfahren nach §35a SGB V bewertet den Zusatznutzen eines neuen Arzneimittels im Vergleich zur zweckmäßigen Vergleichstherapie (ZVT). Der G-BA legt die ZVT fest — nicht das Unternehmen. Wenn das Unternehmen im Dossier gegen eine andere Vergleichstherapie argumentiert als die, die der G-BA festgelegt hat, wird dieser Teil der Evidenz in der Bewertung nicht berücksichtigt.
Die Bewertungskategorien sind im §35a SGB V und der AM-NutzenV definiert:
| Ausmaß des Zusatznutzens | Bedeutung |
|---|---|
| Erheblich | Kurierung, deutliche Verlängerung der Überlebenszeit, nachhaltige Reduktion schwerer Symptome |
| Beträchtlich | Moderate Verlängerung der Überlebenszeit, moderate Reduktion von Morbidität oder AEs |
| Gering | Geringer, aber spürbarer Vorteil in Morbidität, Nebenwirkungen oder Lebensqualität |
| Nicht quantifizierbar | Verbesserung vorhanden, aber Ausmaß unklar |
| Nicht belegt | Keine ausreichende Evidenz für Zusatznutzen |
| Geringer als Vergleichstherapie | Nachteil gegenüber ZVT |
Seit Einführung des AMNOG im Jahr 2011 bis Ende 2024 hat der G-BA 1.760 Patientengruppen bewertet. Nur 1 Prozent erhielt den Status „erheblicher Zusatznutzen”, 11 Prozent „beträchtlicher Zusatznutzen”. 88 Prozent der Patientengruppen wurden mit „geringem Zusatznutzen”, „nicht quantifizierbar”, „nicht belegt” oder „Zusatznutzen nicht vorhanden” bewertet.
Was das für die KI-Strategie bedeutet: KI optimiert die Effizienz der Dossier-Erstellung, nicht das klinische Ergebnis der Studie. Wer mit schwacher Studienevidenz ins AMNOG-Verfahren geht, bekommt durch einen gut strukturierten Dossier-Workflow keinen besseren G-BA-Bescheid.
Datenschutz und Datenhaltung
Das AMNOG-Dossier enthält vertrauliche klinische Studienberichte (CSRs), unveröffentlichte Studiendaten und gelegentlich patientenbezogene Aggregatdaten aus RWE-Quellen. Bevor ein KI-Tool diese Daten verarbeiten darf, sind mehrere Punkte zu klären:
DSGVO und AVV: Jeder Cloud-Anbieter, der personenbezogene Daten verarbeitet, benötigt einen Auftragsverarbeitungsvertrag (AVV) nach Art. 28 DSGVO. Bei aggregierten, nicht personenbezogenen Studiendaten (Inzidenzen, Mittelwerte, Effektstärken) ist der datenschutzrechtliche Spielraum größer. Sobald individuelle Patientendaten (IPD) im Spiel sind — was bei einigen AMNOG-Dossiers der Fall ist — gelten strengere Anforderungen.
US-Hosting vs. EU-Hosting:
- DistillerSR: US-Hosting (keine EU-Region verfügbar). AVV auf Anfrage erhältlich. Für unveröffentlichte Studiendaten vorab mit dem Datenschutzbeauftragten abstimmen.
- ASReview: Vollständig lokal — kein Cloud-Transfer. Die datenschutzfreundlichste Option, besonders für unveröffentlichte CSR-Daten.
- Rayyan: US-Hosting. Für publizierte Literaturdaten unkritisch; für unveröffentlichte Daten DSGVO-Prüfung erforderlich.
- Covidence: US-Hosting. Vergleichbar mit Rayyan.
- Custom LLM via AWS Bedrock Frankfurt oder Azure Deutschland: EU-Hosting möglich, AVV über jeweiligen Cloud-Anbieter.
Regulatory-Affairs-Freigabe: In regulierten Pharma-Unternehmen (§35a-Dossier als GxP-Dokument) muss der Einsatz von KI-Tools formal validiert und freigegeben werden. Das betrifft Software-Validierung nach GAMP-5-Prinzipien und die Frage, ob KI-generierte Extraktionen als Rohdaten oder als Analyseergebnis eingestuft werden. Klärt diese Frage mit eurer QA, bevor ihr ein Tool in einem laufenden Dossier-Projekt einsetzt.
Interne Daten vs. publizierte Daten: Für das Screening publizierter Literatur (öffentlich zugängliche Abstracts, publizierte Volltexte) sind die Datenschutz-Anforderungen niedrig. Für unveröffentlichte CSRs, interne Protokolle oder Pre-Submission-Diskussionen gelten die vollen Anforderungen.
Was es kostet — realistisch gerechnet
Toolkosten (monatlich)
- ASReview: kostenlos (Open Source, Python-Installation erforderlich)
- Rayyan Advanced: ca. 8,33 USD/Sitz/Monat (jährlich) — für ein 3-köpfiges Team ca. 300 USD/Jahr
- Covidence: 339–907 USD/Jahr für 1–3 parallele Reviews
- Elicit Pro: 49 USD/Monat (588 USD/Jahr)
- DistillerSR: Enterprise-Pricing auf Anfrage, typischerweise ab mehreren Tausend USD/Jahr
Einmalige Einrichtungskosten
- Tool-Evaluierung und DSGVO-Prüfung: 2–4 Wochen interner Aufwand (HEOR + Regulatory + IT)
- Kalibrierung der Extraktionsformulare auf die ersten PICO-Fragestellungen: 1–2 Wochen
- Validierungsrun mit Gold-Standard-Reviews: 2–4 Wochen
- Schulung des Review-Teams: 2–4 Tage
- Gesamter Onboarding-Aufwand: realistisch 4–6 Monate bis produktivem Einsatz
Was sich dagegen rechnen lässt Ein HEOR-Consultant kostet extern typischerweise 150–300 Euro netto pro Stunde. Ein systematischer Review für ein AMNOG-Dossier (Screening + Extraktion + Evidenztabelle) kostet extern 60.000–150.000 Euro. Wenn ein KI-Workflow 40–60 Prozent dieser Arbeit beschleunigt, liegen die direkten Kosteneinsparungen bei 24.000–90.000 Euro pro Review. Bei einem durchschnittlichen Dossier-Budget von 800.000 Euro ist das erheblich — besonders wenn das Unternehmen mehrere Dossiers pro Jahr einreicht.
Das konservative Szenario (30 Prozent Effizienzgewinn, ein Dossier pro Jahr): ca. 20.000–40.000 Euro Einsparung, bei Toolkosten von 5.000–10.000 Euro pro Jahr. Eindeutig positiv. Ob der Workflow sich amortisiert, entscheidet die Anzahl der jährlichen Einreichungen.
Validierungspflicht: Was vor der G-BA-Einreichung geprüft sein muss
Das ist die wichtigste Sektion dieser Seite — und die, die in anderen KI-Ressourcen am häufigsten fehlt.
Ein AMNOG-Dossier ist ein regulatorisches Dokument. Wenn es beim G-BA eingereicht wird, steht das Unternehmen mit seiner Unterschrift dafür ein, dass alle enthaltenen Daten korrekt, vollständig und nachvollziehbar sind. Das hat direkte Konsequenzen für den Einsatz von KI:
Halluzinationen in regulatorischen Kontexten. Generative KI-Systeme — auch die besten verfügbaren — können Studieninhalte falsch wiedergeben, Zahlenwerte verfälschen oder Zitationen für nicht existierende Studien generieren. In einem Blog-Post ist das ärgerlich. In einem G-BA-Dossier, das Grundlage einer Preisverhandlung mit dem GKV-Spitzenverband ist, kann es zu einem formellen Widerspruchsverfahren, zur Rücknahme des Dossiers oder zu Reputationsschäden führen. Der pharmaphorum-Bericht 2025 dokumentiert Fälle, in denen Fachleute in regulierten Kontexten „Bericht mit Phantom-Fußnoten und erfundenen Daten durch KI” einreichten — mit schweren Folgen. Das muss in AMNOG-Kontexten ausgeschlossen werden.
Was das in der Praxis bedeutet:
- Jede KI-extrahierte Zahl muss gegen die Quellstudie geprüft werden — nicht stichprobenartig, sondern vollständig. Tools wie DistillerSR erzwingen das durch ihren Workflows-Ansatz: KI schlägt vor, Reviewer bestätigt. Kein anderer Ansatz ist für Dossier-Kontexte akzeptabel.
- Narrative KI-Textentwürfe sind Arbeitsmaterial, kein Text. Jeder Satz, der in das Dossier einfließt, muss durch einen Medical Writer oder HEOR-Experten überprüft und freigegeben worden sein.
- Keine nicht referenzierten Behauptungen. Jede klinische Aussage im Dossier muss mit einer konkreten Quellenangabe (Studie, Seite, Tabelle, Abschnitt) unterlegt sein. KI-generierte Aussagen ohne Quellenbindung sind regulatorisch nicht akzeptabel.
- Audit-Trail führen. Wer das Dossier beim G-BA einreicht, sollte dokumentieren können, welche Extraktionen mit KI-Unterstützung erstellt und welche manuell validiert wurden. Das schützt bei Rückfragen im Widerspruchsverfahren.
- G-BA entscheidet nach klinischen Daten, nicht nach Dossier-Formulierungen. Das ist der entscheidende Punkt: KI kann die Effizienz der Erstellung verbessern, aber nicht die klinische Substanz des Dossiers verändern. Was in den Studien nicht gezeigt wurde, kann kein Prompt der Welt in eine Nutzenbewertung verwandeln.
Drei typische Einstiegsfehler
1. ChatGPT direkt auf CSR-Texte loslassen — ohne Validierungsschritt. Das ist der verbreitetste und gefährlichste Fehler. Generative KI-Systeme ohne strukturierten Review-Workflow produzieren Extraktionen, die plausibel aussehen, aber Zahlenwerte falsch wiedergeben, Patientenpopulationen durcheinanderwerfen oder Konfidenzintervalle falsch runden. Wer diese Outputs ungefiltert in das Dossier übernimmt, riskiert Fehler in einem regulatorischen Dokument. Lösung: Entweder dedizierte Systematic-Review-Plattformen mit eingebautem Validierungsschritt verwenden, oder jeden Datenpunkt einzeln gegen die Quelle prüfen — was den Zeitvorteil wieder zunichte macht.
2. Den G-BA-Beratungstermin nicht nutzen, bevor der Review-Scope festgelegt wird. Das HEOR-Team definiert die PICO-Kriterien, der Medical Writer schreibt das Protokoll, der Review läuft — und dann stellt sich im Lauf des Verfahrens heraus, dass der G-BA eine andere ZVT anlegt oder einen bestimmten Endpunkt nicht als patientenrelevant anerkennt. Der gesamte Review war auf eine Evidenzfrage ausgerichtet, die das Verfahren nicht entscheidet. Lösung: Frühzeitig das G-BA-Beratungsgespräch beantragen, ZVT und Endpunkte abstimmen, dann erst den Review-Scope festlegen und die KI-Workflow-Konfiguration aufsetzen.
3. Das ist kein reguläres IT-Projekt. HEOR-KI-Tools fallen in regulierten Pharmaunternehmen nicht unter “neue Software einführen”. Sie verarbeiten Eingangsdaten für ein GxP-relevantes Regulierungsdokument. Das bedeutet: Software-Validierung nach GAMP-5-Prinzipien, Change-Control-Prozess, SOP-Anpassungen, Schulungsnachweise. Wer das IT-Onboarding ohne Einbindung von QA und Regulatory beginnt, baut ein Tool auf, das er sechs Monate später nicht einsetzen darf, weil es nicht freigegeben wurde.
Was mit der Einführung wirklich passiert — und was nicht
Die größte interne Hürde ist nicht die Technik — es ist die Frage, wem die HEOR-Evidenzbewertung gehört.
Das Territorial-Argument. Senior-HEOR-Wissenschaftler haben oft zehn oder mehr Jahre in systematische Reviews investiert. Das Wissen, wie man eine gute Review-Frage formuliert, wie man Bias-Risiken bewertet und wie man widersprüchliche Studien gegeneinander abwägt, ist genuines Expertenwissen. Wenn ein KI-Tool diesen Prozess beschleunigt, kann das als Abwertung dieser Expertise empfunden werden — “KI macht das jetzt, wozu braucht man noch mich?” Die ehrliche Antwort: für genau das, was KI nicht kann. Extraktion beschleunigen ist kein Ersatz für klinisches Urteil. Wer das klar und frühzeitig kommuniziert, baut Widerstände ab.
Der Qualitätssicherungs-Reflex. “Wie können wir wissen, dass die KI-Extraktion richtig ist?” Dieser Einwand ist berechtigt. Die Antwort: indem das Team einen Validierungsrun mit einem bekannten Gold-Standard-Review durchführt, bevor das Tool in einem laufenden Dossier eingesetzt wird. Drei bis fünf bereits abgeschlossene Reviews — mit bekannten Ergebnissen — systematisch durch den KI-Workflow laufen lassen und die Abweichungen dokumentieren. Das ist kein Misstrauen gegenüber dem Tool, das ist gute Praxis.
Was konkret hilft:
- Einen internen Champion benennen — idealerweise eine HEOR-Senior-Wissenschaftlerin oder einen Senior-Medical-Writer, der das Tool evaluiert, den Validierungsrun leitet und das Team schult
- Die erste KI-unterstützte Literaturrecherche für ein intern wichtiges, aber nicht laufendes Dossier-Projekt durchführen — kein Produktionsdruck, volle Lernkurve
- Ergebnisse des ersten Projekts transparent mit dem Team teilen — was hat funktioniert, was nicht, was hat überrascht
Realistischer Zeitplan mit Risikohinweisen
| Phase | Dauer | Was passiert | Typisches Risiko |
|---|---|---|---|
| Tool-Auswahl und DSGVO-Prüfung | Woche 1–4 | Tools evaluieren, Datenschutzanforderungen klären, Vendor-Gespräch (DistillerSR) oder Installation (ASReview) | Regulatory-Affairs-Freigabe dauert länger als geplant — QA früh einbinden |
| Workflow-Konfiguration | Woche 5–8 | Extraktionsformulare für PICO-Dimensionen aufsetzen, Screening-Kriterien definieren, Protokoll schreiben | PICO-Definition zu generisch — ohne G-BA-Beratungsgespräch riskiert ihr falschen Scope |
| Validierungsrun | Woche 9–14 | 2–3 Gold-Standard-Reviews durch den KI-Workflow laufen lassen, Ergebnisse gegen manuelle Baseline vergleichen | Tool-Extraktion zeigt 15 % Abweichung — Formular-Anpassung nötig vor Produktiveinsatz |
| Team-Schulung | Woche 13–16 | HEOR-Team und Medical Writer einweisen, SOP aktualisieren, Validierungsnachweise dokumentieren | Widerstand im Team — Einbindung in die Entwicklung des Workflows hilft |
| Erster Produktiveinsatz | Woche 17–24 | Neues laufendes Dossier-Projekt mit KI-unterstütztem Review | Zeitdruck durch AMNOG-Deadline — erster Produktiveinsatz besser nicht unter akutem Einreichungsdruck |
Der Zeitplan ist konservativ — und das absichtlich. Wer schneller vorgehen will, riskiert, ein Tool einzusetzen, das in QA nicht freigegeben wurde oder dessen Extraktionsqualität nicht validiert ist.
Häufige Einwände — und was dahintersteckt
„Wir können KI nicht in einem regulatorischen Dokument einsetzen.” Dieser Einwand kommt meistens von Regulatory Affairs — und er ist nur halb berechtigt. Es gibt keine G-BA-Vorschrift, die KI-gestütztes Screening oder KI-gestützte Extraktion verbietet. Was die Verfahrensordnung verlangt, ist dass die Methodik transparent und reproduzierbar ist. Ein PRISMA-konformer Review, bei dem jede Inklusions- und Exklusionsentscheidung dokumentiert ist, erfüllt diese Anforderung — unabhängig davon, ob Rayyan, DistillerSR oder Excel als Hilfsmittel verwendet wurden. Die entscheidende Frage ist nicht “KI ja oder nein”, sondern “ist die Methodik dokumentiert und validiert”.
„Die Modelle halluzinieren Studien, die gar nicht existieren.” Das stimmt — wenn man generative KI ohne Quellenverankerung einsetzt. Elicit und Rayyan greifen ausschließlich auf existierende publizierte Studien zurück, keine generierten Inhalte. DistillerSR und ASReview verarbeiten nur Literatur, die das Team selbst aus Datenbanken gezogen hat — kein Modell erfindet hier Studien, weil kein Modell Studien produziert. Die Halluzinations-Gefahr liegt bei generativen Systemen, die narrativen Text ohne Quellenverankerung erzeugen sollen. Das ist ein valider Einwand — gegen den falschen Einsatzzweck, nicht gegen KI-gestützte Literaturrecherche generell.
„Wir haben nicht genug HEOR-Kapazität, um ein neues Tool auch noch einzuführen.” Dieser Einwand ist oft der ehrlichste. Wenn das HEOR-Team mit drei oder vier Dossiers gleichzeitig überlastet ist, ist kein mentaler Spielraum für eine Systemeinführung vorhanden. Die Antwort: Einführung bewusst zwischen zwei Dossier-Projekten planen, nicht parallel zum laufenden Einreichungsdruck. Wenn das nie passiert, weil immer ein Dossier läuft — dann ist das genau der Moment, an dem der Workflow-Gewinn durch KI am größten wäre, und die Einführung trotzdem nicht möglich ist. Das ist ein Ressourcen-Problem, kein KI-Problem.
Woran du merkst, dass das zu dir passt
Du bist im richtigen Segment, wenn:
- Dein HEOR-Team mindestens zwei AMNOG-Dossiers pro Jahr einreicht. Bei einem Dossier lohnt der Onboarding-Aufwand kaum. Erst ab zwei oder mehr Einreichungen jährlich amortisiert sich die Investition in Toolauswahl, Validierung und Schulung.
- Ihr führt regelmäßig systematische Literaturreviews mit mehr als 1.000 Treffern durch. Darunter ist der KI-Vorteil beim Screening marginal.
- Euer HEOR-Team hat mindestens eine Person mit Erfahrung in PRISMA-konformen Reviews. KI kann keine methodische Expertise ersetzen — sie beschleunigt sie. Wer PRISMA zum ersten Mal machen will, sollte nicht gleichzeitig KI einführen.
- Ihr habt eine klare DSGVO-Regelung für Studiendaten — entweder via EU-gehosteter Lösung oder via lokaler Verarbeitung. Wer diese Frage offen lässt, darf das Tool nicht einsetzen.
Drei harte Ausschlusskriterien — wann ihr es sein lassen solltet:
-
Wenn kein HEOR-Experte vorhanden ist, der die KI-Outputs validieren kann. KI im AMNOG-Kontext ohne Validierung ist aktiv gefährlich. Das gilt für kleine Pharma- oder Biotech-Unternehmen, die ihr erstes Dossier ausschließlich über externe Berater erstellen. In diesem Fall bleibt die Verantwortung für die Tool-Auswahl und Validierung beim externen Partner — und das muss vertraglich klar geregelt sein.
-
Wenn die Indikation so selten ist, dass die Literaturbasis unter 100 relevante Studien umfasst. Bei Orphan Drugs mit wenigen publizierten Studien ist der Screening-Aufwand gering genug, dass KI-Tools keinen messbaren Vorteil bringen — der Onboarding-Aufwand überwiegt. Das Dossier-Erstellungsproblem bei Orphan Drugs liegt eher bei fehlender Evidenz als bei zu viel Evidenz zum Screenen.
-
Wenn die Software-Validierung nach GAMP-5 nicht in absehbarer Zeit machbar ist. In stark regulierten Unternehmen kann ein formaler Qualifizierungsprozess für neue Software 6–12 Monate dauern. Wer diesen Aufwand nicht schultern kann oder will, sollte den externen HEOR-Partner beauftragen, der das Tool in seiner eigenen validierten Umgebung betreibt.
Das kannst du heute noch tun
Wenn dein Team bisher mit Excel-Screening-Listen arbeitet: Lade ASReview herunter. Es kostet nichts, läuft vollständig lokal und gibt dir innerhalb eines Nachmittags einen konkreten Eindruck, wie KI-Priorisierung in eurem nächsten Review aussehen könnte. Nimm einen abgeschlossenen Review — am besten einen, dessen Ergebnis ihr kennt — und lass ihn durch ASReview laufen. Vergleiche dann: Wie viele der tatsächlich eingeschlossenen Studien hätte das Tool in den ersten 30 Prozent der priorisierten Liste gefunden?
Das dauert einen halben Tag. Was du danach weißt: ob der KI-Priorisierungsansatz für euren Studienkorpus funktioniert — ohne Lizenzkosten, ohne Cloud-Risiken, ohne Vendor-Gespräch.
Für die Extraktion aus eingeschlossenen Studien — wenn du sehen willst, wie LLM-gestützte PICO-Extraktion in der Praxis aussieht — ist folgender Prompt ein guter Einstieg:
Mitarbeiter:in
KI-Assistent
Quellen & Methodik
- AMNOG-Dossier Kosten und Seitenumfang: Verband der forschenden Arzneimittelhersteller (vfa), „AMNOG-Dossiervorlagen: Eine Reduzierung wäre nötig” (vfa.de, abgerufen Mai 2026). Dort: ca. 800.000 Euro Durchschnittskosten, Anstieg von 750 auf 3.500 Seiten (Module 1–4), 77 % der Analysen ohne Berücksichtigung durch den G-BA.
- G-BA-Statistik 2024: Gemeinsamer Bundesausschuss (G-BA), Statistik zur frühen Nutzenbewertung nach §35a SGB V, Stichtag 31. Dezember 2024 (g-ba.de). Dort: 125 Verfahren 2024, 1.760 bewertete Patientengruppen insgesamt seit 2011, 1 % erheblicher Zusatznutzen, 11 % beträchtlicher Zusatznutzen.
- KI in HEOR Systematic Reviews: ConnectHEOR, „Use of Artificial Intelligence in Systematic Literature Review” (connectheor.com, 2024). Dort: ChatGPT 1 Stunde vs. 7–10 Tage Screening, 95 % Sensitivität, 40–83 % Workload-Reduktion; Fehlerquelle: falsche Zitierungen und inkonsistentes MeSH-Linking.
- DistillerSR Effizienz-Benchmark: DistillerSR / Evidence Partners, interne Benchmark-Studie: mediane Screening-Aufwandsreduktion 47,1 % bei 95 % Recall über 10 systematische Reviews (distillersr.com, abgerufen Mai 2026).
- ASReview wissenschaftliche Validierung: Sollenberger & Wang (2025), „ASReview LAB v.2: Open-source text screening with multiple agents and a crowd of experts”, Patterns (Cell Press). Ursprüngliche Veröffentlichung: van de Schoot et al. (2021), Nature Machine Intelligence 3, 125–133. Workload-Reduktion bis 95 %.
- KI-Halluzinationen in regulierten Kontexten: Pharmaphorum, „Controlling AI hallucinations: Building evidence-based trust in clinical and scientific workflows” (pharmaphorum.com, 2025). Dort: 44 % der Organisationen berichten negative Konsequenzen aus GenAI-Einsatz; durchschnittliche finanzielle Verluste 4,4 Mio. USD je Vorfall; Dokumentation von Phantom-Fußnoten in regulatorischen Einreichungen.
- Screening-Aufwandsreduktion allgemein: PMC/NCBI, „An evaluation of DistillerSR’s machine learning-based prioritization tool for title/abstract screening” (pmc.ncbi.nlm.nih.gov, 2020).
Diesen Inhalt teilen:
Interesse an diesem Use Case?
Schreib uns, wenn du mehr erfahren oder diesen Use Case für dein Unternehmen umsetzen möchtest. Wir melden uns zeitnah bei dir.
Weitere Use Cases
Klinische Studiendokumentation strukturieren und prüfen
KI unterstützt bei der Erstellung und Prüfung klinischer Studiendokumente — Protokolle, ICF und Clinical Study Reports — auf Vollständigkeit und ICH-Konformität.
Mehr erfahrenZulassungsanträge für BfArM und EMA vorbereiten
KI unterstützt die Erstellung von CTD-Modulen für nationale und europäische Zulassungsanträge — durch automatische Formatprüfung, Lückenanalyse und Konsistenzcheck.
Mehr erfahrenGxP-Compliance-Status kontinuierlich tracken
KI überwacht laufende GxP-Anforderungen, verfolgt offene CAPA-Maßnahmen und erstellt Compliance-Dashboards für QS-Leitung und Behördenaudits.
Mehr erfahren