Zum Inhalt springen
Pharmaindustrie amnognutzenbewertungmarket-access

AMNOG-Nutzenbewertungsdossier mit KI effizienter erstellen

KI extrahiert klinische Evidenz automatisch aus Studienpublikationen und CTD-Modulen, strukturiert Dossier-Bausteine für die G-BA-Einreichung und reduziert den manuellen Aufwand bei der AMNOG-Dossier-Erstellung erheblich.

⚡ Auf einen Blick
Problem
Ein AMNOG-Dossier (Modul 4/5) kostet heute 6–12 Monate Expertenzeit von Medical Affairs, HEOR und Regulatory. Hunderte Studien müssen systematisch extrahiert, bewertet und im G-BA-Format aufbereitet werden — bei engen Einreichungsfristen.
KI-Lösung
KI-Systeme lesen klinische Studienpublikationen, Systematic Reviews und RWE-Daten, extrahieren PICO-Elemente automatisch, erstellen Evidenztabellen und befüllen vordefinierte Dossier-Templates. Medical Writer validieren statt strukturieren.
Typischer Nutzen
Screening-Aufwand bei systematischer Literaturrecherche um 40–80 % reduziert. Weniger manuelle Extraktionsfehler. Mehr Kapazität für strategische Bewertung und Argumentation gegenüber dem G-BA.
Setup-Zeit
4–6 Monate bis validierter Pilot — Regulatory-Freigabe nicht überspringbar
Kosteneinschätzung
Externe Consulting-Kosten (ca. 800k€ je Dossier) teilweise substitutierbar
KI-gestützte Systematic-Review-Tools (Rayyan, Covidence, DistillerSR) + ASReview für lokale, DSGVO-konforme Verarbeitung + Custom LLM-Pipelines für HEOR-Workflows
Worum geht's?

Es ist Donnerstag, 22:47 Uhr.

Dr. Jana Richter sitzt im Homeoffice vor drei Monitorbildschirmen. Der Zulassungstermin ist übernächsten Montag — das Dossier muss 12 Wochen nach Markteinführung beim G-BA vorliegen. Modul 4, Abschnitt 4.3.1: Systematische Literaturrecherche. Ihr Team hat 3.400 Treffer aus MEDLINE, Embase und Cochrane gezogen. Davon sind nach Titelscreening 420 übrig. Zwei Reviewerinnen haben parallel gearbeitet, 180 Konflikte müssen noch aufgelöst werden. Parallel extrahiert ihr Kollege Julien die PICO-Elemente aus 87 eingeschlossenen Studien in eine Excel-Tabelle, die nicht mehr mit der Datenextraktionsliste vom Medical Writer übereinstimmt — weil jemand letzte Woche eine neue Spalte eingefügt hat.

Der Medical Writer braucht die fertige Evidenztabelle bis Freitagmittag.

Das ist kein Ausnahmezustand. Das ist AMNOG-Alltag.

Das echte Ausmaß des Problems

Ein AMNOG-Dossier nach §35a SGB V kostet ein pharmazeutisches Unternehmen im Durchschnitt rund 800.000 Euro — das belegt eine Analyse des Verbands der forschenden Arzneimittelhersteller (vfa). Dieser Betrag umfasst internes Personalaufwand aus Medical Affairs, HEOR und Regulatory Affairs sowie externe Beratungskosten. Die Erstellungszeit liegt typischerweise bei 9–12 Monaten, obwohl das eigentliche Einreichungsfenster nach Markteinführung nur 12 Wochen beträgt.

Das Volumen der Dossiers hat sich in den letzten Jahren drastisch erhöht: Der Durchschnitt der Module 1–4 stieg von etwa 750 auf 3.500 Seiten — eine Vervierfachung. In einzelnen Indikationen — etwa onkologischen Erkrankungen mit mehreren Patientensubgruppen — sind Dossiers mit 20.000 bis 40.000 Seiten dokumentiert.

Was besonders verstört: Nur 23 Prozent der eingereichten Analysen werden in der G-BA-Nutzenbewertung tatsächlich berücksichtigt, wie eine vfa-beauftragte Studie zeigt. Subgruppenanalysen werden zu 14 Prozent einbezogen, Sensitivitätsanalysen für Wirksamkeitsendpunkte zu 39 Prozent, Ergebnis-Plots zu 23 Prozent. 77 Prozent der Analyseleistung landet faktisch im Papierkorb — nicht weil sie falsch war, sondern weil der G-BA eigene Selektionskriterien anlegt.

Das HEOR-Team verbringt also einen erheblichen Teil seiner Zeit damit, Analysen zu erstellen, die der G-BA nach den Vorgaben seiner Verfahrensordnung nicht in die Bewertung einfließen lassen kann. Das ist weder Schuld der Unternehmen noch des G-BA — es ist die Konsequenz eines hochstandardisierten Verfahrens, das jeden Spielraum für Ambiguität ausschließt.

Mit vs. ohne KI — ein ehrlicher Vergleich

TeilaufgabeOhne KIMit KI-Unterstützung
Titel-/Abstract-Screening (3.000 Treffer)15–20 Werktage (2 Reviewer)6–10 Werktage — KI priorisiert relevante Treffer vorab
PICO-Extraktion aus 80–100 Studien3–5 Wochen1–2 Wochen — KI-Vorschläge, Reviewer validiert
Evidenztabelle strukturieren3–5 Tage1–2 Tage — KI füllt Templates aus validierten Extraktionen
Narrativer Abschnitt Modul 4.35–10 Tage Medical Writer2–4 Tage — KI-Erstentwurf, Fachexperte überarbeitet
Konsistenzprüfung Dossier3–5 Tage1–2 Tage — KI erkennt Inkonsistenzen zwischen Modulen

Alle Zeitangaben sind Schätzungen aus HEOR-Erfahrungsberichten und Anbieter-Benchmarks (DistillerSR, ConnectHEOR). Jede KI-generierte Extraktion muss durch den zuständigen HEOR-Wissenschaftler validiert werden, bevor sie in das Dossier einfließt. KI verkürzt die Bearbeitungszeit, ersetzt aber nicht die fachliche Entscheidung.

Einschätzung auf einen Blick

Zeitersparnis — hoch (4/5) Der größte Hebel liegt beim systematischen Literaturscreening. DistillerSR dokumentiert eine mediane Aufwandsreduktion von 47 Prozent bei 95 Prozent Recall in validierten Reviews. ASReview berichtet in Studien aus Nature Machine Intelligence von bis zu 95 Prozent Aufwandsreduktion bei vollständiger lokaler Datenhaltung. Für ein Team, das regelmäßig drei bis fünf systematische Reviews parallel fährt, entspricht das mehreren Personenmonaten pro Dossier. Das Screening ist der zeitintensivste manuelle Schritt — genau dort greift KI am stärksten.

Kosteneinsparung — mittel (3/5) Die direkten Einsparungen sind real: Weniger Screening-Zeit bedeutet weniger Berater-Stunden, die zu 150–300 Euro netto abgerechnet werden. Bei einem 800.000-Euro-Dossier kann ein gut konfigurierter KI-Workflow realistisch 80.000–200.000 Euro an externer Consulting-Leistung ersetzen. Die Lizenzkosten für DistillerSR sind nicht unerheblich, fallen aber gegenüber dem Gesamtbudget kaum ins Gewicht. Nicht substituierbar: das HEOR-Expertenurteil für die strategische Evidenzbewertung und die Preisverhandlung mit dem GKV-Spitzenverband.

Schnelle Umsetzung — niedrig (2/5) Das ist der ehrlichste Score dieser Seite. Ein KI-Workflow für AMNOG-Dossiers ist kein Wochenend-Projekt. Vor dem Produktiveinsatz sind zu klären: Auswahl und Vertragsgestaltung der Tools, DSGVO-Prüfung für Studiendaten, Kalibrierung der Extraktionsformulare auf die spezifischen PICO-Kriterien, Validierungsruns mit bekannten Goldstandard-Reviews, und — besonders in regulierten Unternehmen — die formale Freigabe durch Regulatory Affairs und Qualitätssicherung. Realistisch vergehen 4–6 Monate bis zum ersten produktiven Einsatz. Die Bewertung ist im Pharma-Branch eine der niedrigsten, weil kein anderer Anwendungsfall in diesem Bereich so strenge Validierungsvoraussetzungen hat.

ROI-Sicherheit — mittel (3/5) Die Zeitersparnis beim Screening ist messbar und reproduzierbar — das ist der sichere Teil. Was schwerer zu greifen ist: ob ein KI-unterstützter Workflow die Argumentationsqualität des Dossiers verbessert oder nur die Erstellungsgeschwindigkeit. Der G-BA entscheidet auf Basis der klinischen Daten, nicht auf Basis der Dokumentenqualität. Ein schlechter Datensatz bleibt ein schlechter Datensatz — KI hilft, ihn schneller zu strukturieren, kann aber keinen Zusatznutzen herbeiargumentieren, der in den Studien nicht vorhanden ist.

Skalierbarkeit — niedrig (2/5) Jedes AMNOG-Dossier ist produktspezifisch: andere Indikation, andere zweckmäßige Vergleichstherapie (ZVT), andere PICO-Kriterien, andere eingeschlossene Studien. Der Workflow skaliert innerhalb eines Teams — aber nicht wie ein allgemeines KI-Tool, das für beliebige neue Anfragen verwendet werden kann. Was skaliert: das generische Screening-Setup und das Extractions-Framework. Was jedes Mal neu kalibriert werden muss: die Review-Frage, die Extraktionsfelder, die Inklusions- und Exklusionskriterien.

Richtwerte — stark abhängig von Unternehmensgröße, internem HEOR-Know-how und Regulierungskontext. Alle Scores beziehen sich auf den Vergleich innerhalb der pharmazeutischen Branche.

Was KI bei der AMNOG-Dossier-Erstellung konkret macht

Der klinische Nutzen eines neuen Arzneimittels wird im AMNOG-Verfahren nicht behauptet, sondern belegt — mit einer systematischen, reproduzierbaren Evidenzbasis, die einem Peer-Review standhalten muss. KI greift in diesem Prozess an mehreren Stellen an:

Schritt 1: Vorabscreening der Literaturtreffer. Aus den Datenbanken MEDLINE, Embase, Cochrane, ClinicalTrials.gov und gegebenenfalls RWE-Datenbanken entstehen typischerweise 2.000–6.000 Treffer. KI-gestützte Screening-Tools lernen aus den ersten 50–150 manuellen Inklusions- und Exklusionsentscheidungen und sortieren die verbleibenden Treffer nach Relevanz-Wahrscheinlichkeit. Der Reviewer arbeitet von oben nach unten und kann das Screening beenden, wenn die Trefferdichte deutlich unter die statistische Schwelle fällt — ohne relevante Studien zu übersehen.

Schritt 2: PICO-Extraktion aus Volltexten. Für jede eingeschlossene Studie müssen die vier Kern-Dimensionen extrahiert werden: Patientenpopulation, Intervention (das neue Arzneimittel), Comparator (die zweckmäßige Vergleichstherapie) und Outcome-Maße (Sterblichkeit, Morbidität, Nebenwirkungen, gesundheitsbezogene Lebensqualität). LLM-basierte Extraktionssysteme — entweder direkt in DistillerSR integriert oder via Elicit — schlagen für jedes Feld einen Wert vor, der dann vom zuständigen HEOR-Wissenschaftler verifiziert wird. Keine Automatisierung ohne menschliche Freigabe: Jedes extrahierte Datenelement muss vor der Übernahme in das Dossier explizit bestätigt werden.

Schritt 3: Evidenztabellen strukturieren. Aus den validierten Extraktionen entsteht die Evidenztabelle — das Herzstück von Modul 4. KI-Systeme befüllen vordefinierte Templates auf Basis der Extraktionsdatenbank, sortieren nach Studiendesign und Qualitätsmerkmalen und markieren Inkonsistenzen (etwa wenn verschiedene Studien unterschiedliche Definitionen desselben Endpunkts verwenden).

Schritt 4: Narrative Dossier-Abschnitte. Generative KI-Systeme können aus validierten Extraktionen narrative Erstentwürfe für Modul-4-Abschnitte erzeugen: Beschreibung der eingeschlossenen Studien, Zusammenfassung der Evidenzlage, Begründung für indirekte Vergleiche. Diese Entwürfe werden grundsätzlich als Arbeitsmaterial behandelt, nicht als finaler Text — der Medical Writer überarbeitet, ergänzt strategische Argumentation und stellt sicher, dass die Sprache der G-BA-Verfahrensordnung entspricht.

Was Modul 4 und Modul 5 konkret enthalten

Um zu verstehen, wo KI nützt und wo sie nichts beitragen kann, muss man die Modulstruktur kennen.

Modul 4 — Medizinischer Teil (Nutzenbewertung) ist der Kern des Dossiers. Es enthält:

  • Die systematische Literaturrecherche mit vollständiger PRISMA-Dokumentation
  • Beschreibung und kritische Bewertung aller eingeschlossenen Studien
  • Extraktion und Aufbereitung der patientenrelevanten Endpunkte
  • Indirekte Vergleiche / Netzwerk-Meta-Analysen, wenn kein Direktvergleich mit der ZVT vorliegt
  • Integration von Real-World-Evidence (RWE), wenn direkte Studienbelege fehlen
  • Zusammenfassung der Evidenzlage und Ableitung des Zusatznutzens

Modul 5 — Klinische Studienberichte enthält die vollständigen klinischen Studienberichte (CSRs) und Statistischen Analysepläne (SAPs) für alle relevanten Studien. Modul 5 ist häufig volumenmäßig das größte Modul — in onkologischen Indikationen mit globalen Zulassungsstudien kann allein Modul 5 mehrere Tausend Seiten umfassen. KI kann hier bei der Extraktion spezifischer Datenpunkte aus CSRs helfen (z. B. Tabellendaten, AE-Inzidenzen, Studienpopulationen), sofern die Systemdokumentation zeigt, dass die Extraktion korrekt ist.

Was KI nicht kann: die zweckmäßige Vergleichstherapie bestimmen (das ist eine regulatorische und strategische Entscheidung), die klinische Relevanz von Endpunkten beurteilen, oder die Argumentation gegenüber dem G-BA entwickeln. Diese Entscheidungen sind Kernkompetenz des HEOR-Teams und erfordern medizinisches Fachwissen, das kein heutiges Modell ersetzt.

Der AMNOG-Zeitplan: warum 12 Wochen das kritische Fenster sind

Nach der Markteinführung eines neuen Arzneimittels laufen genau 12 Wochen, bis das Dossier beim G-BA vorliegen muss. In der Praxis heißt das: Das Dossier muss fertig sein, bevor das Produkt für die breite GKV-Versorgung verfügbar ist. Wer zu spät einreicht, riskiert das gesamte AMNOG-Verfahren.

Dieser Zeitplan zwingt Pharma-Unternehmen dazu, die Dossier-Erstellung lange vor der Markteinführung zu beginnen — typischerweise 9–12 Monate vorher, parallel zur laufenden Zulassungsphase. Das HEOR-Team muss also mit vorläufigen Zulassungsdaten arbeiten und das Dossier sukzessive anpassen, wenn die finale Fachinformation vorliegt.

Für die KI-gestützte Arbeitsweise hat das eine konkrete Implikation: Der Screening- und Extraktions-Workflow muss so aufgebaut sein, dass er schnell aktualisierbar ist — wenn kurz vor Einreichung neue Studien publiziert werden oder der G-BA im Beratungsgespräch andere Endpunkte priorisiert, müssen Teile des Reviews innerhalb von Tagen, nicht Wochen angepasst werden können.

Der G-BA bietet vor der Einreichung ein freiwilliges Beratungsgespräch an, in dem Unternehmen die geplante ZVT und die geplante Evidenzstrategie vorab abstimmen können. Wer dieses Gespräch nutzt und die KI-gestützten Reviews bereits auf die dort besprochene ZVT und die dort priorisierten Endpunkte ausrichtet, vermeidet einen der teuersten Fehler: einen systematischen Review auf eine ZVT aufzusetzen, die der G-BA am Ende nicht anerkennt.

Konkrete Werkzeuge — was wann passt

Die Toollandschaft teilt sich nach Zielgruppe und Compliance-Anforderung:

DistillerSR — der Enterprise-Standard für regulierte HEOR-Reviews. Wird nach eigenen Angaben von über 70 Prozent der 20 größten Pharma-Unternehmen genutzt. AI Rerank reduziert den Screening-Aufwand im Median um 47 Prozent bei 95 Prozent Recall. Vollständiges Audit-Trail, konfigurierbare Extraktionsformulare für PICO-Daten, PRISMA-konforme Dokumentation. Preis nur auf Anfrage, liegt aber im Enterprise-Bereich. Die Datenhaltung erfolgt in den USA — DSGVO-Prüfung vor Einsatz mit unveröffentlichten Studiendaten erforderlich. Klare Empfehlung für große Pharma-Unternehmen mit mehreren parallelen Dossiers.

ASReview — die kostenlose, Open-Source-Alternative für Teams, die lokale Datenhaltung benötigen. Entwickelt von der Universität Utrecht, in Nature Machine Intelligence publiziert. Active-Learning-Modell, vollständige lokale Verarbeitung (keine Cloud), DSGVO-konform auch für unveröffentlichte CSR-Daten. Erfordert Python-Installation, kein kommerzieller Support. Klare Empfehlung für mittelgroße Biotechs und Akademiker mit Compliance-Anforderungen und begrenztem Budget.

Rayyan — für das initiale Titelscreening in kleineren Reviews oder als Einstiegstool. Freemium-Modell, PRISMA-konformes Screening, KI-Scoring im Essential/Advanced-Plan (ab 4,99–8,33 USD/Sitz/Monat). Datenhaltung US-seitig. PICO-Extraktion nur im Advanced-Plan. Sinnvoll als Ergänzung zu DistillerSR bei hohem Treffervolumen oder als Solo-Tool für Unternehmen, die noch keine regulatorische KI-Freigabe für DistillerSR haben.

Covidence — Cochrane-zertifizierter Standard-Workflow mit LLM-gestützten Extraktionsvorschlägen und Doppelreviewer-Protokoll. 339 USD/Jahr für einen Review, US-Datenhaltung. Weniger auf HEOR/HTA spezialisiert als DistillerSR, dafür methodisch solider für Reviews, die in Publikationen münden (z. B. begleitende Systematic Reviews zur Dossierstrategie).

Elicit — für die Vorab-Discovery-Phase, nicht für den formalen Review. Elicit ist ideal, um zu sondieren, wie dicht die Studienlage zu einer neuen Indikation ist, welche Vergleichstherapien in der Literatur auftauchen und ob indirekte Evidenz verfügbar ist. Für 49 USD/Monat (Pro-Plan) verarbeitet Elicit bis zu 5.000 Paper. Kein Ersatz für den PRISMA-konformen Review, aber ein hervorragendes Frühwarnsystem vor der G-BA-Beratung.

Custom LLM-Pipelines — für Unternehmen mit interner IT-Kapazität: Claude oder ChatGPT über EU-gehostete API-Zugriffswege (AWS Bedrock Frankfurt, Azure Deutschland) können für spezifische Extraktionsaufgaben konfiguriert werden. Der Vorteil: vollständige Kontrolle über System-Prompts, Extraktionslogik und Datenhaltung. Der Nachteil: kein vorgefertigter Review-Workflow — alles muss intern gebaut und validiert werden. Empfehlenswert nur für Unternehmen mit dedizierter Digital-HEOR-Kapazität.

Zusammenfassung: Wann welcher Ansatz

  • Großes Pharma, mehrere Dossiers parallel → DistillerSR
  • Mittelgroßes Biotech, Datenschutz-Anforderungen, knappes Budget → ASReview
  • Einzeldossier, kein IT-Aufwand gewünscht → Rayyan + Covidence
  • Explorative Evidenz-Sondierung vor G-BA-Beratung → Elicit
  • Maximale Kontrolle, internes IT-Team vorhanden → Custom LLM-Pipeline

Was der G-BA tatsächlich bewertet — und was im Papierkorb landet

Das Verfahren nach §35a SGB V bewertet den Zusatznutzen eines neuen Arzneimittels im Vergleich zur zweckmäßigen Vergleichstherapie (ZVT). Der G-BA legt die ZVT fest — nicht das Unternehmen. Wenn das Unternehmen im Dossier gegen eine andere Vergleichstherapie argumentiert als die, die der G-BA festgelegt hat, wird dieser Teil der Evidenz in der Bewertung nicht berücksichtigt.

Die Bewertungskategorien sind im §35a SGB V und der AM-NutzenV definiert:

Ausmaß des ZusatznutzensBedeutung
ErheblichKurierung, deutliche Verlängerung der Überlebenszeit, nachhaltige Reduktion schwerer Symptome
BeträchtlichModerate Verlängerung der Überlebenszeit, moderate Reduktion von Morbidität oder AEs
GeringGeringer, aber spürbarer Vorteil in Morbidität, Nebenwirkungen oder Lebensqualität
Nicht quantifizierbarVerbesserung vorhanden, aber Ausmaß unklar
Nicht belegtKeine ausreichende Evidenz für Zusatznutzen
Geringer als VergleichstherapieNachteil gegenüber ZVT

Seit Einführung des AMNOG im Jahr 2011 bis Ende 2024 hat der G-BA 1.760 Patientengruppen bewertet. Nur 1 Prozent erhielt den Status „erheblicher Zusatznutzen”, 11 Prozent „beträchtlicher Zusatznutzen”. 88 Prozent der Patientengruppen wurden mit „geringem Zusatznutzen”, „nicht quantifizierbar”, „nicht belegt” oder „Zusatznutzen nicht vorhanden” bewertet.

Was das für die KI-Strategie bedeutet: KI optimiert die Effizienz der Dossier-Erstellung, nicht das klinische Ergebnis der Studie. Wer mit schwacher Studienevidenz ins AMNOG-Verfahren geht, bekommt durch einen gut strukturierten Dossier-Workflow keinen besseren G-BA-Bescheid.

Datenschutz und Datenhaltung

Das AMNOG-Dossier enthält vertrauliche klinische Studienberichte (CSRs), unveröffentlichte Studiendaten und gelegentlich patientenbezogene Aggregatdaten aus RWE-Quellen. Bevor ein KI-Tool diese Daten verarbeiten darf, sind mehrere Punkte zu klären:

DSGVO und AVV: Jeder Cloud-Anbieter, der personenbezogene Daten verarbeitet, benötigt einen Auftragsverarbeitungsvertrag (AVV) nach Art. 28 DSGVO. Bei aggregierten, nicht personenbezogenen Studiendaten (Inzidenzen, Mittelwerte, Effektstärken) ist der datenschutzrechtliche Spielraum größer. Sobald individuelle Patientendaten (IPD) im Spiel sind — was bei einigen AMNOG-Dossiers der Fall ist — gelten strengere Anforderungen.

US-Hosting vs. EU-Hosting:

  • DistillerSR: US-Hosting (keine EU-Region verfügbar). AVV auf Anfrage erhältlich. Für unveröffentlichte Studiendaten vorab mit dem Datenschutzbeauftragten abstimmen.
  • ASReview: Vollständig lokal — kein Cloud-Transfer. Die datenschutzfreundlichste Option, besonders für unveröffentlichte CSR-Daten.
  • Rayyan: US-Hosting. Für publizierte Literaturdaten unkritisch; für unveröffentlichte Daten DSGVO-Prüfung erforderlich.
  • Covidence: US-Hosting. Vergleichbar mit Rayyan.
  • Custom LLM via AWS Bedrock Frankfurt oder Azure Deutschland: EU-Hosting möglich, AVV über jeweiligen Cloud-Anbieter.

Regulatory-Affairs-Freigabe: In regulierten Pharma-Unternehmen (§35a-Dossier als GxP-Dokument) muss der Einsatz von KI-Tools formal validiert und freigegeben werden. Das betrifft Software-Validierung nach GAMP-5-Prinzipien und die Frage, ob KI-generierte Extraktionen als Rohdaten oder als Analyseergebnis eingestuft werden. Klärt diese Frage mit eurer QA, bevor ihr ein Tool in einem laufenden Dossier-Projekt einsetzt.

Interne Daten vs. publizierte Daten: Für das Screening publizierter Literatur (öffentlich zugängliche Abstracts, publizierte Volltexte) sind die Datenschutz-Anforderungen niedrig. Für unveröffentlichte CSRs, interne Protokolle oder Pre-Submission-Diskussionen gelten die vollen Anforderungen.

Was es kostet — realistisch gerechnet

Toolkosten (monatlich)

  • ASReview: kostenlos (Open Source, Python-Installation erforderlich)
  • Rayyan Advanced: ca. 8,33 USD/Sitz/Monat (jährlich) — für ein 3-köpfiges Team ca. 300 USD/Jahr
  • Covidence: 339–907 USD/Jahr für 1–3 parallele Reviews
  • Elicit Pro: 49 USD/Monat (588 USD/Jahr)
  • DistillerSR: Enterprise-Pricing auf Anfrage, typischerweise ab mehreren Tausend USD/Jahr

Einmalige Einrichtungskosten

  • Tool-Evaluierung und DSGVO-Prüfung: 2–4 Wochen interner Aufwand (HEOR + Regulatory + IT)
  • Kalibrierung der Extraktionsformulare auf die ersten PICO-Fragestellungen: 1–2 Wochen
  • Validierungsrun mit Gold-Standard-Reviews: 2–4 Wochen
  • Schulung des Review-Teams: 2–4 Tage
  • Gesamter Onboarding-Aufwand: realistisch 4–6 Monate bis produktivem Einsatz

Was sich dagegen rechnen lässt Ein HEOR-Consultant kostet extern typischerweise 150–300 Euro netto pro Stunde. Ein systematischer Review für ein AMNOG-Dossier (Screening + Extraktion + Evidenztabelle) kostet extern 60.000–150.000 Euro. Wenn ein KI-Workflow 40–60 Prozent dieser Arbeit beschleunigt, liegen die direkten Kosteneinsparungen bei 24.000–90.000 Euro pro Review. Bei einem durchschnittlichen Dossier-Budget von 800.000 Euro ist das erheblich — besonders wenn das Unternehmen mehrere Dossiers pro Jahr einreicht.

Das konservative Szenario (30 Prozent Effizienzgewinn, ein Dossier pro Jahr): ca. 20.000–40.000 Euro Einsparung, bei Toolkosten von 5.000–10.000 Euro pro Jahr. Eindeutig positiv. Ob der Workflow sich amortisiert, entscheidet die Anzahl der jährlichen Einreichungen.

Validierungspflicht: Was vor der G-BA-Einreichung geprüft sein muss

Das ist die wichtigste Sektion dieser Seite — und die, die in anderen KI-Ressourcen am häufigsten fehlt.

Ein AMNOG-Dossier ist ein regulatorisches Dokument. Wenn es beim G-BA eingereicht wird, steht das Unternehmen mit seiner Unterschrift dafür ein, dass alle enthaltenen Daten korrekt, vollständig und nachvollziehbar sind. Das hat direkte Konsequenzen für den Einsatz von KI:

Halluzinationen in regulatorischen Kontexten. Generative KI-Systeme — auch die besten verfügbaren — können Studieninhalte falsch wiedergeben, Zahlenwerte verfälschen oder Zitationen für nicht existierende Studien generieren. In einem Blog-Post ist das ärgerlich. In einem G-BA-Dossier, das Grundlage einer Preisverhandlung mit dem GKV-Spitzenverband ist, kann es zu einem formellen Widerspruchsverfahren, zur Rücknahme des Dossiers oder zu Reputationsschäden führen. Der pharmaphorum-Bericht 2025 dokumentiert Fälle, in denen Fachleute in regulierten Kontexten „Bericht mit Phantom-Fußnoten und erfundenen Daten durch KI” einreichten — mit schweren Folgen. Das muss in AMNOG-Kontexten ausgeschlossen werden.

Was das in der Praxis bedeutet:

  1. Jede KI-extrahierte Zahl muss gegen die Quellstudie geprüft werden — nicht stichprobenartig, sondern vollständig. Tools wie DistillerSR erzwingen das durch ihren Workflows-Ansatz: KI schlägt vor, Reviewer bestätigt. Kein anderer Ansatz ist für Dossier-Kontexte akzeptabel.
  2. Narrative KI-Textentwürfe sind Arbeitsmaterial, kein Text. Jeder Satz, der in das Dossier einfließt, muss durch einen Medical Writer oder HEOR-Experten überprüft und freigegeben worden sein.
  3. Keine nicht referenzierten Behauptungen. Jede klinische Aussage im Dossier muss mit einer konkreten Quellenangabe (Studie, Seite, Tabelle, Abschnitt) unterlegt sein. KI-generierte Aussagen ohne Quellenbindung sind regulatorisch nicht akzeptabel.
  4. Audit-Trail führen. Wer das Dossier beim G-BA einreicht, sollte dokumentieren können, welche Extraktionen mit KI-Unterstützung erstellt und welche manuell validiert wurden. Das schützt bei Rückfragen im Widerspruchsverfahren.
  5. G-BA entscheidet nach klinischen Daten, nicht nach Dossier-Formulierungen. Das ist der entscheidende Punkt: KI kann die Effizienz der Erstellung verbessern, aber nicht die klinische Substanz des Dossiers verändern. Was in den Studien nicht gezeigt wurde, kann kein Prompt der Welt in eine Nutzenbewertung verwandeln.

Drei typische Einstiegsfehler

1. ChatGPT direkt auf CSR-Texte loslassen — ohne Validierungsschritt. Das ist der verbreitetste und gefährlichste Fehler. Generative KI-Systeme ohne strukturierten Review-Workflow produzieren Extraktionen, die plausibel aussehen, aber Zahlenwerte falsch wiedergeben, Patientenpopulationen durcheinanderwerfen oder Konfidenzintervalle falsch runden. Wer diese Outputs ungefiltert in das Dossier übernimmt, riskiert Fehler in einem regulatorischen Dokument. Lösung: Entweder dedizierte Systematic-Review-Plattformen mit eingebautem Validierungsschritt verwenden, oder jeden Datenpunkt einzeln gegen die Quelle prüfen — was den Zeitvorteil wieder zunichte macht.

2. Den G-BA-Beratungstermin nicht nutzen, bevor der Review-Scope festgelegt wird. Das HEOR-Team definiert die PICO-Kriterien, der Medical Writer schreibt das Protokoll, der Review läuft — und dann stellt sich im Lauf des Verfahrens heraus, dass der G-BA eine andere ZVT anlegt oder einen bestimmten Endpunkt nicht als patientenrelevant anerkennt. Der gesamte Review war auf eine Evidenzfrage ausgerichtet, die das Verfahren nicht entscheidet. Lösung: Frühzeitig das G-BA-Beratungsgespräch beantragen, ZVT und Endpunkte abstimmen, dann erst den Review-Scope festlegen und die KI-Workflow-Konfiguration aufsetzen.

3. Das ist kein reguläres IT-Projekt. HEOR-KI-Tools fallen in regulierten Pharmaunternehmen nicht unter “neue Software einführen”. Sie verarbeiten Eingangsdaten für ein GxP-relevantes Regulierungsdokument. Das bedeutet: Software-Validierung nach GAMP-5-Prinzipien, Change-Control-Prozess, SOP-Anpassungen, Schulungsnachweise. Wer das IT-Onboarding ohne Einbindung von QA und Regulatory beginnt, baut ein Tool auf, das er sechs Monate später nicht einsetzen darf, weil es nicht freigegeben wurde.

Was mit der Einführung wirklich passiert — und was nicht

Die größte interne Hürde ist nicht die Technik — es ist die Frage, wem die HEOR-Evidenzbewertung gehört.

Das Territorial-Argument. Senior-HEOR-Wissenschaftler haben oft zehn oder mehr Jahre in systematische Reviews investiert. Das Wissen, wie man eine gute Review-Frage formuliert, wie man Bias-Risiken bewertet und wie man widersprüchliche Studien gegeneinander abwägt, ist genuines Expertenwissen. Wenn ein KI-Tool diesen Prozess beschleunigt, kann das als Abwertung dieser Expertise empfunden werden — “KI macht das jetzt, wozu braucht man noch mich?” Die ehrliche Antwort: für genau das, was KI nicht kann. Extraktion beschleunigen ist kein Ersatz für klinisches Urteil. Wer das klar und frühzeitig kommuniziert, baut Widerstände ab.

Der Qualitätssicherungs-Reflex. “Wie können wir wissen, dass die KI-Extraktion richtig ist?” Dieser Einwand ist berechtigt. Die Antwort: indem das Team einen Validierungsrun mit einem bekannten Gold-Standard-Review durchführt, bevor das Tool in einem laufenden Dossier eingesetzt wird. Drei bis fünf bereits abgeschlossene Reviews — mit bekannten Ergebnissen — systematisch durch den KI-Workflow laufen lassen und die Abweichungen dokumentieren. Das ist kein Misstrauen gegenüber dem Tool, das ist gute Praxis.

Was konkret hilft:

  • Einen internen Champion benennen — idealerweise eine HEOR-Senior-Wissenschaftlerin oder einen Senior-Medical-Writer, der das Tool evaluiert, den Validierungsrun leitet und das Team schult
  • Die erste KI-unterstützte Literaturrecherche für ein intern wichtiges, aber nicht laufendes Dossier-Projekt durchführen — kein Produktionsdruck, volle Lernkurve
  • Ergebnisse des ersten Projekts transparent mit dem Team teilen — was hat funktioniert, was nicht, was hat überrascht

Realistischer Zeitplan mit Risikohinweisen

PhaseDauerWas passiertTypisches Risiko
Tool-Auswahl und DSGVO-PrüfungWoche 1–4Tools evaluieren, Datenschutzanforderungen klären, Vendor-Gespräch (DistillerSR) oder Installation (ASReview)Regulatory-Affairs-Freigabe dauert länger als geplant — QA früh einbinden
Workflow-KonfigurationWoche 5–8Extraktionsformulare für PICO-Dimensionen aufsetzen, Screening-Kriterien definieren, Protokoll schreibenPICO-Definition zu generisch — ohne G-BA-Beratungsgespräch riskiert ihr falschen Scope
ValidierungsrunWoche 9–142–3 Gold-Standard-Reviews durch den KI-Workflow laufen lassen, Ergebnisse gegen manuelle Baseline vergleichenTool-Extraktion zeigt 15 % Abweichung — Formular-Anpassung nötig vor Produktiveinsatz
Team-SchulungWoche 13–16HEOR-Team und Medical Writer einweisen, SOP aktualisieren, Validierungsnachweise dokumentierenWiderstand im Team — Einbindung in die Entwicklung des Workflows hilft
Erster ProduktiveinsatzWoche 17–24Neues laufendes Dossier-Projekt mit KI-unterstütztem ReviewZeitdruck durch AMNOG-Deadline — erster Produktiveinsatz besser nicht unter akutem Einreichungsdruck

Der Zeitplan ist konservativ — und das absichtlich. Wer schneller vorgehen will, riskiert, ein Tool einzusetzen, das in QA nicht freigegeben wurde oder dessen Extraktionsqualität nicht validiert ist.

Häufige Einwände — und was dahintersteckt

„Wir können KI nicht in einem regulatorischen Dokument einsetzen.” Dieser Einwand kommt meistens von Regulatory Affairs — und er ist nur halb berechtigt. Es gibt keine G-BA-Vorschrift, die KI-gestütztes Screening oder KI-gestützte Extraktion verbietet. Was die Verfahrensordnung verlangt, ist dass die Methodik transparent und reproduzierbar ist. Ein PRISMA-konformer Review, bei dem jede Inklusions- und Exklusionsentscheidung dokumentiert ist, erfüllt diese Anforderung — unabhängig davon, ob Rayyan, DistillerSR oder Excel als Hilfsmittel verwendet wurden. Die entscheidende Frage ist nicht “KI ja oder nein”, sondern “ist die Methodik dokumentiert und validiert”.

„Die Modelle halluzinieren Studien, die gar nicht existieren.” Das stimmt — wenn man generative KI ohne Quellenverankerung einsetzt. Elicit und Rayyan greifen ausschließlich auf existierende publizierte Studien zurück, keine generierten Inhalte. DistillerSR und ASReview verarbeiten nur Literatur, die das Team selbst aus Datenbanken gezogen hat — kein Modell erfindet hier Studien, weil kein Modell Studien produziert. Die Halluzinations-Gefahr liegt bei generativen Systemen, die narrativen Text ohne Quellenverankerung erzeugen sollen. Das ist ein valider Einwand — gegen den falschen Einsatzzweck, nicht gegen KI-gestützte Literaturrecherche generell.

„Wir haben nicht genug HEOR-Kapazität, um ein neues Tool auch noch einzuführen.” Dieser Einwand ist oft der ehrlichste. Wenn das HEOR-Team mit drei oder vier Dossiers gleichzeitig überlastet ist, ist kein mentaler Spielraum für eine Systemeinführung vorhanden. Die Antwort: Einführung bewusst zwischen zwei Dossier-Projekten planen, nicht parallel zum laufenden Einreichungsdruck. Wenn das nie passiert, weil immer ein Dossier läuft — dann ist das genau der Moment, an dem der Workflow-Gewinn durch KI am größten wäre, und die Einführung trotzdem nicht möglich ist. Das ist ein Ressourcen-Problem, kein KI-Problem.

Woran du merkst, dass das zu dir passt

Du bist im richtigen Segment, wenn:

  • Dein HEOR-Team mindestens zwei AMNOG-Dossiers pro Jahr einreicht. Bei einem Dossier lohnt der Onboarding-Aufwand kaum. Erst ab zwei oder mehr Einreichungen jährlich amortisiert sich die Investition in Toolauswahl, Validierung und Schulung.
  • Ihr führt regelmäßig systematische Literaturreviews mit mehr als 1.000 Treffern durch. Darunter ist der KI-Vorteil beim Screening marginal.
  • Euer HEOR-Team hat mindestens eine Person mit Erfahrung in PRISMA-konformen Reviews. KI kann keine methodische Expertise ersetzen — sie beschleunigt sie. Wer PRISMA zum ersten Mal machen will, sollte nicht gleichzeitig KI einführen.
  • Ihr habt eine klare DSGVO-Regelung für Studiendaten — entweder via EU-gehosteter Lösung oder via lokaler Verarbeitung. Wer diese Frage offen lässt, darf das Tool nicht einsetzen.

Drei harte Ausschlusskriterien — wann ihr es sein lassen solltet:

  1. Wenn kein HEOR-Experte vorhanden ist, der die KI-Outputs validieren kann. KI im AMNOG-Kontext ohne Validierung ist aktiv gefährlich. Das gilt für kleine Pharma- oder Biotech-Unternehmen, die ihr erstes Dossier ausschließlich über externe Berater erstellen. In diesem Fall bleibt die Verantwortung für die Tool-Auswahl und Validierung beim externen Partner — und das muss vertraglich klar geregelt sein.

  2. Wenn die Indikation so selten ist, dass die Literaturbasis unter 100 relevante Studien umfasst. Bei Orphan Drugs mit wenigen publizierten Studien ist der Screening-Aufwand gering genug, dass KI-Tools keinen messbaren Vorteil bringen — der Onboarding-Aufwand überwiegt. Das Dossier-Erstellungsproblem bei Orphan Drugs liegt eher bei fehlender Evidenz als bei zu viel Evidenz zum Screenen.

  3. Wenn die Software-Validierung nach GAMP-5 nicht in absehbarer Zeit machbar ist. In stark regulierten Unternehmen kann ein formaler Qualifizierungsprozess für neue Software 6–12 Monate dauern. Wer diesen Aufwand nicht schultern kann oder will, sollte den externen HEOR-Partner beauftragen, der das Tool in seiner eigenen validierten Umgebung betreibt.

Das kannst du heute noch tun

Wenn dein Team bisher mit Excel-Screening-Listen arbeitet: Lade ASReview herunter. Es kostet nichts, läuft vollständig lokal und gibt dir innerhalb eines Nachmittags einen konkreten Eindruck, wie KI-Priorisierung in eurem nächsten Review aussehen könnte. Nimm einen abgeschlossenen Review — am besten einen, dessen Ergebnis ihr kennt — und lass ihn durch ASReview laufen. Vergleiche dann: Wie viele der tatsächlich eingeschlossenen Studien hätte das Tool in den ersten 30 Prozent der priorisierten Liste gefunden?

Das dauert einen halben Tag. Was du danach weißt: ob der KI-Priorisierungsansatz für euren Studienkorpus funktioniert — ohne Lizenzkosten, ohne Cloud-Risiken, ohne Vendor-Gespräch.

Für die Extraktion aus eingeschlossenen Studien — wenn du sehen willst, wie LLM-gestützte PICO-Extraktion in der Praxis aussieht — ist folgender Prompt ein guter Einstieg:

PICO-Extraktionsprompt für AMNOG-Reviews
Du bist ein HEOR-Assistent, der Daten aus klinischen Studienpublikationen extrahiert. Extrahiere aus dem folgenden Studientext die folgenden PICO-Elemente und trage sie in das vorgegebene Format ein: P — Patientenpopulation: [Diagnose, Alter, Zulassungsstatus, Ein-/Ausschlusskriterien] I — Intervention: [Wirkstoff, Dosis, Applikationsform, Behandlungsdauer] C — Komparator: [Vergleichstherapie, Dosis, Applikationsform] O — Endpunkte: - Primärer Endpunkt: [Endpunktname, Messzeitpunkt, Ergebnis inkl. 95%-KI] - Sekundäre Endpunkte: [Liste mit Ergebnissen] - Safety: [Häufigste AEs ≥5%, SAE-Rate] Studiendesign: [RCT/NRS/Sonstige, Verblindung, Randomisierung] Studienpopulation: [n Interventionsarm, n Kontrollarm, Abbrecher-Rate] Verzerrungsrisiko: [High / Low / Unclear — kurze Begründung] Antworte ausschließlich auf Basis des vorliegenden Texts. Wenn eine Information nicht explizit im Text steht, schreibe "Nicht angegeben". Erfinde keine Werte. [STUDIENTEXT HIER EINFÜGEN]
Funktioniert mit ChatGPT, Claude, Gemini
Beispiel-Ausgabe

Mitarbeiter:in

RCT KEYNOTE-522 (Schmid et al., NEJM 2020): n=1174 Patientinnen mit frühem triple-negativem Mammakarzinom (TNBC), Stadium II–III. Interventionsarm: Pembrolizumab 200mg Q3W + Chemotherapie (n=784). Kontrollarm: Placebo + Chemotherapie (n=390). Primäre Endpunkte: pCR-Rate und EFS. pCR-Rate: 64,8 % vs. 51,2 % (Differenz 13,6 %, 95%-KI 5,4–21,8, p<0,001). EFS nach 36 Monaten: 84,5 % vs. 76,8 % (HR 0,63, 95%-KI 0,48–0,82). SAE-Rate: 32,5 % vs. 19,1 %.

KI-Assistent

P — Patientenpopulation: Früher triple-negativer Brustkrebs (TNBC), Stadium II–III; Erwachsene Patientinnen; frühe Behandlungsphase (neoadjuvant + adjuvant). I — Intervention: Pembrolizumab 200 mg i.v. alle 3 Wochen + Chemotherapie (Carboplatin/Paclitaxel + AC); neoadjuvant, dann adjuvant; Gesamtdauer: bis zu 17 Zyklen. C — Komparator: Placebo + Chemotherapie (identisches Regime). O — Endpunkte: Primärer Endpunkt: pCR-Rate (Anteil Patientinnen ohne invasiven Tumor nach neoadjuvanter Therapie): 64,8 % vs. 51,2 %, Differenz 13,6 % (95%-KI 5,4–21,8), p<0,001. EFS nach 36 Monaten: 84,5 % vs. 76,8 %, HR 0,63 (95%-KI 0,48–0,82). Safety: SAE-Rate 32,5 % vs. 19,1 % — relevanter Unterschied, zu berücksichtigen in Modul-4-AE-Tabelle. Studiendesign: RCT, doppelblind, randomisiert, Phase III. Studienpopulation: n=784 (Interventionsarm), n=390 (Kontrollarm); Abbrecher-Rate: Nicht angegeben. Verzerrungsrisiko: Low — doppelblind, randomisiert, klare Endpunktdefinition. HINWEIS: Diese Extraktion muss gegen den Originaltext und, falls vorhanden, den klinischen Studienbericht (CSR) verifiziert werden, bevor sie in das G-BA-Dossier einfließt.

Quellen & Methodik

  • AMNOG-Dossier Kosten und Seitenumfang: Verband der forschenden Arzneimittelhersteller (vfa), „AMNOG-Dossiervorlagen: Eine Reduzierung wäre nötig” (vfa.de, abgerufen Mai 2026). Dort: ca. 800.000 Euro Durchschnittskosten, Anstieg von 750 auf 3.500 Seiten (Module 1–4), 77 % der Analysen ohne Berücksichtigung durch den G-BA.
  • G-BA-Statistik 2024: Gemeinsamer Bundesausschuss (G-BA), Statistik zur frühen Nutzenbewertung nach §35a SGB V, Stichtag 31. Dezember 2024 (g-ba.de). Dort: 125 Verfahren 2024, 1.760 bewertete Patientengruppen insgesamt seit 2011, 1 % erheblicher Zusatznutzen, 11 % beträchtlicher Zusatznutzen.
  • KI in HEOR Systematic Reviews: ConnectHEOR, „Use of Artificial Intelligence in Systematic Literature Review” (connectheor.com, 2024). Dort: ChatGPT 1 Stunde vs. 7–10 Tage Screening, 95 % Sensitivität, 40–83 % Workload-Reduktion; Fehlerquelle: falsche Zitierungen und inkonsistentes MeSH-Linking.
  • DistillerSR Effizienz-Benchmark: DistillerSR / Evidence Partners, interne Benchmark-Studie: mediane Screening-Aufwandsreduktion 47,1 % bei 95 % Recall über 10 systematische Reviews (distillersr.com, abgerufen Mai 2026).
  • ASReview wissenschaftliche Validierung: Sollenberger & Wang (2025), „ASReview LAB v.2: Open-source text screening with multiple agents and a crowd of experts”, Patterns (Cell Press). Ursprüngliche Veröffentlichung: van de Schoot et al. (2021), Nature Machine Intelligence 3, 125–133. Workload-Reduktion bis 95 %.
  • KI-Halluzinationen in regulierten Kontexten: Pharmaphorum, „Controlling AI hallucinations: Building evidence-based trust in clinical and scientific workflows” (pharmaphorum.com, 2025). Dort: 44 % der Organisationen berichten negative Konsequenzen aus GenAI-Einsatz; durchschnittliche finanzielle Verluste 4,4 Mio. USD je Vorfall; Dokumentation von Phantom-Fußnoten in regulatorischen Einreichungen.
  • Screening-Aufwandsreduktion allgemein: PMC/NCBI, „An evaluation of DistillerSR’s machine learning-based prioritization tool for title/abstract screening” (pmc.ncbi.nlm.nih.gov, 2020).

Diesen Inhalt teilen:

🤝

Interesse an diesem Use Case?

Schreib uns, wenn du mehr erfahren oder diesen Use Case für dein Unternehmen umsetzen möchtest. Wir melden uns zeitnah bei dir.

Deine Daten werden ausschließlich zur Bearbeitung deiner Anfrage verwendet (Art. 6 Abs. 1 lit. b DSGVO). Mehr in unserer Datenschutzerklärung.

Kostenloser Newsletter

Bleib auf dem neuesten
Stand der KI

Wähle deine Themen und erhalte relevante KI-News, Praxistipps und exklusive Inhalte direkt in dein Postfach – kein Spam, jederzeit abmeldbar.

Was interessiert dich? Wähle 1–3 Themen — du bekommst nur Inhalte dazu.

Mit der Anmeldung stimmst du unserer Datenschutzerklärung zu. Jederzeit abmeldbar.

Kostenlos
Kein Spam
Jederzeit abmeldbar