Zum Inhalt springen
Medizintechnik klinische-bewertungmdrliteraturrecherche

Klinische Bewertung nach MDR Anhang XIV unterstützen

KI-Assistenten beschleunigen die Literaturrecherche nach MEDDEV 2.7/1 rev.4, screenen tausende PubMed-Treffer, unterstützen bei der Äquivalenzargumentation und strukturieren Klinische Bewertungsberichte nach MDR.

⚡ Auf einen Blick
Problem
Eine vollständige Klinische Bewertung nach MDR kostet 20.000–80.000 € bei externen Spezialisten — und das größte Zeitloch ist die Literaturrecherche, die oft 3–6 Wochen manuelles Screening bedeutet.
KI-Lösung
KI übernimmt systematisches Screening von PubMed, Embase und Cochrane, extrahiert Studiendaten strukturiert und generiert Rohfassungen für einzelne CER-Abschnitte — während das RA-Team die inhaltliche Bewertung und Verantwortung trägt.
Typischer Nutzen
Rechercheaufwand um 40–60 % reduziert. Kosten für externe klinische Bewerter um 15.000–40.000 € pro CER gesenkt. Typisch: 4–8 Wochen Zeitersparnis beim Erstdurchlauf.
Setup-Zeit
12–18 Wochen bis produktiver Pilotbetrieb
Kosteneinschätzung
15.000–40.000 € externe Beraterkosten pro CER gespart
Elicit + Rayyan (Recherche) / ChatGPT-Claude (CER-Abschnitte) / Covidence (PRISMA-Workflow)
Worum geht's?

Es ist Donnerstag, 8:41 Uhr. Lena Hochberger sitzt mit 2.847 PubMed-Treffern vor sich.

Das Gerät — ein Klasse-IIb-Insufflator für laparoskopische Eingriffe — braucht einen neuen Klinischen Bewertungsbericht, weil die Notified-Body-Zertifizierung im September abläuft. Die Äquivalenzroute scheidet aus: Der Wettbewerber hat keinen Zugang zu seiner technischen Dokumentation gewährt. Also: Literaturdaten. 2.847 Treffer aus PubMed und Embase. Titel und Abstract screenen: geschätzte acht Wochen, zwei Personen.

Lena kennt das Spiel. Sie hat es zweimal gemacht. Beide Male hat das Screening die Hälfte der Bearbeitungszeit gefressen, bevor die eigentliche klinische Argumentation überhaupt anfangen konnte. Und beide Male hat das Unternehmen am Ende 35.000 Euro an externe klinische Bewerter gezahlt — nicht weil die Leute fehlen, sondern weil die Zeit fehlte.

Was Lena dieses Mal weiß: KI kann ihr diese acht Wochen nicht schenken. Aber sie kann aus acht Wochen vier machen — wenn man weiß, wo die Grenzen sind.

Das echte Ausmaß des Problems

Ein Klinischer Bewertungsbericht (Clinical Evaluation Report, CER) nach EU MDR 2017/745 ist kein Formalakt. Er ist das zentrale klinische Sicherheitsdokument eines Medizinprodukts — und für Klasse IIa, IIb und III verpflichtend vor jeder CE-Zertifizierung und danach in regelmäßigen Abständen zu aktualisieren.

Was das konkret bedeutet:

  • Erstellen dauert Wochen bis Monate. Für ein Klasse-IIa-Produkt mit überschaubarer klinischer Literatur sind vier bis acht Wochen realistisch. Für Klasse IIb oder III liegt die Spanne bei drei bis zwölf Monaten.
  • Externe Experten sind teuer. Spezialisierte Clinical-Affairs-Berater in Deutschland verlangen 120–180 Euro pro Stunde. Für einen vollständigen CER inklusive Literaturrecherche, Äquivalenzargumentation und Berichtserstellung werden 200 bis 500 Stunden veranschlagt — macht 24.000 bis 90.000 Euro. Typische Marktpreise für einfachere Geräte liegen laut MedEnvoy bei 18.000 bis 60.000 Dollar für den Literatur- und Analyseteil allein.
  • Notified Bodies werden strenger. Laut MedTech Europe Regulatory Survey 2024 berichteten 50 Prozent der Hersteller, dass die klinische Bewertung bei mindestens einer MDR-Einreichung vom Notified Body erheblich beanstandet wurde. Häufigster Grund laut Johner Institut: unzureichende Äquivalenzargumentation und fehlende Dokumentation für das äquivalente Gerät.
  • Die Literaturrecherche ist das Hauptzeitloch. MEDDEV 2.7/1 rev.4 schreibt vor, dass die Suche mehrere Datenbanken umfassen muss — nicht nur PubMed, sondern auch Embase, Cochrane und ggf. weitere europäische Quellen. Pro Datenbank fallen Hunderte bis Tausende Treffer an, die einzeln gesichtet werden müssen.

Für ein Unternehmen mit fünf bis zehn Produkten in der MDR-Zertifizierungspipeline bedeutet das: Die klinische Bewertung bindet Kapazität, die sonst für Produktentwicklung und Markteinführung fehlt.

Mit vs. ohne KI — ein ehrlicher Vergleich

KennzahlOhne KIMit KI-Unterstützung
Titel-/Abstract-Screening (2.000 Treffer)6–8 Wochen, 2 Personen2–4 Wochen, 1 Person + KI
Datenextraktion aus 50 eingeschlossenen Studien3–5 Tage manuell1–2 Tage mit KI-Extraktion, Mensch-Prüfung
Rohentwurf einzelner CER-AbschnitteTageweise SchreibarbeitStunden mit KI-Vorlage + menschliche Überarbeitung
Kosten für externen klinischen Bewerter24.000–90.000 €12.000–55.000 € (bei RA-interner KI-Vorarbeit)
Risiko: Übersehene relevante StudieHoch (menschliche Ermüdung)Geringer (KI ermüdet nicht beim Screening)
Risiko: Halluzinierte StudienergebnisseKein RisikoReales Risiko — muss durch menschliche Review vollständig geprüft werden
PRISMA-DokumentationManuelle ProtokollführungAutomatisch durch Tools wie Rayyan und Covidence

Die Einsparung kommt nicht dadurch, dass KI die klinische Beurteilung übernimmt — die liegt beim Menschen und bleibt es. Sie kommt aus dem Screening-Aufwand, der bei großen Literaturdatenbanken systematisch die meiste Zeit frisst.

Einschätzung auf einen Blick

Zeitersparnis — hoch (4/5) Das Screening von Tausenden Literaturtreffern ist der Haupthebel. Mit Elicit oder Rayyan lässt sich dieser Schritt um 40–60 Prozent beschleunigen — vier bis acht Wochen spürbare Entlastung pro CER. Keine maximale Zeitersparnis, weil MEDDEV 2.7/1 rev.4 menschliche Bewertung jeder einzelnen Inklusions- und Exklusionsentscheidung vorschreibt. Das lässt sich technisch nicht umgehen.

Kosteneinsparung — sehr hoch (5/5) Mit Consulting-Stundensätzen von 120–180 Euro und 200–500 Stunden pro CER sind die möglichen Kosteneinsparungen die höchsten im gesamten Medizintechnik-Bereich. Wer den Recherche- und Strukturierungsaufwand intern mit KI-Unterstützung erledigt, zahlt für externe klinische Bewerter nur noch die inhaltliche Beurteilung — nicht die Routinearbeit. Typische Einsparung: 15.000–40.000 Euro pro CER.

Schnelle Umsetzung — schwierig (2/5) Bis zum produktiven Einsatz vergehen realistisch 12–18 Wochen: Suchprotokoll nach MEDDEV 2.7/1 aufsetzen, Datenbanken konfigurieren, interne Validierung des KI-Screenings, Abgleich mit Notified-Body-Erwartungen. Das ist einer der schwierigsten Einstiege im Branch — vergleichbar mit der Technischen Dokumentation und den Zulassungsunterlagen, die ebenfalls tiefes regulatorisches Know-how voraussetzen.

ROI-Sicherheit — hoch (4/5) Der Nutzen ist direkt messbar: Screening-Stunden, Consulting-Rechnungen, Dauer bis zur CER-Fertigstellung. Kein indirekter Effekt wie bei manchen anderen Use Cases. Unsicherheit entsteht dort, wo KI-Outputs fehlerhaft sind und nicht erkannt werden — dann nicht Zeitersparnis, sondern Mehraufwand bei der Korrektur.

Skalierbarkeit — mittel (3/5) Für ein einzelnes Produkt kostet der Aufbau unverhältnismäßig viel. Ab drei bis fünf Produkten mit ähnlichem Technologieprofil amortisiert sich der Setup. Die Suchdatenbanken und Screening-Kriterien können für Folgeprodukte teilweise wiederverwendet werden — aber jeder CER braucht ein neues, dokumentiertes Suchprotokoll.

Richtwerte — stark abhängig von Geräteklasse, Literaturvolumen und RA-Teamstärke.

Anhang XIV und Anhang X — was KI helfen kann und was nicht

Bevor du über KI-Tools nachdenkst, muss ein Punkt klar sein: Nicht alle klinischen Bewertungen profitieren gleich.

MDR unterscheidet zwei grundlegende Wege:

Anhang XIV regelt die klinische Bewertung auf Basis vorhandener Daten — also die Auswertung von Literaturdaten, klinischen Daten aus der eigenen Produkterfahrung und Äquivalenzargumentation gegenüber anderen Geräten. Das ist der Standard-CER-Prozess, bei dem KI-Unterstützung sinnvoll einsetzbar ist.

Anhang X regelt klinische Prüfungen — also Studien am Patienten, wenn vorhandene Literaturdaten nicht ausreichen. Hier hilft KI höchstens bei der Studienplanung und Dokumentation, nicht beim Ersatz fehlender klinischer Evidenz.

Was das bedeutet: Wenn dein Gerät keine ausreichende Literaturbasis hat und keine Äquivalenz zu einem gut dokumentierten Gerät gezeigt werden kann, ist KI für die klinische Bewertung kein Hebel. Das Grundproblem ist dann fehlende klinische Evidenz — und die lässt sich nicht durch bessere Literaturrecherche lösen.

Für die Mehrheit der Klasse-IIa- und -IIb-Geräte mit etabliertem Technologieprofil ist Anhang XIV der richtige Weg — und dort ist KI-Unterstützung beim Literaturscreening der konkrete Hebel.

Das MEDDEV-2.7/1-Literaturrecherche-Protokoll — und wo KI konkret ansetzen kann

MEDDEV 2.7/1 rev.4 ist das Leitdokument für klinische Bewertungen nach EU MDR. Es schreibt ein strukturiertes, dokumentiertes Suchprotokoll vor — keine freie Literaturrecherche, sondern ein nachvollziehbarer Prozess, der dem Notified Body belegen muss, dass du alle relevanten Daten (positive wie negative) identifiziert hast.

Das Protokoll verlangt:

  • Mehrere Datenbanken: Mindestens PubMed/MEDLINE und Embase, für europäische Produkte auch Cochrane. Nur PubMed ist nicht ausreichend.
  • Dokumentierte Suchstrings: Jede Kombination aus Stichwörtern, MeSH-Terms und booleschen Operatoren muss schriftlich festgehalten werden.
  • Datum und Version: Zeitpunkt und Suchergebnis müssen dokumentiert sein (Snapshot-Funktion oder Screenshot-Protokoll).
  • Inklusions- und Exklusionskriterien: Was wird eingeschlossen, was ausgeschlossen — und warum. Dies muss für jeden gescreenten Treffer nachvollziehbar sein.

Wo KI konkret hilft:

  1. Discovery und Suchstringentwicklung (Elicit, Semantic Scholar): Initiale Exploration des Literaturfelds, Identifikation relevanter MeSH-Terms, Formulierung von Suchstrings.
  2. Massenscreening Titel/Abstract (Rayyan, Covidence): KI priorisiert wahrscheinlich relevante Treffer, beschleunigt das Screening — aber jede Entscheidung trifft ein Mensch und dokumentiert sie.
  3. Datenextraktion aus Volltexten (Covidence, Claude, ChatGPT): Strukturierte Extraktion von Studienpopulation, Endpunkten, Ergebnissen aus eingeschlossenen Papern — als Vorentwurf, den ein Experte validiert.
  4. CER-Abschnitte generieren (Claude, ChatGPT): Rohfassungen für einzelne Teile des CER — z.B. Beschreibung des Geräteprofils, Zusammenfassung der klinischen Literatur, Formulierung der Nutzen-Risiko-Argumentation.

Wo KI nicht hilft:

  • Das finale klinische Urteil (wer ist qualifizierter klinischer Bewerter?)
  • Die Bewertung, ob Studiendesign und Evidenzqualität ausreichend sind
  • Die Äquivalenzentscheidung (die liegt rechtlich beim Hersteller, geprüft durch den Notified Body)
  • Das Auffinden unveröffentlichter Daten (MAUDE, EUDAMED, eigene Kundenbeschwerden)

Das Halluzinationsrisiko in regulatorischen Dokumenten

In einem CER ist Halluzination kein ärgerlicher Fehler — sie ist ein regulatorisches Risiko.

Der Mechanismus ist bekannt: Generative KI kann Studienergebnisse falsch zusammenfassen, Autoren falsch zuordnen oder Zitate erfinden, die nicht existieren. In einem Blogpost ist das unangenehm. In einem CER, der beim Notified Body eingereicht wird, kann es den gesamten Bericht disqualifizieren — und im schlimmsten Fall Haftungsfragen auslösen.

Die konkrete Gefahr: Ein LLM, das gebeten wird, eine Studie zusammenzufassen, kann plausibel klingende, aber inhaltlich falsche Angaben zu Stichprobengröße, Endpunkten oder statistischer Signifikanz generieren. Wer diese Zusammenfassung ungeprüft in den CER übernimmt und der Notified Body findet den Fehler — oder schlimmer: der Fehler kommt erst beim Post-Market-Surveillance-Abgleich heraus — hat ein ernstes Problem.

Die Schutzmaßnahme ist einfach, aber unverzichtbar: Jede KI-generierte Aussage über Studienergebnisse muss gegen das Originalpaper verifiziert werden. Kein Ausnahmen. Das ist der Grund, warum KI beim CER die Screening- und Strukturierungsarbeit beschleunigt, aber niemals den inhaltlichen Review ersetzt.

Praktisch heißt das: Tools wie scite_ können helfen, den Kontext von Zitationen zu prüfen — wird eine Schlüsselstudie in Folgearbeiten bestätigt oder widersprochen? Das ist ein sinnvoller zweiter Prüfschritt, bevor eine Studie als Kernevidence in den CER übernommen wird.

Konkrete Werkzeuge — was wann passt

Elicit — für die Discovery-Phase Elicit durchsucht über 138 Millionen Paper aus Semantic Scholar und PubMed semantisch — nach Forschungsfragen, nicht nach Stichwörtern. Für die initiale Exploration: “Welche klinischen Daten existieren zu Insufflatoren in laparoskopischen Eingriffen?” bekommt du in Minuten einen strukturierten Überblick. Elicit extrahiert automatisch Stichprobengröße, Methodik und Ergebnisse aus Abstracts. Einschränkung: Die Datenbasis deckt nicht alle für den CER relevanten Quellen ab (Embase fehlt), und Elicit ist kein PRISMA-konformes Screening-Tool. Es eignet sich für die Vorstufe — Hypothesen prüfen, Suchstrings schärfen, relevante MeSH-Terms identifizieren. Kosten: ab kostenlos, Pro ab ca. 49 USD/Monat.

Rayyan — für das systematische Screening Rayyan ist der Standard für PRISMA-konformes Titelscreening. Importiert Suchergebnisse aus PubMed, Embase, Cochrane und anderen Datenbanken, priorisiert relevante Treffer via KI-Scoring und ermöglicht kollaboratives Blind-Screening mit zwei unabhängigen Reviewern. Das automatische PRISMA-Flussdiagramm ist direkt nutzbar für die CER-Dokumentation. Wichtig: Interface ausschließlich auf Englisch, Datenhaltung in den USA — für manche Regulatory-Teams ein Compliance-Punkt, den es mit dem DSB zu klären gilt. Kosten: kostenloser Basisplan (3 aktive Reviews), Advanced ab ca. 8 USD/Sitz/Monat.

Covidence — für den vollständigen PRISMA-Workflow Wo Rayyan beim Screening endet, macht Covidence weiter: strukturierte Datenextraktion, LLM-gestützte Extraktionsvorschläge (manuell zu bestätigen), Risk-of-Bias-Assessment. Das Cochrane-empfohlene Tool für Reviews, bei denen methodische Sauberkeit dokumentiert werden muss. Teurer als Rayyan (ab 339 USD/Jahr pro Review), dafür vollständiger Workflow. Ebenfalls US-Hosting.

Claude oder ChatGPT — für CER-Abschnitte Generative KI eignet sich für strukturierte Rohfassungen einzelner CER-Teile: Gerätebeschreibung, Literatursynopse, Nutzen-Risiko-Argumentation. Das Vorgehen: Du gibst die validierten Studiendaten als Input, das LLM formuliert eine strukturierte Zusammenfassung gemäß CER-Vorlage. Das Ergebnis ist ein Ausgangspunkt — kein fertigstellbares Dokument. Jede Aussage über Studienergebnisse muss gegen das Original geprüft werden.

Zotero — für Referenzverwaltung Kostenlos, Open Source, mit Browser-Extension für einliniges Speichern von Papern. Zotero verwaltet die eingeschlossene Literatur, generiert Literaturverzeichnisse in der für den CER nötigen Zitierstil und lässt sich mit Rayyan und Covidence verbinden. Lokale Datenhaltung möglich — DSGVO-freundlich.

scite_ — für Zitierkontextprüfung Bevor eine Studie als Kernevidence in den CER übernommen wird: scite_ zeigt, ob sie in Folgearbeiten zustimmend zitiert, widerlegt oder nur erwähnt wurde. Ein Zusatz-Prüfschritt, kein Pflicht-Tool — aber sinnvoll für Reviews, bei denen die Evidenzbasis dünn ist.

Zusammenfassung: Wann welches Tool

  • Schneller Überblick, Suchstringentwicklung → Elicit
  • Systematisches Screening, PRISMA-Dokumentation → Rayyan
  • Vollständiger Review-Workflow mit Datenextraktion → Covidence
  • CER-Abschnitte formulieren → Claude oder ChatGPT (mit Pflichtprüfung)
  • Literaturverwaltung, Zitierstile → Zotero
  • Zitierkontextprüfung → scite_

Datenschutz und Datenhaltung

Klinische Bewertungsberichte enthalten sensible Produktinformationen, die oft als Betriebsgeheimnis eingestuft sind: detaillierte Gerätespezifikationen, klinische Daten aus eigenen Feldstudien, Beschwerdeauswertungen. Die Frage, was an welches Cloud-System übertragen wird, ist kein bürokratisches Detail.

Was unkritisch ist: Öffentlich zugängliche Literaturdaten aus PubMed und Embase können bedenkenlos in US-gehostete Tools wie Rayyan oder Elicit geladen werden — das sind publizierte Informationen ohne Personenbezug.

Was intern bleiben sollte: Unveröffentlichte Felddaten, PMCF-Studiendaten, interne Beschwerde-Rohdaten, technische Details des eigenen Produkts. Diese sollten nicht in externe LLMs eingegeben werden, ohne Datenschutzfolgenabschätzung und DSGVO-konformen Auftragsverarbeitungsvertrag.

Für die Erstellung von CER-Abschnitten mit Claude oder ChatGPT bedeutet das: Die öffentlichen Literaturdaten können als Input genutzt werden; interne Produktspezifikationen sollten anonymisiert oder ausgelassen werden, wenn kein EU-Hosting und kein AVV vorliegt. Claude ist über AWS Bedrock (Frankfurt) und Google Vertex AI (EU-Region) DSGVO-konform nutzbar — das erfordert aber einen Cloud-Zugang und ist kein Consumer-Produkt.

Greenlight Guru und meddevo als eQMS-Plattformen können teils auch klinische Dokumente verwalten — hier gelten die AVV-Bedingungen der jeweiligen Plattform, die du aktiv prüfen und einfordern musst.

Was es kostet — realistisch gerechnet

Einmalige Einrichtungskosten

  • Suchprotokoll nach MEDDEV 2.7/1 entwickeln und validieren: intern 2–4 Wochen (1 RA-Person) oder externes Consulting: 3.000–8.000 €
  • Tool-Setup und Datenbankzugänge einrichten: 1–2 Wochen intern
  • Interne Validierung des KI-Screenings gegen manuelle Baseline: 2–3 Wochen
  • Gesamteinrichtung: typisch 3–5 Monate bis produktiver Einsatz bei laufendem Betrieb

Laufende Toolkosten (monatlich)

  • Elicit: kostenlos bis ca. 49 USD/Monat (Pro), ca. 165 USD/Monat (Scale)
  • Rayyan: kostenlos bis ca. 8 USD/Sitz/Monat (Advanced)
  • Covidence: 339 USD/Jahr pro Review (ca. 28 USD/Monat bei einem Review/Jahr)
  • Claude Pro oder ChatGPT Plus: 20 USD/Monat je Tool
  • Zotero: kostenlos
  • Gesamte Tool-Kosten: ca. 100–400 € monatlich

Was du dagegenrechnest Ein externer Clinical Affairs Consultant bei 150 €/Stunde und 300 Stunden für einen CER: 45.000 €. Wenn der interne RA-Aufwand mit KI-Unterstützung 200 statt 300 Stunden braucht und 100 externe Stunden eingespart werden: 15.000 € Einsparung — bei Toolkosten von unter 5.000 € im Jahr. Das Beispiel ist konservativ. Wer drei CERs pro Jahr durchführt, amortisiert den Setup-Aufwand deutlich schneller.

Was den ROI bestimmt (und was ihn zerstört): Der ROI ist direkt messbar in eingesparten Consulting-Stunden. Er kippt, wenn:

  • KI-Outputs nicht gründlich geprüft werden und Fehler später korrigiert werden müssen
  • Das interne Team nicht qualifiziert genug ist, die KI-Vorarbeit korrekt einzuschätzen
  • Ein Notified Body den KI-gestützten Prozess ablehnt, weil die PRISMA-Dokumentation nicht sauber genug ist

Drei typische Einstiegsfehler

1. Mit dem CER als erstem KI-Test beginnen. Der häufigste Fehler: Das Team entscheidet, das nächste CER “mit KI zu machen” — ohne vorige Erfahrung, ohne validierten Prozess, ohne Baseline für die Qualitätsprüfung. Das Ergebnis ist ein CER, bei dem niemand weiß, ob die KI-generierten Teile korrekt sind. Lösung: Zuerst einen abgeschlossenen, bewerteten alten CER als Testfall nehmen. KI-Screening gegen das damalige Ergebnis prüfen. Erst wenn das KI-Tool in der Retrospektive mindestens 90 Prozent der damals eingeschlossenen Studien auch gefunden hätte, ist der Prozess für echte CERs validiert.

2. Nur eine Datenbank durchsuchen. MEDDEV 2.7/1 rev.4 ist eindeutig: Eine Suche nur in PubMed reicht nicht. Embase ist Pflicht, weil europäische Konferenzberichte und Fachzeitschriften dort besser abgedeckt sind. Notified Bodies kennen diesen Fehler und fragen aktiv danach. Wer mit Elicit oder Rayyan arbeitet, muss prüfen, ob das Tool die erforderlichen Datenbanken abdeckt — und die Lücken manuell schließen.

3. KI-generierte Studienzusammenfassungen ungeprüft übernehmen. Das ist der gefährlichste Fehler. Ein LLM, das eine 40-seitige RCT zusammenfasst, kann Stichprobengrößen verwechseln, Kontrollgruppen mit Interventionsgruppen vertauschen oder nicht-signifikante Ergebnisse als signifikant formulieren. Wer diese Zusammenfassungen ohne Abgleich mit dem Originalpaper in den CER übernimmt und der Notified Body findet den Fehler — oder die Aufsichtsbehörde findet ihn später bei einem Vigilanzfall — hat ein massives Problem. Lösung: Jede Studienaussage im CER, die KI formuliert hat, markieren und gegen das Original verifizieren. Kein Zwischenschritt, keine Ausnahmen.

4. Den Wartungsaufwand unterschätzen. Ein CER ist kein Einmaldokument. MDR verlangt regelmäßige Aktualisierungen (PMCF-Rhythmus, PMS-Berichte, neue Literatur). Wer KI-Screening einmal aufsetzt, muss auch klären: Wer läuft die Suche jährlich neu? Wer prüft, ob neue relevante Studien erschienen sind? Wer entscheidet, ob eine neue Studie den Nutzen-Risiko-Abgleich verändert? Ein KI-System ohne Wartungsverantwortung ist nach 18 Monaten ein Sicherheitsrisiko.

Was mit der Einführung wirklich passiert — und was nicht

Die Technik ist das Kleinste an diesem Vorhaben. Das Schwierigere ist die Qualitätssicherung.

Was nicht passiert: Klinische Bewertungen werden nicht “automatisch” erstellt. Das ist eine verbreitete Fehlannahme, die vom Aufwand her komplett falsch liegt. KI beschleunigt bestimmte Routineschritte — Screening, Datenextraktion, Rohformulierungen. Die inhaltliche klinische Beurteilung, die Äquivalenzargumentation und die finale Verantwortung liegen weiterhin beim qualifizierten klinischen Bewerter.

Was passiert: Das RA-Team arbeitet in zwei Phasen. Phase 1 (Literatur, KI-unterstützt) ist deutlich schneller und preiswerter. Phase 2 (klinische Beurteilung, menschlich) bleibt gleich aufwendig. Dieser Unterschied muss intern kommuniziert werden — sonst entstehen unrealistische Erwartungen an “KI macht den CER”.

Typische Widerstands-Muster:

Die klinischen Bewerter. Erfahrene klinische Bewerter haben eine systematische Literatursuche jahrelang manuell durchgeführt. Sie kennen ihre Quellen, ihre Suchstrategien, ihre Qualitätskriterien. Ein KI-Tool, das “für sie” screent, fühlt sich für manche wie Kontrollverlust an. Was hilft: Sie in die Validierung einbinden. Sie sind die Instanz, die prüft, ob das KI-Screening die richtigen Studien gefunden hätte. Wenn sie das Vertrauen in den Prozess aufgebaut haben, wird KI zum Werkzeug statt zur Konkurrenz.

Die Regulatory-Affairs-Leitung. “Was sagt der Notified Body dazu?” ist die erste Frage. Und es ist die richtige Frage. Es gibt aktuell keine offizielle MDCG-Leitlinie, die KI-gestütztes Literaturscreening explizit billigt oder verbietet. Was zählt: Das PRISMA-Protokoll ist sauber dokumentiert. Jede Einschluss- und Ausschlussentscheidung ist nachvollziehbar. Der klinische Bewerter hat inhaltlich verantwortet. Die Form bleibt menschlich — das Tool ist ein Effizienzwerkzeug, kein Entscheidungsträger.

Realistischer Zeitplan mit Risikohinweisen

PhaseDauerWas passiertTypisches Risiko
Bestandsanalyse & ToolauswahlWoche 1–2Dokumentenbanken prüfen, Tool-Optionen evaluieren, Datenschutz klärenUnterschätzen der Datenbankabdeckung — Embase ist Pflicht, aber nicht in allen Tools
Suchprotokoll entwickelnWoche 2–4Suchstrings formulieren, MeSH-Terms ableiten, Inklusions-/Exklusionskriterien festlegenZu enge oder zu breite Suchstrings — mit einem Testlauf prüfen
Tool-Setup & ValidierungWoche 4–8Testlauf mit altem CER als Baseline, KI-Trefferquote prüfen, Prozess dokumentierenValidierungslücke — ohne Baseline keine Aussage über KI-Qualität
Pilotdurchlauf (realer CER)Woche 8–14Erstmals vollständigen CER-Prozess KI-unterstützt durchführen, dokumentierenZeitunterschätzung bei menschlichem Review — KI spart beim Screening, nicht bei der Beurteilung
Prozessübernahme & SchulungWoche 14–18Standardisierte Vorgehensweise festlegen, RA-Team schulen, Wartungsverantwortung zuweisenKeine klare Wartungszuständigkeit — wer aktualisiert das Protokoll bei neuer MDCG-Guidance?

Häufige Einwände — und was dahintersteckt

“KI erfüllt nicht die Anforderungen von MEDDEV 2.7/1.” Korrekt — KI allein erfüllt sie nicht. Der strukturierte Suchprozess mit Protokolldokumentation, menschlichem Dual-Screening und nachvollziehbaren Entscheidungen muss weiterhin stattfinden. KI ist das Werkzeug, das den Menschen bei diesem Prozess unterstützt — nicht der Prozess selbst. Ein PRISMA-konformer Review mit Rayyan, dokumentierten Suchstrings und menschlichen Entscheidungen erfüllt die MEDDEV-Anforderungen. Ein vollautomatisches KI-Screening ohne Prüfung durch einen Experten tut das nicht.

“Der Notified Body fragt, wie der CER erstellt wurde.” Und das ist eine legitime Frage. Die Antwort, die akzeptiert wird: “Wir haben eine systematische Literaturrecherche nach MEDDEV 2.7/1 rev.4 durchgeführt. Suchprotokoll und PRISMA-Flussdiagramm liegen vor. Alle Inklusions- und Exklusionsentscheidungen wurden von qualifiziertem klinischem Personal getroffen und dokumentiert. KI-Tools haben das Vorscreening unterstützt.” Das ist methodisch sauber. Was Notified Bodies nicht akzeptieren: “ChatGPT hat den CER geschrieben.”

“Wir haben keine Ressourcen für den Setup.” Dann ist KI-Unterstützung beim CER nicht der richtige erste Schritt. Realistischerweise braucht man in der Einführungsphase mehr Kapazität, nicht weniger — für Validierung, Dokumentation und Prozessaufbau. Wer unter maximaler Ressourcenknappheit einen CER erstellen muss, ist mit einem erfahrenen externen klinischen Bewerter besser bedient. KI-Unterstützung rechnet sich erst, wenn man mehr als ein bis zwei CERs pro Jahr durchführt.

Woran du merkst, dass das zu dir passt

  • Du führst pro Jahr mindestens zwei bis drei CERs durch — für einzelne Produkte, Produktvarianten oder jährliche Aktualisierungen
  • Dein RA-Team verbringt mehr als vier Wochen pro CER mit reinem Literaturscreening — das ist der Zeitblock, den KI direkt angreift
  • Ihr habt erfahrene Regulatory-Affairs-Fachleute intern, die die KI-Outputs bewerten und verantworten können
  • Eure Produkte haben ein etabliertes Technologieprofil mit hinreichender Literaturbasis (Klasse IIa und IIb, Standardtechnologien)
  • Der externe Consulting-Anteil bei CERs ist hoch — und du weißt, welche Stunden davon Literaturrecherche und Strukturierungsarbeit sind (die internalisierbaren) und welche echte klinische Beurteilung (die nicht)

Wann es sich (noch) nicht lohnt — drei harte Ausschlusskriterien:

  1. Klasse-III-Implantate ohne Vorgängerprodukt und ohne Äquivalenznachweis. Hier ist das Grundproblem nicht die Literaturrecherche, sondern fehlende klinische Evidenz. MDR verlangt dann eine klinische Prüfung nach Anhang X. Kein KI-Tool löst dieses Problem — es beschleunigt nur die Suche nach Evidenz, die möglicherweise nicht existiert. Bevor du in KI-Setup investierst, muss klar sein, ob Anhang-XIV-Evidenz überhaupt ausreicht.

  2. RA-Teams ohne vorige MDR-CER-Erfahrung. KI-Outputs für einen CER richtig einschätzen zu können setzt voraus, dass du weißt, wie ein methodisch sauberer CER aussieht. Wer diese Erfahrung nicht hat, kann nicht beurteilen, ob das KI-Screening die richtigen Studien gefunden hat — und ob die KI-Zusammenfassungen korrekt sind. Ohne diese Qualitätsbasis ist KI-Unterstützung beim CER gefährlicher als hilfreich.

  3. Weniger als zwei CERs pro Jahr. Der Setup-Aufwand (Suchprotokoll, Tool-Validierung, Prozessdokumentation) lohnt sich wirtschaftlich erst bei regelmäßiger Nutzung. Wer einmal im Jahr einen CER erstellt, ist mit einem externen Spezialisten effizienter und sicherer bedient.

Das kannst du heute noch tun

Starte nicht mit dem nächsten echten CER. Starte mit einem abgeschlossenen.

Nimm einen CER, den dein Team in den letzten zwei Jahren erstellt und abgeschlossen hat. Führe mit Elicit eine Testrecherche auf dem Themengebiet durch. Vergleiche die Treffer mit dem, was damals manuell eingeschlossen wurde. Wenn Elicit mindestens 80 Prozent der damals relevanten Studien identifiziert, hast du den ersten Beweis, dass das Konzept für eure Geräte-Kategorie funktioniert — und einen validen Ausgangspunkt für die interne Diskussion.

Dieser Test dauert zwei Stunden. Er kostet nichts. Und er beantwortet die eigentliche Frage: Ist die Literaturbasis eurer Gerätekategorie in den KI-Datenbanken ausreichend abgedeckt?

Hier ist ein Prompt, mit dem du den Einstieg strukturieren kannst:

Prompt: CER-Einstieg nach MEDDEV 2.7/1
Du unterstützt die Erstellung eines Klinischen Bewertungsberichts (CER) nach EU MDR 2017/745 und MEDDEV 2.7/1 rev.4. Gerätetyp: [GERÄTEKATEGORIE, z.B. "laparoskopischer Insufflator"] Geräteklasse: [KLASSE, z.B. "Klasse IIb"] Beabsichtigte Anwendung: [BESCHREIBUNG, z.B. "Insufflation des Abdomens bei laparoskopischen Eingriffen"] Aufgabe 1 — Suchstringentwicklung: Schlage drei bis fünf Suchstrings für PubMed vor, die klinische Daten zur Sicherheit und Leistung dieses Gerätetyps identifizieren sollen. Berücksichtige MeSH-Terms, Gerätekategorie-Synonyme und klinische Endpunkte (Sicherheit, Wirksamkeit). Formuliere die Strings nach Boole'scher Logik (AND, OR, NOT). Aufgabe 2 — Inklusions-/Exklusionskriterien: Schlage Kriterien vor, nach denen Studienergebnisse eingeschlossen oder ausgeschlossen werden sollen. Orientiere dich an: Studientyp, Patientenpopulation, Vergleichsgerät, Beobachtungszeitraum, Sprache. Aufgabe 3 — Erste Geräteprofil-Beschreibung (für CER-Abschnitt 4): Formuliere einen strukturierten Abschnitt zur Beschreibung des Geräts, der klinische Indikationen, kontraindizierte Anwendungen und die vorgesehene Zielgruppe abdeckt. Wichtiger Hinweis: Alle Literaturangaben und Studienergebnisse müssen gegen Originalpaper verifiziert werden. Erstelle keine Studienaussagen ohne Quelle.
Funktioniert mit Claude, ChatGPT
Beispiel-Ausgabe

Mitarbeiter:in

Gerätetyp: laparoskopischer Insufflator, Klasse IIb, Anwendung: Abdominalinsufflation bei laparoskopischen Eingriffen

KI-Assistent

Aufgabe 1 — Suchstrings für PubMed: String 1 (breit, Sicherheit): ("laparoscopic insufflation" OR "abdominal insufflation" OR "pneumoperitoneum") AND ("safety" OR "adverse events" OR "complications") AND ("clinical study" OR "randomized controlled trial" OR "case series") String 2 (spezifisch, Gerätevergleich): ("insufflator" OR "insufflation device") AND ("laparoscopy" OR "laparoscopic surgery") AND ("performance" OR "intraabdominal pressure" OR "CO2 flow") String 3 (Post-Market): ("laparoscopic insufflator" OR "CO2 insufflation") AND ("adverse event" OR "malfunction" OR "device failure" OR "vigilance report") Aufgabe 2 — Inklusions-/Exklusionskriterien: Einschluss: Klinische Studien, Fallserien und Registerauswertungen mit ≥10 Patienten; laparoskopische Abdominaleingriffe bei Erwachsenen; Publikationszeitraum 2010–heute; Sprachen: Deutsch, Englisch, Französisch Ausschluss: Tierexperimentelle Studien; rein technische Prüfberichte ohne klinische Endpunkte; Fallberichte mit n<5; Vorläufige Konferenzabstracts ohne Peer Review Aufgabe 3 — Geräteprofil-Abschnitt 4 (Rohfassung): Das Gerät [PRODUKTNAME] ist ein aktives Medizinprodukt der Klasse IIb nach EU MDR 2017/745. Es dient der kontrollierten Insufflation des Abdomens mit CO2 bei laparoskopischen Eingriffen. Die bestimmungsgemäße Verwendung umfasst: [LISTE DER INDIKATIONEN]. Kontraindizierte Anwendungen: [LISTE]. Zielgruppe: Chirurgen mit Ausbildung in laparoskopischen Techniken. HINWEIS: Alle Daten zu klinischer Leistung und Sicherheit sind gegen Originalpublikationen zu verifizieren.

Quellen & Methodik

  • MEDDEV 2.7/1 revision 4 (2016): European Commission, „Clinical evaluation: a guide for manufacturers and notified bodies under directives 93/42/EEC and 90/385/EEC.” Europäische Kommission, Brüssel, 2016. Verfügbar unter: ec.europa.eu/docsroom/documents/17522. Das maßgebliche Leitdokument für klinische Bewertungen; mit MDR 2017/745 weiterhin anwendbar und durch MDCG-Dokumente ergänzt.
  • Johner Institut: „Klinische Bewertungen: Diese 5 Fehler und 5 Irrtümer vermeiden!” sowie „MDCG 2020-5: Das Ende der Äquivalenzroute?” (johner-institut.de). Praxiserfahrungen aus hunderten begleiteter Klinischer Bewertungen; dokumentiert, dass Notified Bodies Äquivalenzanforderungen zunehmend streng auslegen.
  • MedTech Europe Regulatory Survey 2024: 50 Prozent der befragten Hersteller berichteten, dass die klinische Bewertung bei mindestens einer MDR-Einreichung erheblich beanstandet wurde. Quelle: Suchresultat MedEnvoy/MedTech-Europe-Bericht 2024.
  • MedEnvoy (2024): „What’s the Cost of Medical Device Approval in Europe?” (medenvoyglobal.com). Kostenspanne für Literaturrecherche und Analyse: 18.000–60.000 USD für Standardgeräte.
  • Rayyan Evaluation (2024): MSR72, „An Evaluation of the Rayyan Artificial Intelligence Tool for Systematic Literature Review Screening.” Value in Health, 2024. Berichtet hohe Sensitivität des KI-Screenings bei eingeschränkter Spezifität — relevant für den Einsatz in regulatorischen Literaturreviews.
  • MDCG 2020-5: Medical Device Coordination Group, „Clinical evaluation — Equivalence.” Europäische Kommission, 2020. Klärt Anforderungen an den Äquivalenznachweis nach MDR Art. 61(5).
  • Preisangaben Elicit, Rayyan, Covidence, Claude Pro: Veröffentlichte Tarife der jeweiligen Anbieter (Stand Mai 2026).
  • Halluzinationsrisiko in klinischen KI-Anwendungen: FDA Digital Health Advisory Committee, Executive Summary „Total Product Lifecycle Considerations for Generative AI-Enabled Devices” (November 2024). Dokumentiert Halluzination und Sycophancy als spezifische Risiken generativer KI in regulatorischen Kontexten.

Du willst einschätzen, ob der Ansatz für eure Geräteportfolio und euer RA-Team passt — und wie ihr den Einstieg sinnvoll strukturiert? Meld dich — das klären wir in einem konkreten Gespräch.

Diesen Inhalt teilen:

🤝

Interesse an diesem Use Case?

Schreib uns, wenn du mehr erfahren oder diesen Use Case für dein Unternehmen umsetzen möchtest. Wir melden uns zeitnah bei dir.

Deine Daten werden ausschließlich zur Bearbeitung deiner Anfrage verwendet (Art. 6 Abs. 1 lit. b DSGVO). Mehr in unserer Datenschutzerklärung.

Kostenloser Newsletter

Bleib auf dem neuesten
Stand der KI

Wähle deine Themen und erhalte relevante KI-News, Praxistipps und exklusive Inhalte direkt in dein Postfach – kein Spam, jederzeit abmeldbar.

Was interessiert dich? Wähle 1–3 Themen — du bekommst nur Inhalte dazu.

Mit der Anmeldung stimmst du unserer Datenschutzerklärung zu. Jederzeit abmeldbar.

Kostenlos
Kein Spam
Jederzeit abmeldbar