Forschung & Entwicklung systematic-reviewmeta-analyseevidenz

Forschungsstand-Synthese und Systematic Review

KI beschleunigt PRISMA-konforme systematische Reviews: Screening von Titeln und Abstracts, Datenextraktion aus Volltexten, automatische Synthesetabellen und vorbereitende Evidenzgradierung nach GRADE-Schema.

Worum geht's?

Es ist Donnerstag, 11:14 Uhr.

Dr. Miriam Schöller, Oberärztin und Habilitandin an einer deutschen Universitätsklinik, öffnet die Excel-Tabelle, die seit drei Wochen auf ihrem Zweitmonitor geöffnet ist. Spalte A: Paper-Titel. Spalte B: Abstract. Spalte C: Einschluss ja/nein. Spalte D: Begründung. Zeile 1.847 von 2.340.

Sie ist die alleinige Reviewerin. Die Zweitprüferin — eine Doktorandin — hat seit sechs Wochen ihre eigene Förderantrag-Deadline. Das Screening-Protokoll sieht Dual-Review vor, aber die Realität ist: Miriam sitzt das hier alleine durch, in den Lücken zwischen Ambulanz und Besprechungen. Wahrscheinlich wird das PRISMA-Flussdiagramm am Ende “zwei unabhängige Reviewer” ausweisen, obwohl der zweite Review de facto aus Stichproben besteht.

Das Journal verlangt ein vollständiges PRISMA-Statement. Die Fördergeberin erwartet den Review bis Quartal 3. Das Fachgebiet braucht diesen Review — es gibt aktuell keine aktuelle Evidenzsynthese zu der Fragestellung, die in der Leitlinienkommission diskutiert wird.

Das Hindernis ist nicht die Forschungsfrage. Das Hindernis ist die Kapazität.

Das echte Ausmaß des Problems

Systematische Reviews und Meta-Analysen sind das stärkste Werkzeug der evidenzbasierten Medizin und Wissenschaft — und gleichzeitig das aufwändigste. Eine vollständige Durchführung nach PRISMA-Standard bindet nach aktuellen Erhebungen zwischen 600 und 2.000 Arbeitsstunden, verteilt auf 12 bis 18 Monate und typischerweise zwei bis drei Forscher.

Das führt zu einer paradoxen Situation: Genau die Fragestellungen, die politisch oder klinisch am dringendsten beantwortet werden müssten, bekommen oft keinen Review — weil kein Team die Kapazität hat. Weniger wichtige Themen mit gut vernetzten Forschungsgruppen werden überrepräsentiert. Die Evidenzlage einer Disziplin ist damit nicht allein von der Forschungsqualität abhängig, sondern von der Verfügbarkeit von Arbeitsstunden.

Das größte Zeitproblem liegt in der Screening-Phase. In einer typischen Suche über mehrere Datenbanken entstehen 1.000 bis 5.000 Treffer. Davon sind nach Titelscreening oft 60–80 Prozent auszuschließen — eine Entscheidung, die zwar schnell klingt, aber für jeden Treffer begründet und dokumentiert sein muss. Eine Umfrage unter 253 Forscherinnen und Forschern (Rinehart-Jones et al., Journal of Medical Library Association, 2021) ergab: 80 Prozent der Nutzerinnen und Nutzer von Automatisierungstools sparten durch diese Werkzeuge Zeit — aber 51 Prozent nannten Wissenslücken über verfügbare Tools als primäre Adoptionsbarriere. Das bedeutet: Die meisten Forschenden wüssten nicht einmal, dass es Alternativen zu ihrer Excel-Tabelle gibt.

Mit vs. ohne KI — ein ehrlicher Vergleich

Kennzahl	Ohne KI-Unterstützung	Mit KI-gestütztem Workflow
Titelscreening (2.000 Treffer)	40–60 Stunden	8–15 Stunden
Abstractscreening (500 Treffer)	20–30 Stunden	10–15 Stunden
Datenextraktion (100 Volltexte)	60–120 Stunden	30–60 Stunden
Synthesetabellen erstellen	20–40 Stunden	5–10 Stunden (Entwurf)
PRISMA-Flussdiagramm	manuell, fehleranfällig	automatisch, Echtzeit
Gesamtdauer Review	12–18 Monate	6–9 Monate (bei gleichem Team)
Reproduzierbarkeit der Entscheidungen	hoch abhängig von Dokumentation	strukturell erzwungen

Die Werte für die Zeitersparnis im Screening basieren auf veröffentlichten Studien zu Rayyan und ähnlichen Tools; bei der Datenextraktion und Synthesetabellenerstellung handelt es sich um Erfahrungswerte. Wichtig: KI kann die Volltext-Qualitätsbewertung und die finale Risiko-of-Bias-Beurteilung nicht ersetzen — diese Phasen skalieren nicht im gleichen Maß.

Einschätzung auf einen Blick

Zeitersparnis — hoch (4/5) Die Screening-Phase ist der größte Zeitfresser in systematischen Reviews, und genau hier ist der KI-Effekt am deutlichsten messbar. Rayyan beschleunigt das Titelscreening laut eigenen Angaben um bis zu 90 Prozent, unabhängige Studien zeigen realistische 40–60 Prozent. Das macht diesen Use Case zu einem der zeitlich wirksamsten in dieser Kategorie — nur die automatisierte Literaturrecherche ist schneller im Produktiveinsatz. Bei Datenextraktion und GRADE-Bewertung fällt der Zeitvorteil hingegen deutlich geringer aus.

Kosteneinsparung — mittel (3/5) Die Tool-Kosten sind im Verhältnis zur eingesparten Forscherkapazität gering: Covidence kostet 339 USD pro Review und Jahr, Elicit unter 150 USD/Monat. Bei zwei eingesparten Forschermonaten (Vollkosten ca. 8.000–12.000 Euro) rechnet sich das deutlich — aber die Einsparung fließt nicht als Budget zurück, sondern als zurückgewonnene Kapazität. Der Nutzen ist real, aber in einem Forschungsbudget schwer direkt zu monetarisieren.

Schnelle Umsetzung — niedrig (2/5) Wer einen ersten Review starten will, ist in Rayyan innerhalb einer Woche produktiv. Der methodisch saubere Einstieg — Protokoll, Inklusions-/Exklusionskriterien, Pilotscreening, Inter-Rater-Kalibrierung — dauert aber 10–16 Wochen, bevor das erste Review-Ergebnis belastbar ist. Kein anderes Tool in dieser Kategorie erfordert so viel methodische Vorabarbeit wie ein PRISMA-konformer Review. Einstieg=2 ist ehrlich: wer das unterschätzt, riskiert ein Review, das kein Journal akzeptiert.

ROI-Sicherheit — mittel (3/5) Die Zeitersparnis im Screening ist messbar und reproduzierbar. Weniger sicher ist, ob die KI-gestützte Datenextraktion die gleiche Qualität liefert wie ein erfahrener Reviewer — der Spielraum liegt bei 4–31 Prozent fehlerhafter Extraktion, Medianwert 14 Prozent (laut Auswertungen zu Automatisierungstools in systematischen Reviews). Für Reviews, bei denen ein einziger übersehener Confounder die Gesamtaussage verändert, ist das nicht tolerierbar ohne nachgelagerte Prüfung.

Skalierbarkeit — mittel (3/5) Das gleiche Toolset — Rayyan, Elicit, Covidence — funktioniert für Reviews in unterschiedlichen Fachgebieten. Was aber nicht skaliert: die fachliche Kalibrierung. Jedes neue Fachgebiet braucht neu definierte Inklusions-/Exklusionskriterien, neu kalibrierte Reviewer und neue Pilotscreening-Runden. Systematische Reviews sind kein fließbandprozess, der sich einmal einrichten und dann für beliebige Themen betreiben lässt.

Richtwerte — stark abhängig von Umfang der Suchstrategie, Fachgebiet und verfügbarer Reviewerkapazität.

Was das KI-gestützte System konkret macht

Ein PRISMA-konformer Review besteht aus mehreren klar abgrenzbaren Phasen. KI greift an unterschiedlichen Stellen ein — mit sehr unterschiedlichem Reifegrad.

Phase 1: Suchergebnisse importieren und deduplizieren Suchergebnisse aus PubMed, MEDLINE, Scopus, Cochrane Library und weiteren Datenbanken werden als RIS- oder NBIB-Dateien in Rayyan oder Covidence importiert. Das System entfernt Duplikate automatisch und zeigt den laufenden PRISMA-Fluss in Echtzeit an. Dieser Schritt spart keine Forscherzeit, aber er erzwingt methodische Sauberkeit: Jede Ein- und Ausschlussentscheidung ist dokumentiert, unveränderbar protokolliert.

Phase 2: Titelscreening mit KI-Priorisierung Rayyan setzt nach den ersten manuellen Entscheidungen ein Machine-Learning-Modell ein, das die verbleibenden Paper nach Relevanzwahrscheinlichkeit sortiert. Die Reviewerin oder der Reviewer arbeitet sich von “wahrscheinlich relevant” zu “wahrscheinlich irrelevant” vor, statt in zufälliger Reihenfolge. Das Ergebnis: Statt alle 2.000 Titel gleich aufwändig zu behandeln, werden die offensichtlichen Ausschlüsse am Ende geballt bearbeitet. Die Zeitersparnis ist erheblich — aber die Entscheidung selbst bleibt menschlich.

Phase 3: Abstractscreening — der hybride Schritt Elicit kann aus Abstracts automatisch strukturierte Informationen extrahieren: Studiendesign, Stichprobengröße, primäre Endpunkte, verwendete Instrumente. Das erlaubt ein schnelleres Sichten, weil nicht jeder Abstract vollständig gelesen werden muss — sondern die extrahierten Felder verglichen werden. Das Risiko: Elicits Extraktion aus Abstracts ist für einfache Angaben (Stichprobengröße, Design) zuverlässig, bei mehrdeutigen oder impliziten Angaben hingegen fehleranfällig (4–31 Prozent fehlerhafter Extraktion laut unabhängigen Studien).

Phase 4: Volltext-Review — weitgehend manuell Die Volltextprüfung auf Eligibilität und die Beurteilung methodischer Qualität sind die Schritte, bei denen KI bis heute am wenigsten verlässlich ist. Urteilsfragen wie “Ist die Randomisierung hinreichend maskiert?” oder “Besteht ein relevantes Confounder-Risiko?” erfordern Fachkenntnisse, die kein aktuelles Modell konsistent reproduziert. Der ChatGPT-4-Versuch mit dem Cochrane ROB2-Tool erzielte laut einer 2024 im Journal of Clinical Epidemiology veröffentlichten Studie (Fabiano et al., JCPP Advances 2024) eine Übereinstimmung mit menschlichen Reviewern von unter 70 Prozent — weit unter dem, was für eine methodisch belastbare Risikobeurteilung nötig wäre.

Phase 5: Datenextraktion und Synthesetabellen Elicit kann aus Volltexten strukturierte Tabellen mit definierten Spalten befüllen: Intervention, Kontrollbedingung, Outcome-Maße, Follow-up-Zeitraum. Das liefert einen verwertbaren Entwurf. Aber: Der Entwurf muss konsequent nachgeprüft werden. Für eine Cochrane-konforme Synthese ist eine Vollprüfung durch einen Experten unumgänglich.

Phase 6: GRADE-Vorbereitung LLM-Assistenten können GRADE-Domänen wie Präzision (Stichprobengröße, Konfidenzintervalle) und Heterogenität (I²-Werte) automatisch aus den Extraktionstabellen ableiten. Diese quantitativen Komponenten sind zuverlässig automatisierbar. Die qualitative Domäne — Einschränkungen durch Studiendesign, indirekte Evidenz, publikationsbias — bleibt menschliches Urteil. Ein 2024 veröffentlichtes Proof-of-Concept zur automatisierten GRADE-Klassifikation (URSE-Tool) erzielte eine Übereinstimmung von 63,2 Prozent mit menschlichen Evaluatoren (Kappa = 0,44) — zu niedrig für alleinige KI-Anwendung, aber hilfreich als erster Entwurf.

Wo PRISMA-Compliance endet und KI-Grenzen beginnen

Dieser Abschnitt ist der ehrlichste im ganzen Text — und der wichtigste für alle, die keinen Methodenfehler in einem publizierten Review riskieren wollen.

PRISMA-Konformität ist keine Frage von Werkzeugen. Sie ist eine Frage von Entscheidungen — und jede Entscheidung muss begründbar und reproduzierbar sein.

Was KI sicher übernehmen kann:

Duplikatserkennung und PRISMA-Flussdiagramm (automatisch, korrekt)
Priorisierung im Titelscreening (beschleunigt, aber jede Entscheidung bleibt beim Menschen)
Extraktion quantitativer Merkmale aus Abstracts (Studiendesign, Stichprobengröße, Jahr) — mit Fehlerrate unter 10 Prozent
Erstellen von Synthesetabellen als Entwurf
Aufbereitung quantitativer GRADE-Domänen (Präzision, Heterogenität)

Was KI nicht zuverlässig kann:

Volltext-Eligibilitätsentscheidungen bei mehrdeutigen oder methodisch komplexen Kriterien
Risk-of-Bias-Beurteilung nach ROB2 oder ROBINS-I (Übereinstimmung unter 70 Prozent in Vergleichsstudien)
Klinische Interpretation von Effektstärken
Qualitative GRADE-Domänen: Indirektheit, Inkonsistenz, Publikationsbias
Konsistenzprüfung zwischen Methodik-Abschnitt und berichteten Ergebnissen eines Papers

Die Lücke, die Journals auffüllen: Immer mehr Journals verlangen explizite Deklaration des KI-Einsatzes im Methoden-Abschnitt (PRISMA-trAIce-Checkliste, 2025). Wer KI-Screening einsetzt und das nicht offenlegt, riskiert Ablehnung oder Retraction. Das ist kein hypothetisches Risiko mehr — es ist seit 2024 aktive Praxis in mehreren medizinischen Zeitschriften.

Sonderfall: Regulatorische und klinische Leitlinien-Reviews Wenn ein Review als Grundlage für Leitlinienempfehlungen oder Zulassungsverfahren dient, gelten verschärfte Anforderungen. Das AWMF-Leitlinienprogramm und das IQWiG verlangen vollständig nachvollziehbare Entscheidungsprotokolle. KI-Screening kann eingesetzt werden, aber jede Entscheidung muss nachvollziehbar sein — die Blackbox-Priorisierung durch Rayyan ist dokumentierbar, aber nicht vollständig erklärbar. Im Zweifelsfall: Rücksprache mit dem zuständigen Methodiker, bevor der Workflow festgelegt wird.

Konkrete Werkzeuge — was wann passt

Rayyan — für das Screening Das meistgenutzte Tool für Titelscreening und Abstractscreening in systematischen Reviews. Kostenlos für bis zu 2 Nutzer und unbegrenzte Reviews, Pro-Version für ca. 20 USD/Monat (unbegrenzte Mitarbeiter, Blind-Review-Modus). Stärke: KI-Priorisierung, automatisches PRISMA-Flussdiagramm. Schwäche: Kein EU-Hosting, Interface auf Englisch. Für die meisten akademischen Teams der sinnvolle Einstieg.

Covidence — für strukturierte, Cochrane-konforme Reviews Cochrane-empfohlene Plattform, die den gesamten Review-Prozess von Screening bis Datenextraktion abbildet. 339 USD/Jahr für einen Review (kein monatliches Abo, sondern jährlich). Stärke: methodische Rigorosität, klare Konfliktlösung zwischen Reviewern, direkter Export für Cochrane-Einreichungen. Schwäche: keine KI-Priorisierung, höherer Preis pro Review. Ideal, wenn Reproduzierbarkeit und Cochrane-Konformität oberste Priorität haben.

Elicit — für Recherche und Datenextraktion Durchsucht über 125 Millionen Paper semantisch, extrahiert automatisch Studiendesign, Stichprobengrößen und Ergebnisse aus Abstracts. Plus-Plan für ca. 12 USD/Monat. Gut für die Recherchephase als Ergänzung zu PubMed/Scopus und für einen ersten Entwurf der Extraktionstabelle. Schwäche: US-Datenhaltung, kostenloser Plan stark eingeschränkt.

Connected Papers — für die Suchstrategie Zeigt Zitationsnetzwerke: Welche Paper zitieren welche? Was sind die Fundamentalarbeiten des Felds? Hilfreich in der Vorbereitungsphase, um sicherzustellen, dass die Suchstrategie kein wichtiges Cluster übersieht. Kostenlos bis 5 Graphen/Monat, 3 USD/Monat für akademische Nutzung.

Semantic Scholar / Scite — für Zitationskontext Semantic Scholar ist kostenlos und zeigt, welche Paper zustimmend und welche widersprechend zitiert werden. Scite bietet dasselbe mit mehr Kontext (ca. 20 USD/Monat), inklusive Hinweisen, ob ein Paper für oder gegen eine Aussage zitiert wird. Besonders wertvoll für die Qualitätsbewertung von Quellen.

Wann welcher Ansatz:

Erste Review, medizinisch, PRISMA-Pflicht: Rayyan kostenlos als Screening, Elicit für Recherche
Cochrane-Review oder Leitlinien-Review: Covidence als Haupttool
Suchstrategie entwickeln: Connected Papers + Elicit
Zitationsqualität beurteilen: Scite oder Semantic Scholar

Datenschutz und Datenhaltung

Für systematische Reviews in der deutschen Forschungslandschaft ist DSGVO ein Randthema — die meisten Paper in Reviews sind veröffentlicht, nicht personenbezogen. Aber es gibt zwei Ausnahmen:

Primärdaten in Netzwerk-Meta-Analysen und Individual Patient Data Reviews: Wenn du Rohdaten von Studien anforderst und verarbeitest, gelten die üblichen Schutzpflichten. In diesem Fall solltest du auf selbst gehostete oder EU-basierte Infrastruktur setzen.

Unveröffentlichte Daten oder Graubuchliteratur: Wenn du im Rahmen des Reviews unveröffentlichte Studienberichte aus der Pharmaindustrie oder aus Regierungsquellen anfordert (typisch für Cochrane-Reviews), müssen deren Weitergabe an Dritttools mit den Datenbedingungen der Herausgeber abgestimmt werden.

Für Standard-Reviews mit publizierten Quellen: Alle genannten Tools (Rayyan, Covidence, Elicit) verarbeiten Daten auf US-Servern. Das ist bei öffentlich zugänglichen wissenschaftlichen Inhalten in der Regel unbedenklich. Einen AVV bieten alle drei Anbieter an — im akademischen Kontext ist dieser für Institutionen oft pauschal über Rahmenverträge abgedeckt. Frag dein Rechenzentrum oder Datenschutzreferat, ob deine Hochschule bereits einen Rahmenvertrag hat.

Was es kostet — realistisch gerechnet

Einmalige Einrichtungskosten

Kein technisches Setup erforderlich: alle Tools sind webbasiert und sofort nutzbar
Zeitaufwand für Protokollerstellung, Pilotscreening und Team-Kalibrierung: 15–30 Stunden (dieser Aufwand ist methodisch notwendig, unabhängig von KI-Einsatz)
Schulungsaufwand für das Team: 1–2 Tage

Laufende Kosten pro Review

Rayyan kostenlos: für kleine Teams und erste Reviews ausreichend
Rayyan Pro: ca. 20 USD/Monat (unbegrenzte Mitarbeiter, Blind-Review)
Covidence: 339 USD/Jahr für 1 Review (Einzelplan) — oder 907 USD/Jahr für bis zu 3 Reviews
Elicit Plus: ca. 12 USD/Monat
Scite: ca. 20 USD/Monat
Realistisches Setup für 3 Reviews/Jahr: ca. 1.200–1.800 USD Jahreskosten

Woran du den Nutzen misst Das sauberste Messmodell: Vergleiche den Zeitaufwand für Screening und Datenextraktion im ersten KI-gestützten Review mit dem Aufwand deines letzten manuellen Reviews. Beim Screening ist der Effekt meistens sofort messbar — beim ersten Pilot oft 30–40 Prozent Zeitersparnis, bei eingeübten Teams 50–60 Prozent. Die Datenextraktionsqualität misst du durch Stichprobenprüfung: Nimm 10 Prozent der KI-extrahierten Einträge und prüfe manuell. Eine Fehlerrate unter 15 Prozent ist für einen Erst-Entwurf akzeptabel.

Das Größenbild Ein Forscher mit 80 Prozent Stelle (ca. 60.000 Euro Vollkosten/Jahr) kostet die Universität ca. 5.000 Euro/Monat. Wenn ein systematischer Review mit KI-Unterstützung 3 Monate statt 6 Monate Vollzeitkapazität bindet, sind das potenzielle 15.000 Euro eingesparte Kapazitätskosten — bei Tool-Kosten von ca. 1.500 Euro/Jahr. Selbst im konservativsten Szenario (50 Prozent des Effizienzgewinns realisiert) ist die Wirtschaftlichkeit eindeutig.

Typische Einstiegsfehler

1. Das Protokoll als Formalität behandeln. Viele Teams beginnen mit dem Screening, bevor das Review-Protokoll steht: Forschungsfrage, Inklusions-/Exklusionskriterien, PICO-Schema, Suchstrategie, Datenbankauswahl. Das ist beim manuellen Review bereits gefährlich — beim KI-gestützten Review ist es fatal. Der Rayyan-Algorithmus lernt aus deinen ersten Inklusions-/Exklusionsentscheidungen. Wenn diese Entscheidungen noch nicht auf einem kohärenten Kriterien-Set basieren, wird das KI-Scoring inkohärent. Lösung: Protokoll vollständig abschließen und beim PROSPERO-Register präregistrieren, bevor das erste Paper gescreent wird.

2. KI-Screening ohne Inter-Rater-Kalibrierung. In einer Umfrage (Rinehart-Jones et al., 2021) war Rayyan das am häufigsten abgebrochene Tool (19 Prozent Abbruchrate). Der häufigste Grund: Das Team verstand nicht, warum das KI-Scoring von ihren eigenen Entscheidungen abwich, und verlor das Vertrauen in das System. Das lässt sich verhindern: Vor dem KI-gestützten Screening einen Pilot mit 50–100 Papern durchführen, bei dem beide Reviewer unabhängig entscheiden. Die Übereinstimmung messen (Kappa-Wert anstreben: mindestens 0,7). Erst wenn die Reviewer kohärent urteilen, macht die KI-Priorisierung Sinn.

3. Datenextraktion unkritisch übernehmen. Elicit liefert schnell ausgefüllte Tabellen — was dazu verführt, diese ungeprüft in die Synthese zu übernehmen. Unabhängige Studien zeigen: Die Fehlerrate bei der automatischen Datenextraktion liegt je nach Studientyp zwischen 4 und 31 Prozent (Median 14 Prozent). Ein einziger falsch extrahierter Wert in der Effektstärken-Tabelle kann die gesamte Meta-Analyse verzerren. Lösung: Mindestens 20 Prozent der KI-Extraktion manuell nachprüfen, bei hochriskanten Endpunkten 100 Prozent.

4. Die Entscheidungsdokumentation dem Tool überlassen. Rayyan und Covidence protokollieren Ein- und Ausschlussentscheidungen automatisch. Das ist wertvoll — aber kein Ersatz für eine menschlich geschriebene Begründungsnotiz bei Grenzfällen. Was passiert, wenn ein Reviewer krank wird oder das Team wechselt? Ein gut dokumentiertes Protokoll mit begründeten Ausnahmen ist nicht nur gut wissenschaftliche Praxis, sondern auch Selbstschutz: Wenn ein Reviewer sechs Monate später den Entscheidungsbaum nicht mehr nachvollziehen kann, hat das Tool versagt — nicht das Tool, sondern seine Benutzung.

Was mit der Einführung wirklich passiert — und was nicht

Die Technik macht nur 30 Prozent des Problems aus. Der Rest ist methodische Disziplin und Teamdynamik.

Der häufigste Fallstrick: Der erste Review wird zu einem hybriden Kompromiss. Ein Teil des Teams nutzt das neue Tool, ein anderer arbeitet weiter in Excel. Entscheidungen werden doppelt gepflegt. Am Ende gibt es zwei Wahrheiten. Das passiert nicht wegen mangelndem Willen, sondern wegen Zeitdruck: Wenn ein Review in sechs Monaten publiziert sein muss, fühlt sich eine neue Tool-Einführung mitten im Prozess riskant an. Lösung: Tool-Einführung vor Beginn des nächsten Reviews, nicht während eines laufenden Projekts. Oder: Eines der bestehenden Reviews als Pilot nutzen — aber mit einem klar abgegrenzten Screening-Volumen, bei dem der Vergleich mit manueller Methode ehrlich gezogen werden kann.

Widerstand kommt meistens nicht gegen KI als solche. Methodisch versierte Forschende wissen, wo KI helfen kann und wo nicht — und sind oft skeptischer gegenüber einfachen Versprechen als Laien. Die Skepsis ist berechtigt: Wer einmal einen fehlerhaften KI-Extrakt in einer Synthese nicht bemerkt hat, wird für immer misstrauisch. Das Gegenmittel: Transparenz über die Fehlerrate und konsequente Nachprüfungsroutinen schon beim Pilot kommunizieren.

Was konkret hilft:

Pilot mit einem abgegrenzten Teilkorpus (200–300 Paper) durchführen und Ergebnis mit Goldstandard vergleichen
Inter-Rater-Agreement bereits vor dem Pilot messen und bei Bedarf Kriterien schärfen
KI-spezifischen Methodik-Abschnitt für die Publikation von Anfang an mitschieben (PRISMA-trAIce)
Eine Person im Team als Methodenverantwortliche:n benennen, die die Review-Protokoll-Integrität überwacht

Realistischer Zeitplan mit Risikohinweisen

Phase	Dauer	Was passiert	Typisches Risiko
Protokollerstellung & Präregistrierung	Wochen 1–3	Forschungsfrage, PICO, Inklusions-/Exklusionskriterien, Suchstrategie, PROSPERO-Eintrag	Zu breite Fragestellung — ergibt 10.000+ Treffer und macht Screening unrealistisch
Tool-Setup & Kalibrierung	Wochen 3–4	Rayyan/Covidence einrichten, Pilotscreening mit 100 Papern, Kappa-Wert messen	Kappa unter 0,6 — bedeutet: Inklusions-/Exklusionskriterien noch zu vage
Datenbanksuche & Import	Woche 4–5	Suche in PubMed, Cochrane, Scopus, ggf. Graubuchliteratur; Import und Deduplizierung	Suchergebnis weicht stark von erwarteter Größe ab — Strategie anpassen
Titelscreening (KI-gestützt)	Wochen 5–8	Dual-Review mit KI-Priorisierung; Konflikte lösen	Screening dauert länger als erwartet, weil Kriterien unklar bleiben
Abstractscreening	Wochen 7–10	Manuelle Entscheidung auf Abstract-Ebene, teils mit Elicit-Extraktion	False Positives erhöhen Volltextbeschaffungsaufwand
Volltext-Review & Eligibilität	Wochen 9–14	Volltexte beschaffen, Eligibilität prüfen, Ausschlüsse begründen	Volltexte nicht verfügbar — Bibliotheks-ILL einplanen
Datenextraktion (mit KI-Entwurf)	Wochen 12–18	Elicit-Entwurf + manuelle Nachprüfung; Risk-of-Bias-Beurteilung vollständig manuell	KI-Extraktion muss zu 20–100 % manuell geprüft werden — Aufwand unterschätzt
Synthese & GRADE	Wochen 16–22	Quantitative Synthese oder narrative Synthese; GRADE; Verfassen des Reviews	GRADE-Entscheidungen brauchen methodische Expertise, die im Team fehlt

Häufige Einwände — und was dahintersteckt

„Wenn wir KI einsetzen, wird der Review nicht mehr akzeptiert.” Das Gegenteil ist inzwischen häufiger der Fall: Journals verlangen explizite Dokumentation des KI-Einsatzes, und wer ihn verschweigt, riskiert mehr als wer ihn transparent deklariert. Die PRISMA-trAIce-Checkliste von 2025 gibt konkrete Leitlinien, wie KI-Einsatz im Methoden-Abschnitt beschrieben wird. Entscheidend: KI darf beim Screening und bei der Datenextraktion eingesetzt werden, solange alle Entscheidungen menschlich verantwortet und dokumentiert sind.

„Das kostet zu viel für eine Förderperiode.” Rayyan ist in der Basisversion kostenlos. Elicit für 12 USD/Monat. Beide reichen für einen ersten Review aus. Covidence ist teurer — aber viele Universitätsbibliotheken haben institutionelle Lizenzen. Frag deine Bibliothek, bevor du zahlst. Wenn du nicht fündest: Covidence hat ein Preiskonzessionsprogramm für Entwicklungsländer und bietet manchmal auch akademischen Einzelpersonen Ausnahmepreise.

„Wir haben nur einen Reviewer.” PRISMA verlangt Dual-Review — nicht als bürokratische Hürde, sondern weil die Übereinstimmung zweier unabhängiger Reviewer das zentrale Qualitätsmerkmal eines systematischen Reviews ist. KI kann den Zeitaufwand reduzieren, aber die zweite Person nicht ersetzen. Wenn du die Kapazität nicht hast: Scoping Review oder Rapid Review nach methodisch definierten Ausnahmen sind legitime Alternativen, die weniger Reviewerzeit erfordern.

„LLMs halluzinieren — das ist für wissenschaftliche Synthesen nicht akzeptabel.” Richtig für generative Anwendungen. Für Screening und Extraktion falsch formuliert: Rayyan priorisiert Dokumente, die du importiert hast — es erfindet keine Paper. Elicit extrahiert Werte aus vorhandenen Texten — es erfindet keine Studien (macht aber Fehler bei der Extraktion, was geprüft werden muss). Das Halluzinationsproblem tritt auf, wenn du ein LLM direkt bittest, einen Review zu schreiben — nicht wenn du es als Hilfswerkzeug in einem PRISMA-Workflow einsetzt.

Woran du merkst, dass das zu dir passt

Ihr führt mindestens zwei systematische Reviews pro Jahr durch — einmal ist der Kalibrierungs- und Lernaufwand kaum gerechtfertigt, bei regelmäßiger Nutzung amortisiert er sich deutlich
Das Screening von mehr als 500 Treffern bindet mehrere Wochen Forscherzeit — genau hier ist der KI-Hebel am stärksten
Ihr habt zwei unabhängige Reviewer — PRISMA-Konformität erfordert das; KI beschleunigt den Prozess, ersetzt die zweite Person aber nicht
PRISMA-Konformität und dokumentierte Reproduzierbarkeit sind Voraussetzung für euren Veröffentlichungskanal oder eure Fördergeberin
Ihr könnt den methodischen Lernaufwand einplanen — Protokollerstellung, Pilotscreening und Kalibrierung sind echte Vorabkosten

Drei harte Ausschlusskriterien — wann KI-gestützter Systematic Review sich nicht eignet:

Weniger als 500 Treffer in der Datenbanksuche. Bei kleinem Korpus ist der Setup-Aufwand für KI-gestütztes Screening nicht gerechtfertigt. Wenn du 150 Paper von Hand screenen kannst, tue das. Die Qualität des Ergebnisses wird nicht schlechter, und du sparst die Einarbeitungszeit.
Qualitative oder interpretative Synthese als zentrales Erkenntnisziel. Für Reviews, bei denen die Eligibilität von interpretativen Fragen abhängt (“Adressiert diese Studie Erfahrungen von Betroffenen aus ihrer eigenen Perspektive?”), versagt KI-Priorisierung zuverlässig. Die Eligibilitätsentscheidung ist dann kein Matching-Problem, sondern ein Interpretationsproblem. Das gilt für Metaethnographien, qualitative Evidence Syntheses und viele geisteswissenschaftliche Forschungssynthesen.
Regulatorische Entscheidungen ohne vollständige Entscheidungstransparenz. Wenn der Review Grundlage für IQWiG-Nutzenbewertungen, AWMF-Leitlinien oder Zulassungsverfahren ist, gelten verschärfte Anforderungen an die Nachvollziehbarkeit. KI-Screening mit Blackbox-Priorisierung ist nicht per se ausgeschlossen, aber jede Entscheidung muss lückenlos begründbar sein. Kläre das mit dem beauftragenden Methodiker, bevor du den Workflow festlegst.

Das kannst du heute noch tun

Öffne Rayyan — kostenlos, kein technisches Setup, eine E-Mail-Adresse reicht. Exportiere die Ergebnisse deiner letzten PubMed-Suche als NBIB-Datei und importiere sie. Lass die ersten 50 Titelscreening-Entscheidungen manuell treffen — dann siehst du, wie das KI-Scoring daraus lernt und die restlichen Paper priorisiert.

Das kostet eine Stunde. Was du danach weißt: Ob das System für dein Fachgebiet und deine Inklusions-/Exklusionskriterien sinnvoll priorisiert — und ob der methodische Mehrwert den Lernaufwand rechtfertigt.

Für das Abstractscreening eines laufenden Reviews kannst du diesen Prompt direkt einsetzen:

PRISMA-Screening-Prompt für systematische Reviews

Du bist ein methodisch präziser Review-Assistent für einen systematischen Literaturreview zum Thema [FORSCHUNGSFRAGE]. Inklusions-Kriterien: [KRITERIUM 1] [KRITERIUM 2] [KRITERIUM 3] Exklusions-Kriterien: [KRITERIUM 1] [KRITERIUM 2] Analysiere den folgenden Titel und Abstract und gib eine strukturierte Bewertung: 1. Einschluss-Entscheidung: JA / NEIN / UNSICHER 2. Begründung (maximal 2 Sätze, direkt auf die Kriterien bezogen) 3. Wenn UNSICHER: Welche Information aus dem Volltext wäre entscheidend? Erfinde keine Informationen. Wenn Titel oder Abstract unklar sind, markiere UNSICHER. --- TITEL: [HIER TITEL EINFÜGEN] ABSTRACT: [HIER ABSTRACT EINFÜGEN]

Funktioniert mit ChatGPT, Claude, Gemini

Beispiel-Ausgabe

Mitarbeiter:in

TITEL: Effectiveness of mindfulness-based cognitive therapy for recurrent depression: a meta-analysis ABSTRACT: Background: Recurrent major depressive disorder affects 50-80% of patients after first episode. MBCT has been proposed as a maintenance therapy. Methods: We conducted a systematic review and meta-analysis of RCTs comparing MBCT to treatment as usual or active controls in adults with recurrent depression. Results: 12 RCTs (n=2,188). MBCT reduced relapse risk (RR 0.69, 95% CI 0.58-0.82) compared to treatment as usual. Effects were stronger in patients with more than 3 prior episodes.

KI-Assistent

Einschluss-Entscheidung: JA Begründung: Die Studie entspricht dem Inklusions-Kriterium "RCT zur Wirksamkeit psychologischer Interventionen bei rezidivierender Depression in Erwachsenen" direkt. Das Design (systematischer Review + Meta-Analyse von RCTs) und die Zielgruppe (Erwachsene mit rezidivierender MDD) passen präzise zu den Inklusions-Kriterien. Kein UNSICHER: Die relevanten Informationen (Design, Population, Intervention, Kontrollbedingung, Endpunkt) sind im Abstract vollständig.

Quellen & Methodik

Zeiteinsparung im Screening: Rinehart-Jones et al., „Systematic review automation tools improve efficiency but lack of knowledge impedes their adoption: a survey”, Journal of Medical Library Association (2021), PMC. Umfrage unter 253 Forschenden; 80 Prozent berichten Zeitersparnis, Rayyan mit 19 Prozent Abbruchrate meistgenutztes und gleichzeitig häufig aufgegebenes Tool.
KI-Grenzen bei Risk-of-Bias und Datenextraktion: Fabiano et al., „How to optimize the systematic review process using AI tools”, JCPP Advances (2024, Wiley Online Library). Falsche Inklusionsentscheidungen von KI: 0–29 Prozent (Median 10 Prozent); Datenextraktionsfehler: 4–31 Prozent (Median 14 Prozent).
GRADE-Automatisierung: Proof-of-concept-Studie zum URSE-Tool (PubMed, 2024): 63,2 Prozent Übereinstimmung mit menschlichen Evaluatoren (Cohen’s Kappa = 0,44) — für alleinige Anwendung unzureichend.
Cochrane Position Statement: Cochrane Rapid Reviews Methods Group, „Responsible Integration of Artificial Intelligence in Rapid Reviews”, PMC (2024): Menschliche Aufsicht muss Kernprinzip jedes KI-gestützten Evidence-Synthesis-Prozesses bleiben.
PRISMA-trAIce: Transparente Berichterstattung von KI-Einsatz in Systematic Reviews — Checkliste entwickelt 2024–2025, JMIR AI (2025), doi:10.2196/80247.
Covidence-Preise: Covidence Pricing-Seite (Stand April 2026): 339 USD/Jahr Einzelplan, 907 USD/Jahr für bis zu 3 Reviews. covidence.org/pricing
Rayyan-Preise: Rayyan.ai (Stand April 2026): Kostenlos bis 2 Nutzer, Pro 20 USD/Monat.
Elicit-Preise: Elicit.com (Stand April 2026): Plus-Plan ca. 12 USD/Monat.

Diesen Inhalt teilen:

LinkedIn X / Twitter E-Mail WhatsApp

🤝

Interesse an diesem Use Case?

Schreib uns, wenn du mehr erfahren oder diesen Use Case für dein Unternehmen umsetzen möchtest. Wir melden uns zeitnah bei dir.

Zurück zu Forschung & Entwicklung

Forschungsstand-Synthese und Systematic Review

Das echte Ausmaß des Problems

Mit vs. ohne KI — ein ehrlicher Vergleich

Einschätzung auf einen Blick

Was das KI-gestützte System konkret macht

Wo PRISMA-Compliance endet und KI-Grenzen beginnen

Konkrete Werkzeuge — was wann passt

Datenschutz und Datenhaltung

Was es kostet — realistisch gerechnet

Typische Einstiegsfehler

Was mit der Einführung wirklich passiert — und was nicht

Realistischer Zeitplan mit Risikohinweisen

Häufige Einwände — und was dahintersteckt

Woran du merkst, dass das zu dir passt

Das kannst du heute noch tun

Quellen & Methodik

Interesse an diesem Use Case?

Weitere Use Cases

Literaturrecherche automatisieren

Grant-Antrag Schreibassistent

Forschungsdaten-Auswertung mit KI

Forschungsstand-Synthese und Systematic Review

Das echte Ausmaß des Problems

Mit vs. ohne KI — ein ehrlicher Vergleich

Einschätzung auf einen Blick

Was das KI-gestützte System konkret macht

Wo PRISMA-Compliance endet und KI-Grenzen beginnen

Konkrete Werkzeuge — was wann passt

Datenschutz und Datenhaltung

Was es kostet — realistisch gerechnet

Typische Einstiegsfehler

Was mit der Einführung wirklich passiert — und was nicht

Realistischer Zeitplan mit Risikohinweisen

Häufige Einwände — und was dahintersteckt

Woran du merkst, dass das zu dir passt

Das kannst du heute noch tun

Quellen & Methodik

Interesse an diesem Use Case?

Weitere Use Cases

Literaturrecherche automatisieren

Grant-Antrag Schreibassistent

Forschungsdaten-Auswertung mit KI

Bleib auf dem neuesten Stand der KI

Bleib auf dem neuesten
Stand der KI