2024 wurden über 10.000 wissenschaftliche Paper zurückgezogen. Das ist ein neuer Jahresrekord, gegenüber rund 4.600 Rückzügen 2022 mehr als eine Verdopplung. Die Zahl stammt aus den Retraction-Watch-Daten in Nature News. Im selben Zeitraum sind die monatlichen Einreichungen auf arXiv von unter 20.000 vor Mai 2023 auf 24.226 im Oktober 2024 gestiegen, ein Plus von über 20 Prozent in 18 Monaten.
Die übliche Erzählung lautet: KI macht Wissenschaft schneller. Das stimmt für die ersten zwei Drittel des Forschungszyklus. Hypothesen formulieren, Code schreiben, Texte aufsetzen, Literaturübersichten zusammenstellen. Was die Erzählung verschweigt: Die letzten zwei Drittel sind menschlich begrenzt. Peer Review. Reproduktion. Nachträgliche Korrektur. Und genau diese Schritte kollabieren gerade unter dem Output, den die ersten zwei Drittel produzieren.
Drei Tage von Publikation bis Rückzug
Im Februar 2024 hat Frontiers in Cell and Developmental Biology ein Paper über JAK/STAT-Signalwege bei Spermatogonien-Stammzellen veröffentlicht. Das Paper enthielt Midjourney-generierte Abbildungen von anatomisch unmöglichen Ratten mit grotesk übergroßen Genitalien. Die Beschriftungen waren erfundene Buchstabenfolgen: “testtomcels”, “iollotte sserotgomar”, “dissilced”. Die Autoren der Hong Hui Hospital und Jiaotong University in China hatten KI-Nutzung deklariert. Die Abbildungen aber offenbar nicht überprüft.
Veröffentlicht am 13. Februar 2024. Zurückgezogen am 16. Februar 2024. Drei Tage. Aufgefallen ist es nicht den Reviewern, sondern Elisabeth Bik, einer Bildforensikerin, die den Fall in ihrem Science Integrity Digest öffentlich machte. Aus dem Editorial-Bericht ging später hervor, dass ein Reviewer Änderungen verlangt hatte. Die Autoren reagierten nicht. Das Journal publizierte es trotzdem.
Das ist kein Ausreißer — sondern die Spitze einer Pipeline, die strukturell gerade aus den Fugen gerät.
Wiley schreibt 148 Millionen Dollar ab
2021 hat Wiley den Verlag Hindawi für rund 300 Millionen Dollar übernommen. Im Mai 2024 musste Wiley 11.300 Paper aus Hindawi-Journals zurückziehen und 19 Journals komplett schließen. Der finanzielle Schaden laut Wileys eigener Q4-Mitteilung: 104 Millionen Dollar Wertberichtigung plus weitere 44 Millionen Dollar Impairment.
Was hier kollabiert ist, war kein Einzelversagen. Es war ein Geschäftsmodell. Hindawi operierte mit niedrigen Eintrittsbarrieren, schnellen Begutachtungszyklen, Open-Access-Gebühren als Erlösquelle. Genau das Profil, das Paper-Mills systematisch ausnutzen. Und Paper-Mills produzieren mit KI heute Output, der oberflächlich nicht mehr von echter Forschung zu unterscheiden ist. Eine PNAS-Analyse aus 2025 hat dokumentiert, dass Paper-Mill-Artikel sich alle 1,5 Jahre verdoppeln. Die wissenschaftliche Gesamtliteratur verdoppelt sich alle 15 Jahre. Der Faktor zehn ist die ganze Geschichte.
Warum AlphaFold das Bild komplizierter macht, aber nicht widerlegt
Das stärkste Gegenbeispiel ist AlphaFold. DeepMinds Modell hat 214 Millionen Proteinstrukturen vorhergesagt, gegenüber rund 170.000 in 60 Jahren experimentell bestimmten. Demis Hassabis und John Jumper bekamen dafür 2024 den Chemie-Nobelpreis. Wer behauptet, KI verlangsame Wissenschaft, muss erklären, wie ein einzelnes Modell die Datenbasis eines ganzen Feldes um den Faktor 1.260 vergrößern konnte.
Die Erklärung ist einfach, sobald man genau hinschaut, was AlphaFold liefert. Strukturen aus AlphaFold sind Hypothesen, keine experimentellen Befunde. Nature Methods hat das 2023 explizit so formuliert: “AlphaFold predictions are valuable hypotheses and accelerate but do not replace experimental structure determination.” Hassabis selbst sagte nach der Nobelpreis-Verkündung in der MIT Technology Review, KI brauche “Massen an hochwertigen Daten”, und solche Datensätze seien “selten”. Sein eigenes Argument bestätigt das Bottleneck. AlphaFold ist deshalb so erfolgreich, weil davor jahrzehntelang teure Kristallographie-Experimente die Trainingsdaten geliefert haben.
Anders gesagt: AlphaFold beweist, dass KI die Hypothesengenerierung dramatisch beschleunigt. Es beweist nicht, dass das Validierungs-Bottleneck verschwindet. Es beweist genau das Gegenteil. Die 214 Millionen vorhergesagten Strukturen sind so wertvoll, weil Forscher sie experimentell prüfen können, nicht weil sie es nicht müssen.
Das Problem ist nicht KI. Es ist die Asymmetrie.
Peer Review ist ehrenamtlich, langsam und an menschliche Aufmerksamkeit gebunden. Ein gewissenhaftes Review eines Methodik-Papers in den Lebenswissenschaften kostet einen erfahrenen Forscher zwischen zehn und zwanzig Stunden. Diese Zahl skaliert nicht. Du kannst nicht doppelt so viele Reviewer aus dem Hut zaubern, weil es doppelt so viele Submissions gibt.
KI-gestützte Generierung skaliert dagegen linear mit Compute. Ein Paper-Mill, der ein Sprachmodell, ein Bildmodell und ein paar Skripte kombiniert, produziert hundert Drafts pro Tag. Ein Editor, der diese hundert Drafts an Reviewer weiterleiten will, findet die Reviewer nicht. Wer schon mal eine Review-Anfrage abgelehnt hat, kennt die Mathematik aus eigener Erfahrung.
Das Resultat ist die Kombination, die wir gerade beobachten: Submissions wachsen, Review-Kapazität bleibt konstant, also entweder fallen Submissions durch ohne ernsthafte Prüfung, oder sie warten Monate. Beide Optionen sind schlecht. Die erste füllt die Literatur mit unzuverlässigem Output. Die zweite verlangsamt die seriöse Forschung weiter.
Nature hat im Januar 2023 eine KI-Offenlegungspflicht im Methodenteil eingeführt. Science hat im November 2023 nachgezogen. Beides sind Transparenzpflichten, keine Lösungen. Sie helfen nachträglich beim Aufdecken, sie skalieren das Review nicht.
Was das für Entscheidungen außerhalb der Wissenschaft bedeutet
Wer in einem Unternehmen arbeitet, das wissenschaftliche Evidenz konsumiert (Pharma, Medizintechnik, Chemie, Lebensmittel, Energie), ist vom kollabierenden Review-Prozess direkt betroffen. Drei konkrete Konsequenzen.
Erstens: Eine einzelne Publikation in einem mittelmäßigen Journal hat 2026 weniger Aussagekraft als 2020. Wer Investitionsentscheidungen auf einzelnen Studien aufbaut, bekommt jetzt häufiger ein Paper, das in zwei Jahren zurückgezogen wird. Replikationen und Meta-Analysen werden wichtiger, nicht unwichtiger.
Zweitens: Preprints sind nicht plötzlich wertlos, aber das Verhältnis zwischen Preprint und peer-reviewed Paper hat sich verschoben. arXiv-Submissions sind explodiert. Der durchschnittliche Preprint von 2024 wurde von weniger Augen kritisch angeschaut als der durchschnittliche Preprint von 2020. Wer seine Innovationsstrategie auf den neuesten Preprint baut, baut sie auf dünnerem Eis.
Drittens: Die Halbwertszeit “etablierten” Wissens sinkt. Wenn 11.300 Hindawi-Paper auf einmal aus dem Diskurs verschwinden, ist alles, was diese Paper zitiert hat, im selben Schritt schwächer geworden. Literaturübersichten von 2023 enthalten Verweise auf Studien, die 2026 nicht mehr existieren. Das ist ein Wartungsproblem, das die wenigsten Unternehmens-Wissensdatenbanken bisher kennen.
Was die Daten nicht beweisen
10.000 Rückzüge sind viel, aber sie sind im Verhältnis zur Gesamtproduktion immer noch Promille. Die meisten Paper sind weiterhin solide. Die meisten Forscher arbeiten weiter ehrlich und sorgfältig. Wer den Kollaps der gesamten Wissenschaft proklamiert, übertreibt.
Was die Daten beweisen, ist etwas Spezifischeres. Die Pipeline aus Submission, Review und Korrektur ist nicht für die aktuelle Output-Geschwindigkeit gebaut. KI verschiebt das Gleichgewicht weiter, weil sie genau die Schritte beschleunigt, die schon vorher die billigen waren — und nicht die Schritte, die teuer und limitierend sind. Solange diese Asymmetrie bestehen bleibt, wird der Anteil unzuverlässiger Publikationen weiter wachsen, auch wenn die Qualität jeder einzelnen seriösen Studie sich nicht verändert.
Forschungszyklen werden nicht insgesamt schneller. Sie werden vorne schneller und hinten langsamer. Die Daten, die du heute brauchst, werden zunehmend zu einem Zeitpunkt veröffentlicht, an dem du nicht mehr sicher weißt, ob sie in zwei Jahren noch dastehen.
Wer eine ungefilterte Einordnung solcher Entwicklungen sucht, findet im KI-Syndikat Newsletter regelmäßig Analysen, die hinter Schlagzeilen schauen, statt sie zu wiederholen.