EU-Zulassungsdokumentation für Chemikalien strukturieren
KI extrahiert relevante Studiendaten aus technischen Reports und strukturiert sie in die geforderten REACH/IUCLID-Dossierformate für die ECHA-Einreichung — und halbiert dabei den manuellen Übertragungsaufwand.
- Problem
- Regulatory-Affairs-Teams verbringen 40–60 % ihrer Zeit damit, Studiendaten aus Tausenden Seiten technischer Berichte manuell in IUCLID-Endpoint-Study-Records zu übertragen. Ein vollständiges Registrierungsdossier dauert 6–12 Monate.
- KI-Lösung
- KI analysiert bestehende Toxizitäts-, Ökotoxizitäts- und physikalisch-chemische Studienberichte, extrahiert die IUCLID-relevanten Datenpunkte und befüllt Endpoint-Felder mit Quellenangabe — für menschliche Überprüfung und Freigabe.
- Typischer Nutzen
- Dossier-Bearbeitungszeit um 30–50 % reduziert. Vollständigkeitslücken früher erkannt; weniger ECHA-Rückfragen nach Einreichung.
- Setup-Zeit
- 6–12 Monate bis valider Einsatz nach Validierungsphase
- Kosteneinschätzung
- 30.000–80.000 € Einrichtung + IUCLID-Anbindung
Es ist Donnerstag, 14:15 Uhr. Regulatory-Affairs-Managerin Katharina Weiss öffnet den Ordner mit dem Studienarchiv für die neue Tensid-Registrierung. 74 Studienberichte, Gesamtvolumen 3.800 Seiten. Jede Studie muss in ein IUCLID-Endpoint-Study-Record überführt werden: Testorganismus, Expositionsdauer, NOEC, LOEC, GLP-Konformität, Gütebeurteilung nach Klimisch-Score.
Sie hat das schon hundert Mal gemacht. Aber es dauert immer gleich lang: 90 Minuten pro Studie, wenn die Berichte gut strukturiert sind. Drei bis vier Stunden, wenn sie aus den 1990er-Jahren stammen und die kritischen Werte irgendwo in Fließtext vergraben sind. 74 Studien mal zwei Stunden im Durchschnitt: 148 Stunden reine Übertragungsarbeit — ohne Vollständigkeitsprüfung, ohne Chemical Safety Report, ohne die unvermeidliche Korrespondenz mit dem SIEF-Konsortium.
Das Einreichungsdatum ist in acht Monaten. Katharina weiß, dass das knapp wird. Nicht, weil die Arbeit zu schwer wäre. Sondern weil die Arbeit zu viel ist für ein Team von zwei Regulatory-Affairs-Spezialistinnen, die gleichzeitig noch zwei andere Substanzen betreuen.
Das ist die Realität der REACH-Registrierung im Mittelstand. Keine Ressourcenknappheit durch mangelnde Kompetenz. Ressourcenknappheit durch schiere Dokumentenvolumina.
Das echte Ausmaß des Problems
Eine REACH-Registrierung ist kein bürokratisches Formular. Sie ist ein wissenschaftliches Dossier, das belegen muss, dass ein Stoff sicher hergestellt, gehandelt und eingesetzt werden kann — mit vollständigen Datensätzen aus Toxikologie, Ökotoxikologie, Physikalisch-Chemie, Umweltverhalten und mehr.
Die Europäische Chemikalienagentur (ECHA) hat seit 2008 rund 90.000 Substanzregistrierungen entgegengenommen. Die Europäische Kommission beziffert die Gesamtkosten auf ca. 4,8 Milliarden Euro — das ergibt einen Durchschnittspreis von rund 54.000 Euro pro Registrierung. Bei komplexen Substanzen mit unvollständigen Studien und notwendigen Neutests können die Kosten 150.000 bis 400.000 Euro übersteigen (Beratungskosten, Datenlizenzgebühren, Laborstudien).
Was diese Zahl nicht zeigt: Wie verteilt sich der Aufwand intern?
- Studienauswertung und IUCLID-Dateneingabe: 40–60 % der Gesamtarbeitszeit im Regulatory-Affairs-Team. Das sind bei einer mittleren Substanz mit 50–100 Studienberichten typisch 120–250 Stunden reine Übertragungsarbeit — nicht Analyse, nicht Entscheidung, sondern Datentranskription.
- SIEF-Koordination und Konsortiumskommunikation: 15–25 % — nicht durch KI ersetzbar.
- Chemical Safety Report (CSR) verfassen: 20–30 % — narrative Abschnitte über Risikobewertung, Expositionsszenarien, DNEL/PNEC-Ableitung.
- ECHA-Einreichung und Fehlerbereinigung: 5–10 %, kann sich nach unvorhergesehenen Compliance-Check-Rückfragen deutlich erhöhen.
Das strukturelle Problem: Die meisten Studienberichte liegen als PDFs vor, oft schlecht formatiert, zum Teil aus den 1980er und 1990er Jahren. Kritische Werte wie der NOEC (No Observed Effect Concentration) für Daphnien stehen in Fließtext, Tabellenfußnoten oder Anhängen. Regulatory-Affairs-Fachleute suchen, lesen, heben an, übertragen — und das ist ihre Ausbildung nicht. Sie sind ausgebildet für die Bewertung und Interpretation dieser Daten, nicht für Datentypistentätigkeit.
Das zweite strukturelle Problem: Ein Dossier, das zu Einreichungszeitpunkt Lücken hat, kommt mit ECHA-Rückfragen zurück. Jede Rückfrage kostet Wochen. Wer Vollständigkeitslücken erst bei der finalen Qualitätsprüfung vor Einreichung entdeckt, hat ein Problem. Wer sie nach einer ECHA-Rückfrage entdeckt, hat ein größeres.
Mit vs. ohne KI — ein ehrlicher Vergleich
| Kennzahl | Ohne KI | Mit KI-gestützter Studienextraktion |
|---|---|---|
| Zeit für Studienauswertung je Endpoint Study Record | 60–180 Min. | 15–40 Min. (menschliche Prüfung inklusive) |
| Erkannte Vollständigkeitslücken | Nach Abschluss der Dateneingabe | Parallel zur Extraktion, frühzeitig |
| Konsistenz zwischen ähnlichen Studien | Variiert je nach Person und Arbeitstag | Einheitlich nach definiertem Schema |
| Zeitaufwand für Studienarchiv-Suche | 20–45 Min. pro Frage | 2–5 Min. über Volltextzugriff |
| Gesamtdauer Dossier-Authoring (100 Studien) | 6–12 Monate | 4–8 Monate (30–40 % Zeitersparnis) |
Die prozentuale Zeitersparnis klingt solide. Was in der Tabelle nicht steht: Der Effekt ist auf den Übertragungsschritt beschränkt. Die eigentliche Facharbeit — Klimisch-Score-Bewertung, DNEL-Ableitung, Expositionsszenario-Modellierung — bleibt vollständig manuell. Das ist kein Versagen des Ansatzes, das ist seine ehrliche Grenze.
Einschätzung auf einen Blick
Zeitersparnis — mittel (3/5)
Die 30–50 % Zeitersparnis bei der Studienextraktion klingt nach einem klaren Hebel. Aber Studienextraktion ist nur ein Teil des Gesamtaufwands — SIEF-Koordination, CSR-Verfassen, ECHA-Einreichungsmanagement und Vollständigkeitsbewertung bleiben vollständig manuell. Auf den gesamten Registrierungsprozess gerechnet ist der Effekt eher 15–25 % Gesamtzeitersparnis. Für stark studienintensive Dossiers (100+ Berichte) ist der Hebel spürbar; für kleinere Substanzen mit gut digitalisierten Daten weniger.
Kosteneinsparung — mittel (3/5)
Die Einrichtungskosten für eine KI-gestützte Studienextraktionslösung liegen bei 30.000–80.000 Euro — abhängig davon, ob du eine fertige Plattform nutzt oder eine interne Lösung baust. Diese Investition rechnet sich erst ab etwa drei bis fünf Registrierungen pro Jahr. Für Unternehmen mit einem Dossier alle zwei bis drei Jahre ist die Amortisation schwer darzustellen. Im mittleren Feld des Branchenvergleichs — hinter Anwendungsfällen, die direkte, sofort messbare Einsparungen erzielen.
Schnelle Umsetzung — sehr niedrig (1/5)
Dieser Use Case ist der schwierigste Einstieg in der chemischen Branche. Nicht wegen der Technologie — das LLM ist schnell eingerichtet. Sondern wegen der Validierungsanforderung: Du kannst ein KI-System für REACH-Dossiers erst produktiv einsetzen, wenn du überprüft hast, dass es zuverlässig extrahiert. Diese Überprüfung braucht einen Referenzdatensatz aus abgeschlossenen, validierten Dossiers — und die Validierung selbst kostet Monate. Niemand reicht ein ECHA-Dossier ein, das ein nicht validiertes System befüllt hat. Realistischer Zeitrahmen bis zum produktiven Einsatz: 6–12 Monate.
ROI-Sicherheit — mittel (3/5)
Der ROI ist prinzipiell messbar — Stunden je Dossier, vor und nach Einführung. Aber er ist stark volumenabhängig: Wer fünf Dossiers pro Jahr bearbeitet, sieht einen anderen ROI als wer eines in zwei Jahren macht. Die Varianz ist hoch. Und: Wenn die Datenbasis sich verändert (neue Substanzklassen, andere Studientypen), muss das System neu validiert werden.
Skalierbarkeit — mittel (3/5)
Mit jeder neuen Substanz, die durch das System läuft, wächst die Extraktionserfahrung — die Prompt-Templates verbessern sich, die Fehlermuster werden bekannter. Aber REACH-Substanzen sind chemisch individuell: Eine Methode, die bei einem Tensid gut funktioniert, muss bei einem Biozid neu kalibriert werden. Vollständige Skalierbarkeit ohne substanzspezifische Nacharbeit ist unrealistisch.
Richtwerte — stark abhängig von Dossier-Volumen, Studienalter und Digitalisierungsgrad des Studienarchivs.
Was das System konkret macht
Die Grundidee: Regulatory-Affairs-Fachleute verbringen einen großen Teil ihrer Zeit damit, Studienberichte zu lesen und spezifische Werte in ein definiertes Schema zu übertragen. Das ist eine Aufgabe, bei der ein LLM helfen kann — nicht beim Bewerten, aber beim Finden und Strukturieren.
Schritt 1 — Studienarchiv durchsuchbar machen. Die 50–100 Studienberichte eines Dossiers werden in ein RAG-System geladen: PDFs werden geparst, OCR wird auf schlecht leserliche Dokumente angewendet, Volltext wird indexiert. Das System kann nun auf natürlichsprachliche Fragen antworten: “In welchen Studien ist Daphnia magna das Testorganismus?” — mit Quellenangabe, welche Studie, welcher Abschnitt.
Schritt 2 — Endpoint-Extraktion je Studie. Für jede Studie im Archiv extrahiert das System einen vordefinierten Satz an Feldern: Testorganismus, Testdauer, Endpunkt (NOEC/LOEC/EC50), Testmedium, GLP-Status, Studienjahr und Publikationsstatus. Die Extraktion erfolgt per strukturiertem Prompt, der die IUCLID-Feldnomenklatur kennt.
Schritt 3 — Ausgabe zur menschlichen Überprüfung. Das Ergebnis ist kein fertiges IUCLID-Dossier, sondern ein vorausgefülltes Review-Dokument: “Studie 14: [Aquatische Toxizität — Daphnia magna, 48h, EC50 = 3,2 mg/L, GLP: ja, Klimisch: vorgeschlagen 2]. Bitte prüfen und freigeben.” Die Regulatory-Affairs-Spezialistin überprüft, korrigiert und gibt frei — anstatt von einem leeren Feld zu starten.
Schritt 4 — Vollständigkeitsprüfung parallel zur Dateneingabe. Das System prüft laufend, ob alle gemäß ECHA-Guidance für die jeweilige Substanzklasse notwendigen Endpoints vorhanden sind. Fehlende Datenpunkte werden frühzeitig markiert — Monate vor Einreichung, nicht kurz davor.
Was das System nicht macht: Klimisch-Score abschließend bewerten, DNEL ableiten, Expositionsszenarien modellieren, SIEF-Konsortiumsentscheidungen treffen oder Zweifelsfälle entscheiden. Diese Kernaufgaben der Regulatory-Affairs-Arbeit bleiben vollständig beim Menschen.
Das IUCLID-Format: die technische Realität hinter dem Dossier
IUCLID (International Uniform Chemical Information Database) ist das von der ECHA vorgeschriebene Format für alle Substanzdossiers. Es ist keine Eingabemaske, sondern eine strukturierte Datenbank mit fest definierten Sektionen, Feldern und Vokabular. Wer ein REACH-Dossier einreicht, reicht eine IUCLID-Datei ein.
Das hat direkte Konsequenzen für den KI-Einsatz:
IUCLID ist kostenlos — die Software kann direkt von der ECHA heruntergeladen werden (IUCLID 6, Version 9.x, Mai 2025). Sie kann auch als ECHA Cloud Service genutzt werden, empfohlen für kleinere Portfolios.
IUCLID hat eine eigene Feldlogik. Ein NOEC-Wert geht nicht einfach in ein Textfeld, sondern in ein Endpoint-Study-Record mit definierten Vokabularen für Testorganismus, Testmedium, Expositionspfad. Eine KI, die IUCLID nicht kennt, produziert Extrakte, die manuell in IUCLID-Felder übersetzt werden müssen — das halbiert den Effizienzgewinn.
Gut entwickelte IUCLID-Extraktion spricht IUCLID-Vokabular von Anfang an: Statt “Testdauer: 48 Stunden” als Freitext kommt “Exposure duration: 48 h, Endpoint Study Record Sektion 6.1.2, Testorganismus: Daphnia magna”. Das funktioniert nur mit Prompts, die vom IUCLID-6-Referenzhandbuch informiert sind — und erfordert Regulatory-Fachwissen in der Systemkonfiguration.
Wer ernsthaft mit KI-gestützter IUCLID-Befüllung arbeiten will, braucht entweder:
- Eine SaaS-Lösung mit eingebautem IUCLID-Mapping (es gibt erste Anbieter, die das entwickeln)
- Oder ein internes Projektteam, das die Extraktion gemeinsam mit Regulatory-Affairs-Fachleuten konfiguriert
Konkrete Werkzeuge — was wann passt
Es gibt noch keine etablierte Kategorie von “IUCLID-KI-Tools”. Was es gibt, sind allgemeine KI-Werkzeuge, die mit dem richtigen Setup für diesen Zweck gut funktionieren — und erste spezialisierte Plattformen.
NotebookLM — für den schnellen Studienarchiv-Einstieg
NotebookLM (Google, kostenlos) ist ein geeignetes Werkzeug für den Pilottest: Lade 20–30 Studienberichte hoch, stelle Fragen wie “Welche Studien decken aquatische Toxizität ab?”, sieh, was das System liefert. Die Grenzen: 50 Dokumente pro Notebook, keine IUCLID-spezifische Feldstruktur, keine API-Anbindung für automatisierte Extraktion. Gut für eine erste Einschätzung, nicht für produktiven Betrieb.
Claude oder ChatGPT — für strukturierte Einzelstudie-Extraktion
Mit einem IUCLID-informierten System-Prompt lassen sich einzelne Studienberichte gut extrahieren. Du lädst den Bericht als PDF hoch, der Prompt definiert das Ausgabeformat nach IUCLID-Feldnomenklatur. Das skaliert nicht automatisch auf 100 Studien — jede Extraktion bleibt ein manueller Schritt — ist aber deutlich schneller als Freilesen. Beide bieten über ihre API-Schnittstelle die Möglichkeit, das in eine teilautomatisierte Pipeline einzubetten. Kosten: 20–30 €/Monat für einzelne Nutzer (Pro-Pläne); API-Nutzung nach Token-Volumen.
Chemwatch — für Substanzdaten-Lookup während der Dossier-Erstellung
Chemwatch hat keine direkte IUCLID-Exportfunktion, liefert aber Substanzdaten und regulatorische Statusinformationen, die beim Befüllen von Identitätssektionen und Klassifizierungsfeldern nützlich sind. Sinnvoll als Ergänzung, nicht als Kernwerkzeug für die Studienextraktion.
ChemCopilot — für Compliance-Screening parallel zur Dossier-Erstellung
Wenn während des Registrierungsprozesses Substitutionsfragen entstehen (eine Substanz wird kritischer eingestuft als erwartet), hilft ChemCopilot bei der Alternativenanalyse. Keine direkte IUCLID-Funktion, aber als Begleitwerkzeug für das Regulatory-Affairs-Team nützlich.
Eigene RAG-Lösung auf EU-Server — für skalierender Betrieb
Für Unternehmen mit 3+ Dossiers pro Jahr und einem IT-Team: eine eigene Pipeline aus Dokumentenparser + RAG-System + IUCLID-orientiertem Prompt-Framework. Hosting in der EU (Azure, IONOS, Hetzner) hält Studienarchivdaten DSGVO-konform. Einrichtungskosten: 30.000–80.000 Euro, laufend 1.000–3.000 €/Monat. Empfohlen, sobald das Dossiervolumen die Investition rechtfertigt.
Zusammenfassung — wann was:
- Pilottest mit kleinem Studienarchiv → NotebookLM (kostenlos, kein Setup)
- Einzelstudien extrahieren, Einstieg → Claude / ChatGPT mit IUCLID-Prompt
- Produktiver Betrieb, 3+ Dossiers/Jahr → eigene RAG-Pipeline mit EU-Hosting
- Substanzdaten-Lookup neben IUCLID → Chemwatch
Die Validierungsschranke: Warum KI kein Autopilot ist
Hier liegt der entscheidende Unterschied zur Nutzung von KI für Marketingtexte oder interne Zusammenfassungen: Ein REACH-Dossier ist eine rechtsverbindliche Einreichung. Wenn ein Endpoint-Study-Record einen falschen NOEC enthält, und das Dossier wird auf Basis dieser Zahl eingereicht, hat das regulatorische Konsequenzen — ECHA-Rückfragen, im schlimmsten Fall eine Compliance-Check-Aufforderung mit Nachbesserungsauflage.
Halluzinationen sind in Sprachmodellen real. In Studien zu regulatorischen Dokumenten wurden Fehlerquoten von 3–27 % in KI-generierten Inhalten gemessen (LEXIC Language Solutions, 2024). Ein Regulatory-Affairs-System, das auf dieser Basis automatisch Dossiers befüllt, ohne vollständige menschliche Überprüfung, schafft ein Haftungsrisiko.
Die einzige akzeptable Betriebsweise: “KI schlägt vor, Mensch prüft und gibt frei.” Kein Automated Submission, kein Trust-the-AI-Endpoint.
Konkret bedeutet das für das Einführungsprojekt:
-
Validierungsphase mit Referenzdossiers: Bevor du das System produktiv einsetzt, nimmst du fünf bis zehn abgeschlossene, bereits eingereichte und von ECHA akzeptierte Dossiers als Testfälle. Das System extrahiert blind, du vergleichst gegen die validierten Werte. Erst wenn die Fehlerrate unter einem definierten Schwellenwert liegt (empfohlen: unter 5 % bei kritischen numerischen Endpoints), beginnt der produktive Einsatz.
-
Substanzklassen-spezifische Validierung: Ein System, das bei Tensiden gut abschneidet, muss für Biozide erneut validiert werden. Nicht alles ist übertragbar.
-
Dokumentierte Überprüfung jedes Extrakt-Feldes: Jeder befüllte Endpoint Study Record muss einen menschlichen Überprüfungsvermerk tragen, bevor er ins finale IUCLID-Dossier wandert.
Die Validierungsphase ist nicht die schlimmste Bremse — sie ist der Weg zu einem System, dem du vertrauen kannst. Wer sie überspringt, spart Monate — und riskiert, ein nicht zuverlässiges System auf eine ECHA-Einreichung loszulassen.
Datenschutz und Datenhaltung
Studienberichte für REACH-Dossiers enthalten regelmäßig vertrauliche Substanzdaten, proprietäre Synthesewege und intern entwickelte Testmethoden. Wer diese Daten in externe KI-Systeme lädt, muss mehrere Ebenen beachten:
Personenbezogene Daten: Studienberichte enthalten oft Autorennamen und Institutionen. Das ist kein DSGVO-Problem im eigentlichen Sinne, sofern die Daten wissenschaftlich verwendet werden — aber ein Auftragsverarbeitungsvertrag (AVV) nach DSGVO Art. 28 ist bei allen Cloud-Diensten trotzdem Pflicht.
Vertrauliche Geschäftsinformationen: REACH-Studien können proprietäre Substanzcharacterisierungen enthalten, die Wettbewerbsrelevanz haben. Das ist kein juristisches DSGVO-Problem, aber ein handfestes Business-Risiko: Was passiert mit den Daten, wenn sie OpenAI, Anthropic oder Google verarbeiten?
Empfehlung je nach Sensitivitätsstufe:
- Studien, die bereits von ECHA öffentlich gelistet sind oder nicht-proprietäre Grundsubstanzen betreffen → externe Cloud-Dienste (ChatGPT, Claude) vertretbar mit AVV
- Proprietäre Substanzdaten, interne Testmethoden → eigene RAG-Lösung auf EU-Server (Azure Europe, Hetzner, IONOS) oder On-Premise
Claude kann über AWS Bedrock in Frankfurt betrieben werden — das schließt US-Datenhosting für Unternehmensnutzer aus. ChatGPT bietet über Azure OpenAI Service eine EU-Hosting-Option. Beide erfordern ein IT-Deployment statt Consumer-Accounts.
Was auf keinen Fall geht: Proprietäre Studienberichte in Consumer-Accounts von KI-Diensten hochladen (Free-Tier ChatGPT, claude.ai ohne Enterprise-Plan) — hier gelten keine AVV und die Daten können für Modelltraining verwendet werden.
Was es kostet — realistisch gerechnet
Pilotphase (3–4 Monate)
- Zeitaufwand intern: 30–50 Stunden für Prompt-Entwicklung und Validierung
- Externe Begleitung (optional): 8.000–15.000 € für spezialisierte Regulatory-IT-Beratung
- Tool-Kosten: nahezu null (NotebookLM kostenlos, ChatGPT/Claude 20–30 €/Monat)
Produktiver Betrieb — Minimal-Ansatz (manuelle Pipeline)
- Laufende Tool-Kosten: 300–600 €/Monat (Claude oder ChatGPT API, Teamlizenzen)
- Interner Aufwand: 5–10 Stunden Systemwartung pro Quartal
- Geeignet für: 1–3 Dossiers pro Jahr, kleines Regulatory-Affairs-Team
Produktiver Betrieb — Skalierender Ansatz (eigene RAG-Pipeline)
- Einrichtung: 30.000–80.000 € (IT-Entwicklung, IUCLID-Mapping, Validierungsphase)
- Laufend: 1.000–3.000 €/Monat (Infrastruktur, API-Kosten, Wartung)
- Geeignet für: 3+ Dossiers pro Jahr, mehrere Substanzklassen
Was du dagegenrechnen kannst
Eine Regulatory-Affairs-Fachkraft (Senior Level) kostet inklusive Nebenkosten 80.000–120.000 Euro Jahresgehalt. Bei 50 Stunden Einsparung je Dossier und drei Dossiers pro Jahr: 150 eingesparte Stunden, das entspricht rund 8 % einer Vollzeitstelle. Für ein kleines Team mit zwei bis drei Mitarbeitenden ist das reale Kapazitätserweiterung — ohne Neueinstellung.
Anders gerechnet: Was kostet eine externe Registrierungsberatung für die Studienauswertung? Intertek und SGS berechnen für vollständige Dossier-Unterstützung je nach Substanz 20.000–80.000 Euro pro Registrierung. Wer das intern erledigt und mit KI beschleunigt, spart diese Beratungskosten.
Wie du den ROI tatsächlich misst:
- Stunden je Endpoint Study Record, vor und nach Einführung (messbar über Zeiterfassung)
- Anzahl der ECHA-Rückfragen nach Einreichung, vor und nach Einführung (Vollständigkeitsprüfung)
- Time-to-Submission: Wie viele Monate vom Projektstart bis zur ECHA-Einreichung
Vier typische Einstiegsfehler
1. Mit einem nicht-validierten System einreichen.
Der Druck vor Einreichungsterminen führt dazu, dass die geplante Validierungsphase verkürzt oder übersprungen wird. Das ist der riskanteste Fehler. Ein KI-System, das numerische Werte aus 1990er-Jahre-Studienberichten mit schlechter OCR-Qualität extrahiert, macht Fehler — und du weißt ohne Validierung nicht wie viele. Lösung: Validierungsphase als nicht verhandelbar in den Projektplan einbauen, bevor der erste Terminkonflikt entsteht.
2. IUCLID-Vokabular in den Prompts ignorieren.
Wer mit generischen Prompts wie “Extrahiere den NOEC aus diesem Bericht” arbeitet, bekommt Freitext zurück — den er dann manuell in IUCLID-Felder übertragen muss. Der Effizienzgewinn ist gering. Lösung: Prompts von Anfang an an der IUCLID-6-Feldstruktur ausrichten. Das erfordert, dass das Prompt-Entwicklungsteam das IUCLID-Referenzhandbuch kennt.
3. OCR-Qualität bei alten Studienberichten unterschätzen.
Viele Studienberichte aus den 1980er und 1990er Jahren wurden gescannt und als PDF gespeichert — mit variabler OCR-Qualität. Ein LLM, das eine schlecht erkannte Tabelle als Grundlage hat, produziert fehlerhafte Extrakte. Lösung: Vor dem System-Einsatz OCR-Qualität aller Berichte bewerten. Berichte mit unter 85 % Erkennungsqualität (grob messbar über Zeichenrauschen im Volltext) werden manuell aufbereitet oder extra markiert.
4. Das System nach der Validierung allein lassen.
Wenn sich die Substanzklassen ändern, ändert sich auch die Extraktion. Ein System, das für Tenside konfiguriert wurde, schlägt bei Bioziden mit anderen Endpunkten fehl — ohne dass das sofort auffällt. Lösung: Nach jeder neuen Substanzklasse, die ins System kommt, eine Mini-Validierung mit drei bis fünf Referenzstudien durchführen.
Was mit der Einführung wirklich passiert — und was nicht
Die erste und häufigste Enttäuschung: Das System löst nicht das SIEF-Problem. Wer hofft, dass KI die Konsortiumsverhandlungen, die Letter-of-Access-Preisgestaltung oder die politischen Auseinandersetzungen im SIEF-Gremium vereinfacht — wird enttäuscht. Das bleibt vollständig menschliche Regulatory-Affairs-Arbeit.
Die zweite Ernüchterung: Der Zeitplan verbessert sich nicht im ersten Dossier. Die Validierungsphase, das Setup, die Fehlerbereinigung kosten Zeit. Erst beim zweiten und dritten Dossier ist die Zeitersparnis wirklich spürbar.
Was aber typischerweise überraschend gut funktioniert: die Vollständigkeitsprüfung. Regulatory-Affairs-Teams berichten, dass das System Datenlücken aufzeigt, die manuell erst viel später aufgefallen wären — und das gibt Zeit, fehlende Studien rechtzeitig zu beschaffen oder im SIEF-Konsortium anzufragen. Das ist ein echter Wert, auch wenn er in der Zeitersparnis-Rechnung nicht auftaucht.
Was beim Rollout im Team wirklich wichtig ist:
Regulatory-Affairs-Fachleute sind oft skeptisch — berechtigt skeptisch. Sie wissen, was auf dem Spiel steht, wenn ein Dossier Fehler enthält. Die Einführung klappt besser, wenn:
- Die Pilotphase mit einer oder zwei Personen stattfindet, die das System selbst konfigurieren dürfen
- Die Ergebnisse im Team offen diskutiert werden: Was hat das System gut gemacht, was falsch?
- Klar kommuniziert wird: KI befüllt Vorschläge, der Mensch entscheidet und haftet
Was nicht funktioniert: das System als “Lösung” präsentieren und dann auf schnelle Akzeptanz warten. Regulatory-Affairs-Arbeit ist Präzisionsarbeit. Wer das nicht respektiert, verliert das Vertrauen des Teams.
Realistischer Zeitplan mit Risikohinweisen
| Phase | Dauer | Was passiert | Typisches Risiko |
|---|---|---|---|
| Pilot-Setup | Monat 1–2 | LLM-Zugang einrichten, Prompt-Framework entwickeln, Referenzstudien auswählen | Prompt-Entwicklung dauert länger als geplant — IUCLID-Vokabular ist komplex |
| Validierungsphase | Monat 2–5 | Extraktion gegen 5–10 validierte Referenz-Dossiers testen, Fehlerrate messen, Prompts anpassen | Fehlerrate bei alten Berichten zu hoch — manuelle Nachbearbeitung notwendig |
| Erste produktive Nutzung | Monat 6–8 | Neue Substanz durch System bearbeiten, jedes Extrakt wird manuell geprüft | Substanzklasse ist zu verschieden von Referenzdossiers — Mini-Validierung nötig |
| Routinebetrieb | Ab Monat 9+ | System im normalen Dossier-Workflow integriert, neue Substanzen direkt bearbeitet | Systemupdates (IUCLID-Versionswechsel, neue ECHA-Guidance) erfordern Anpassung |
Wichtig: Der Zeitplan gilt für ein kleines Team mit vorhandener IT-Infrastruktur und mindestens einem technisch versierten Mitarbeitenden. Wer externe Unterstützung braucht, plant 2–4 Monate mehr ein.
Häufige Einwände — und was dahintersteckt
„KI macht bei Zahlen Fehler — das können wir uns nicht leisten.”
Das ist der richtigste aller Einwände, und er verdient eine ehrliche Antwort: Ja, LLMs machen Fehler. Deshalb ist die Validierungsphase nicht optional und deshalb ist das Betriebsmodell “KI schlägt vor, Mensch prüft” unverzichtbar. Die Alternative — alles manuell — macht keine Fehler? Doch: Manuelle Dateneingabe über 100 Studien hat typische Fehlerquoten von 1–5 % (bei Ermüdungseffekten am Ende langer Projekte deutlich mehr). KI-Extraktion mit menschlicher Überprüfung ist im direkten Vergleich oft fehlerärmer als reine Handarbeit.
„Wir haben das immer manuell gemacht und ECHA hatte selten Rückfragen.”
Das ist ein valides Argument für den Status quo — bis ein Registrierungsfenster enger wird, ein erfahrenes Teammitglied wegfällt oder das nächste Dossier deutlich studienreicher ist als die bisherigen. KI-Unterstützung ist keine Reaktion auf eine Krise, sondern eine Kapazitätsreserve.
„Die IUCLID-Integration ist zu komplex.”
IUCLID selbst ist kein Geheimnis — es ist dokumentiert, die ECHA stellt Manuale bereit. Die Komplexität liegt in der Prompt-Entwicklung, die IUCLID-Vokabular kennen muss. Das ist lösbar: Ein erfahrener Regulatory-Affairs-Spezialist, der ein bis zwei Tage in die Prompt-Konfiguration investiert, schafft ein brauchbares Framework. Es ist kein Softwareprojekt für Dutzende von Personentagen.
Woran du merkst, dass das zu dir passt
Du profitierst von diesem Ansatz, wenn:
- Dein Regulatory-Affairs-Team mehr als zwei aktive Substanzregistrierungen gleichzeitig betreut — ab da beginnt der Kapazitätsdruck, der KI-Unterstützung rechtfertigt
- Ihr pro Dossier mehr als 40 Studienberichte auswerten müsst — unter dieser Schwelle ist der manuelle Aufwand oft vertretbar
- Das Studienarchiv bereits digital vorliegt — mindestens als durchsuchbare PDFs, idealerweise mit zugänglichem Volltext
- Mindestens ein Teammitglied Bereitschaft hat, zwei bis drei Monate an der Prompt-Konfiguration zu arbeiten — das System konfiguriert sich nicht von selbst
- Ihr IUCLID 6 als primäres Dossier-Tool nutzt — IUCLID-fremde Workflows profitieren weniger
Wann du es lassen solltest — drei harte Ausschlusskriterien:
-
Weniger als zwei bis drei REACH-Dossiers pro Jahr. Die Einrichtungskosten von 30.000–80.000 Euro für eine vollständige Pipeline amortisieren sich nicht, wenn du alle zwei Jahre ein Dossier erstellst. Für diesen Rhythmus ist eine spezialisierte Beratungsfirma die wirtschaftlichere Wahl.
-
Studienarchiv liegt primär auf Papier oder in proprietären Legacy-Formaten. Wenn deine Studienberichte nicht als durchsuchbare Digitaldokumente vorliegen, ist der erste Schritt Digitalisierung — nicht KI. Ein System, das unlesbare Scans verarbeitet, produziert unzuverlässige Extrakte, und eine REACH-Registrierung ist zu kostbar, um auf unzuverlässigen Daten aufzubauen.
-
Kein IUCLID-Grundwissen im Team vorhanden. Wer noch nie mit IUCLID gearbeitet hat, sollte das zuerst lernen — ohne externe Abhängigkeit von einem KI-Tool. Ein KI-System über IUCLID hinwegzusetzen, bevor das Team IUCLID selbst beherrscht, führt dazu, dass niemand im Team die KI-Ausgabe sinnvoll beurteilen kann. Das ist gefährlich.
Das kannst du heute noch tun
Öffne NotebookLM — kostenlos, kein Setup, ein Google-Konto reicht. Lade fünf bis zehn Studienberichte aus einem bereits abgeschlossenen Dossier hoch (Berichte, die du gut kennst und deren Inhalte du validieren kannst). Stelle dann die Frage: “Welche Studien decken aquatische Toxizität mit Daphnia magna als Testorganismus ab?” — und sieh, wie vollständig und korrekt die Antwort ist.
Das dauert 30 Minuten. Was du danach weißt: ob das Prinzip mit deinem Studienarchiv funktioniert, bevor du irgendeinen Euro investierst.
Für den nächsten Schritt — strukturierte Extraktion nach IUCLID-Feldern — nutze diesen Prompt:
Mitarbeiter:in
KI-Assistent
Quellen & Methodik
- Durchschnittliche REACH-Registrierungskosten (~54.000 € pro Substanz): Europäische Kommission, „REACH evaluation: Report on evaluation activities 2022” (Schätzung auf Basis 4,8 Mrd. € / ~90.000 Registrierungen). Aktuelle Kostenspreizung und Beratungsmarkt: CIRS Group, EU REACH Registration Costs (Online, Mai 2026).
- McKinsey/Merck AI-gestützte CSR-Erstellung: McKinsey Global Institute, „With gen AI, Merck and McKinsey transform clinical authoring” (2024); AI-Plattform reduzierte CSR-Erstdraft von 180 auf 80 Stunden bei 50 % weniger Fehlern — analoges Muster für REACH-Studienextraktion.
- AI-Halluzinationsrisiken in regulatorischen Dokumenten: LEXIC Language Solutions, „The Risks of Using AI in Regulatory Dossier Translation: Hallucinations and Critical Errors” (2024); gemessene Fehlerquoten 3–27 % in KI-generierten regulatorischen Inhalten.
- FDA-Warnung für KI-Misuse im regulatorischen Kontext: MasterControl, „FDA Issues First Warning Letter for AI Compliance” (April 2026); erstes Warning Letter der FDA explizit für KI-Misuse (Purolea Cosmetics Lab).
- IUCLID 6 v9.0.1: ECHA-Pressemitteilung, Mai 2025; kostenlose Software für REACH-Dossier-Erstellung, Trinkwasser-Richtlinie und Mikroplastik-Notifikationen.
- Consulting-Kosten für REACH-Dossiers: Marktbefragung Intertek REACH-Services (intertek.de), SGS Registrierungsdossier (sgs.com), Angaben für vollständige Dossier-Begleitung auf Anfrage; Erfahrungswerte aus Beratungsprojekten.
- REACH-Regulatory-Affairs-Teamaufwand (40–60 % für Studienauswertung): BAuA, „Leitfaden zur Registrierung unter REACH — Teil B: Registrierungsdossier” (Bundesanstalt für Arbeitsschutz und Arbeitsmedizin, letzte Auflage 2024).
Du willst wissen, ob dein Studienarchiv für den KI-Einsatz geeignet ist und was das konkret kosten würde? Meld dich — das bewerten wir gemeinsam in einem kurzen Gespräch.
Diesen Inhalt teilen:
Interesse an diesem Use Case?
Schreib uns, wenn du mehr erfahren oder diesen Use Case für dein Unternehmen umsetzen möchtest. Wir melden uns zeitnah bei dir.
Weitere Use Cases
Batch-Protokolle automatisch auswerten und freigeben
KI prüft Batch-Protokolle auf Vollständigkeit, Grenzwertüberschreitungen und Abweichungen — und erstellt einen strukturierten Freigabebericht statt manueller Durchsicht.
Mehr erfahrenSicherheitsdatenblätter automatisch erstellen und aktualisieren
KI erstellt REACH/GHS-konforme Sicherheitsdatenblätter aus Rezeptur- und Substanzdaten — und hält sie automatisch bei Gesetzesänderungen aktuell.
Mehr erfahrenNeue Moleküle und Formulierungen mit generativer KI entwickeln
Generative KI-Modelle schlagen auf Basis von Zielstoffprofilen neue Molekülstrukturen und Formulierungsansätze vor — und beschleunigen das Screening von Kandidaten im frühen F&E-Stadium.
Mehr erfahren