Zum Inhalt springen
Pharmaindustrie off-targettoxizitaetqsar

Off-Target-Toxizität früh erkennen: ML auf Struktur-Aktivitäts-Daten

Wirkstoffkandidaten scheitern spät in der Entwicklung, weil frühe Screens subtile Interaktionen mit unbeabsichtigten Rezeptoren übersehen. ML auf Struktur-Aktivitäts-Beziehungen identifiziert Off-Target-Risiken in der Frühphase — bevor Synthese, Tierversuche und klinische Tests Millionen verschlingen.

⚡ Auf einen Blick
Problem
Klassische Selektivitäts-Screens decken nur bekannte Anti-Targets ab. ML-unsichtbare Bindungsaffinitäten führen zu toxikologischen Überraschungen in Phase I/II — nach Jahren Entwicklungszeit und zig Millionen Euro Investition.
KI-Lösung
Graph-neuronale Netze oder Multi-Task-QSAR-Modelle lernen aus Millionen Struktur-Aktivitäts-Einträgen (ChEMBL, PubChem) und bewerten neue Kandidaten gegen ein breites Panel an Rezeptor-Off-Targets, bevor ein einziger Syntheseauftrag ergeht.
Typischer Nutzen
Risikoanreicherung im virtuellen Screening: 3–5× mehr toxikologische Flaggen in Phase 0. Kandidaten-Attrition aus toxikologischen Gründen sinkt in validierten Programmen nachweislich um 25–40 %. Ein einziger vermiedener Phase-II-Abbruch spart 50–200 Mio. €.
Setup-Zeit
12–24 Monate Aufbau: Datenbeschaffung, Modellentwicklung, Validierung, Pipeline-Integration
Kosteneinschätzung
Ein vermiedener Phase-II-Abbruch: 50–200 Mio. € — größtes Einsparpotenzial
QSAR/GNN auf ChEMBL-Daten + Integration in Drug-Discovery-Plattform (Schrödinger, RDKit, DeepChem)
Worum geht's?

Donnerstag, 14:47 Uhr. Dr. Katharina Moll öffnet die Ergebnisse der virtuellen Screening-Runde für ihren Kinase-Inhibitor-Kandidaten KI-427.

Die Bindungsaffinität zum Zieltarget ist außergewöhnlich. Die selektive Pocket-Besetzung im Homologiemodell sieht sauber aus. Kein CYP450-Flag in den Standardregeln. Katharina hat schon monatelang an dieser Leitstruktur gearbeitet — und jetzt liegt ein Kandidat auf dem Tisch, der aussieht wie das, worauf man zwei Jahre wartet.

Dann lädt das System das Off-Target-Panel nach.

hERG: Wahrscheinlichkeit 0,81. Hochrisikoklasse.

Ihr fällt ein, was drei Jahre davor passiert ist: KI-312, damals ebenfalls ein starker Kandidat. Erst 18 Monate Optimierung, dann erste Synthetica-Experimente, dann hERG-Befund im In-vitro-Panel — zu spät, um die Leitstruktur noch zu retten. Das Programm wurde geschlossen. Heute hat das Team die Regel eingeführt: kein Syntheseauftrag ohne ML-Off-Target-Screening. KI-427 wäre ohne dieses Flag synthetisiert worden.

Das klingt nach einer kleinen Entscheidung. Es ist der Unterschied zwischen acht Wochen Strukturoptimierung jetzt und achtzehn Monaten Sackgasse später.

Das echte Ausmaß des Problems

Rund 90 Prozent der Wirkstoffe, die in klinische Studien eintreten, scheitern. Das ist keine abstrakte Zahl — das ist die strukturelle Realität der pharmazeutischen Forschung, dokumentiert über Jahrzehnte und in einer 2022 veröffentlichten PMC-Analyse auf Basis von 9.682 Molekülen bestätigt. Toxizitätsprobleme sind dabei einer der häufigsten Gründe: In Phase II scheitern Kandidaten zu etwa 50 Prozent an zuvor unbekannten Nebenwirkungen.

Der hERG-Kanal ist das häufigste ungewollte Ziel. Das humane Ether-à-go-go-related Gene kodiert einen Kaliumkanal im Herzen, der für die Repolarisation der Herzmuskelzelle zuständig ist. Wird er blockiert, verlängert sich das QT-Intervall — und im schlimmsten Fall entstehen lebensbedrohliche Herzrhythmusstörungen (Torsades de Pointes). Das Problem: Strukturell völlig unterschiedliche Verbindungen können hERG blockieren, weil die Bindungstasche ungewöhnlich groß und flexibel ist. Ein lipophiles basisches Amin in der richtigen Position reicht oft.

Terfenadine (Seldane), das erste nicht-sedierende Antihistaminikum, ist der klassische Fall. 1985 zugelassen, über 100 Millionen Verschreibungen — und mehr als 400 dokumentierte Fälle von QT-Verlängerung, schwerwiegenden Herzrhythmusstörungen und damit in Verbindung stehenden Todesfällen. Terfenadine wurde in den 1990er Jahren vom Markt genommen. Das war kein vorhersehbares Scheitern, weil damals weder das Bewusstsein für hERG noch die Werkzeuge zur Früherkennung existierten. Heute sind beide vorhanden — und trotzdem scheitern Kandidaten an Off-Target-Toxizität, weil die Werkzeuge nicht früh genug im Entwicklungsprozess eingesetzt werden.

Die Kostenseite ist eindeutig: Laut einer Analyse der Ausgaben in phasierter klinischer Entwicklung (PMC, 2023) liegen die direkten Kosten eines Phase-II-Programms im Durchschnitt bei rund 58 Millionen US-Dollar — bevor Opportunity-Kosten, Overhead und die Kosten für parallel geschlossene Programme einberechnet sind. Ein Phase-III-Scheitern ist noch teurer. Deloitte beziffert die Gesamtentwicklungskosten pro zugelassenem Wirkstoff 2023 auf 2,3 Milliarden US-Dollar, wenn alle Fehlschläge eingepreist sind. Der Schlüsselhebel: Fehlschläge so früh wie möglich — idealerweise noch vor der Synthese — identifizieren.

Das virtuelle Off-Target-Screening per Machine Learning setzt genau hier an: Toxizitäts-Flags vor dem ersten Syntheseauftrag, nicht erst nach dem ersten in-vitro-Panel.

Mit vs. ohne KI — ein ehrlicher Vergleich

KennzahlOhne ML-Off-Target-ScreeningMit ML-Off-Target-Screening in Phase 0
Zeitpunkt hERG-ErkennungTypisch in-vitro-Panel, 3–6 Monate nach SynthesestartVor der Synthese, innerhalb von Minuten
Kosten bis zur Erkenntnis50.000–500.000 € Synthese + Assay-Kosten< 1 € Rechenzeit pro Verbindung
Kandidaten-TrichterBreites Screening, toxische Kandidaten werden spät ausgeschiedenVorqualifizierter Pool, risikoärmere Kandidaten bevorzugt
hERG-Vorhersagegenauigkeit MLAUC-ROC 0,87–0,96 in aktuellen Studien (GNN-Ansätze)
Phase-II-Abbruchrate toxikologischBranchenwert ca. 50 % aller Phase-II-FehlschlägeIn validierten Programmen 25–40 % Reduktion
Teamaufwand pro KandidatAssay-Planung, Probenversand, Auswertung (Tage)Automatisierter Report, strukturelle Flags sofort

Die Vergleichswerte zur Abbruchrate stammen aus Literaturberichten zu integrierten ADMET-Screening-Programmen; die Modellgenauigkeit aus aktuellen Benchmarkstudien (Nature Scientific Reports, 2025; Frontiers in Pharmacology, 2023). Nicht alle Programme berichten isolierte Toxizitäts-Attrition — die Zahlen sind Schätzwerte aus gemischten Quellen.

Einschätzung auf einen Blick

Zeitersparnis — mittel (3/5)
Die eigentliche Zeitersparnis ist nicht die Rechenzeit — die ist minimal. Der Wert liegt darin, dass toxische Kandidaten nicht synthetisiert, optimiert und in teuren In-vitro-Studien getestet werden. Verglichen mit anderen Anwendungsfällen in dieser Branche ist der tägliche Zeitgewinn für einen einzelnen Chemiker moderat; der strategische Zeitgewinn für ein ganzes Programm ist erheblich, aber schwer in Stunden auszudrücken.

Kosteneinsparung — sehr hoch (5/5)
Das ist der einzige Anwendungsfall in dieser Kategorie, bei dem ein einziger Treffer — ein identifizierter und aussortierter hERG-Blocker, der sonst in Phase II gescheitert wäre — 50 bis 200 Millionen Euro einspart. Selbst unter sehr konservativen Annahmen ist das Kosten-Nutzen-Verhältnis ungeschlagen. Kein anderer Anwendungsfall in der pharmazeutischen Digitalisierung hat dieses Einsparpotenzial.

Schnelle Umsetzung — sehr niedrig (1/5)
Das ist der anspruchsvollste Einstieg unter allen verglichenen pharmazeutischen KI-Anwendungsfällen. Du brauchst: PhD-Cheminformatiker oder Computational Chemist, Zugang zu kuratierten Struktur-Aktivitäts-Datenbanken (ChEMBL, interne Assay-Daten), eine Entscheidung über Modellarchitektur, Validierungsprotokoll, Integration in die bestehende Drug-Discovery-Pipeline und Wet-Lab-Feedback-Schleife. Realistische Time-to-Pilot: 12–24 Monate. Nicht der erste KI-Schritt für ein Pharmaunternehmen.

ROI-Sicherheit — niedrig (2/5)
Das Paradox dieser Methode: Der Nutzen entsteht durch etwas, das nicht passiert — den teuren Fehlschlag. Du kannst nicht rückwirkend beweisen, dass KI-427 in Phase II gescheitert wäre, wenn du ihn trotz hERG-Flag weiterprogrammiert hättest. Modellgüte ist messbar (AUC-ROC); Kausalität für den Projekterfolg ist es nicht. Wer ROI als direkt buchbaren Gewinn braucht, findet ihn woanders zuverlässiger.

Skalierbarkeit — hoch (4/5)
Ein trainiertes QSAR-Modell für hERG lässt sich in Stunden auf eine neue Indikation oder Zielklasse übertragen, sofern Struktur-Aktivitäts-Daten vorhanden sind. Das System skaliert mit dem Moleküldesign-Throughput ohne proportional steigenden Personalaufwand. Einschränkung: Neue Zielklassen außerhalb des Trainingsraums brauchen neue Datenpunkte — das kostet Zeit und Assay-Ressourcen.

Richtwerte — stark abhängig von der Größe des Drug-Discovery-Programms, Verfügbarkeit interner SAR-Daten und Expertise im Computational-Chemistry-Team.

Was das System konkret macht

Der technische Begriff lautet Quantitative Struktur-Aktivitäts-Beziehung (QSAR) — im Kern eine Aussage: Ähnliche Strukturen zeigen ähnliche biologische Aktivitäten. Machine-Learning-Modelle lernen aus Tausenden bis Millionen gemessener Struktur-Aktivitäts-Paare, welche molekularen Merkmale mit Toxizität korrelieren, und übertragen dieses Wissen auf neue, noch nie synthetisierte Verbindungen.

In der Praxis funktioniert das so: Jede Verbindungsstruktur wird in eine rechnerisch verarbeitbare Darstellung überführt — entweder als Fingerprint (ein Bitvektor, der chemische Substrukturen codiert) oder als molekularer Graph (Atome als Knoten, Bindungen als Kanten). Ein trainiertes Modell gibt dann eine Wahrscheinlichkeit aus: Wie hoch ist die Chance, dass diese Verbindung den hERG-Kanal mit einer Hemmkonzentration unter 10 µM blockiert? Oder die Leber-Mikrosomen aktiviert? Oder das CYP3A4-Enzym hemmt?

Kritisch ist die Breite des gescreenten Panels. Ein klassischer Selektivitäts-Screen deckt vielleicht zehn bekannte Anti-Targets ab. ML-Modelle, die auf ChEMBL-Daten trainiert sind, können Bindungswahrscheinlichkeiten für mehrere hundert Targets gleichzeitig schätzen — und dabei auch Targets einbeziehen, auf denen das eigene Team noch keine Erfahrung hat. Das ist das eigentliche Versprechen: Warnungen vor Überraschungen, nicht nur Bestätigung des Bekannten.

Die Ausgabe ist keine binäre Entscheidung, sondern ein gewichtetes Risikoprofil: welche Off-Targets am wahrscheinlichsten betroffen sind, wie stark die Evidenz im Trainingsset war, und ob die Verbindung überhaupt im Gültigkeitsbereich (Applicability Domain) des Modells liegt. Eine gute Pipeline zeigt transparent, wenn ein Kandidat zu weit vom Trainingsset entfernt ist, um reliable Vorhersagen zu machen — das ist genauso wichtig wie die Vorhersage selbst.

QSAR-Modelltypen: was wann passt

Nicht alle Modelle sind gleich. Die Wahl der Architektur hat echten Einfluss auf Vorhersagequalität, Implementierungsaufwand und Interpretation.

2D-Fingerprint-Modelle (Random Forest, XGBoost, SVM)
Das klassische QSAR-Setup. Morgan-Fingerprints oder MACCS-Keys werden als Input für Gradient-Boosting- oder Random-Forest-Modelle verwendet. Implementierungsaufwand gering (RDKit + scikit-learn), Interpretierbarkeit durch Feature-Importance gut, Vorhersagequalität für datenreiche Endpunkte wie hERG solide (AUC-ROC 0,82–0,88). Grenze: lernt keine geometrischen 3D-Eigenschaften, sensitiv gegenüber Fingerprint-Kollisionen bei langen Molekülen.

Graph Neural Networks (GNN / AttentiveFP / D-MPNN)
Aktuell beste Klasse für molekulare Vorhersagen. Das Modell lernt direkt auf dem Molekülgraphen ohne manuelle Fingerprint-Auswahl — die Repräsentation wird aus den Daten gelernt. Höherer Trainingsaufwand (GPU empfohlen), aber bessere Generalisierung für neue Scaffolds. AUC-ROC 0,87–0,96 für hERG in aktuellen Benchmarks. Empfehlung: DeepChem oder PyTorch Geometric als Framework.

Multi-Task-Modelle
Trainieren gleichzeitig auf mehreren Toxizitätsendpunkten (hERG, hepatotoxisch, mutagenität, CYP-Inhibition). Geteilt gelernte Repräsentationen verbessern die Vorhersage auf jedem einzelnen Endpunkt — besonders bei kleinen Datensätzen pro Endpunkt. Das MELLODDY-Konsortium aus zehn Pharmaunternehmen (AstraZeneca, Bayer, Boehringer Ingelheim, Merck KGaA, Novartis u. a.) nutzte genau diesen Ansatz und zeigte 2023 median mehr als 2,5 % AUC-PR-Verbesserung gegenüber Einzelmodellen.

Physikbasierte Hybridmodelle (FEP+, MM-GBSA)
Kombinieren ML-Vorhersage mit physikbasierter Bindungsaffinitätsberechnung. Höchste Präzision, aber rechenintensiv und erfordert strukturelle Information (Röntgenkristallstruktur oder hochauflösendes Homologiemodell). Sinnvoll in der späten Lead-Optimierung, nicht im frühen virtuellen Screening von Tausenden von Kandidaten. Werkzeug der Wahl: Schrödinger FEP+.

Faustregeln für die Methodenwahl:

  • Frühes virtuelles Screening (> 10.000 Kandidaten): Fingerprint-Modelle oder GNNs
  • Mittleres Panel (100–1.000 Kandidaten, über mehrere Endpunkte): Multi-Task-GNNs
  • Späte Lead-Optimierung (5–50 Kandidaten, hohes Budget): FEP+ oder MM-GBSA

Datenquellen und ihre Tücken

Kein Modell ist besser als seine Trainingsdaten. Das ist keine Floskel — es ist das zentrale Qualitätsproblem in der pharmazeutischen QSAR-Praxis.

ChEMBL (European Bioinformatics Institute) ist die wichtigste öffentliche Datenbank: über 2,3 Millionen Verbindungen, 19 Millionen Aktivitätsdaten aus mehr als 88.000 Assays, Stand 2025. Kostenlos, gut dokumentiert, breit abgedeckt. Problem: Datenqualität variiert stark zwischen Assays und Laboren. Einheiten-Fehler (nM vs. µM), Assay-Varianten (Patch-Clamp vs. fluoreszenzbasiertes Assay) und fehlende Reproduzierbarkeitskontrollen machen sauberes Kuratieren unerlässlich.

PubChem BioAssay (NIH) bietet komplementäre Daten aus Hochdurchsatz-Screenings (HTS). Besonders nützlich für Selektivitäts-Panel-Daten. Nachteil: HTS-Daten haben eine höhere Rate an False Positives aus Assay-Interferenz.

Interne SAR-Daten sind oft die wertvollsten — gemessen unter einheitlichen Bedingungen, mit bekannten Konzentrationen, direktem Feedback von den Chemikern. Gleichzeitig oft zu klein (< 500 Datenpunkte) für robuste Modelle ohne externes Datenaugment. Klassische Lösung: externe Daten (ChEMBL) für das Basismodell, interne Daten für Fine-Tuning und Transfer-Learning.

Was vor dem Training zu klären ist:

  • Assay-Standardisierung: Welche Assay-Bedingungen gelten als Goldstandard für hERG in dieser Pipeline? Patch-Clamp (hohe Reliabilität, niedrig throughput) vs. fluoreszenzbasiert (hoher Throughput, mehr Varianz)?
  • Aktivitätsschwellen: Ab wann gilt eine Verbindung als “aktiv”? IC₅₀ < 1 µM? < 10 µM? Die Wahl dieses Schwellenwerts beeinflusst direkt die Falsch-Positiv-Rate des Modells.
  • Klassen-Ungleichgewicht: In vielen Toxizitäts-Datensätzen gibt es viel mehr inaktive als aktive Verbindungen. Ohne Korrektur (SMOTE, Class Weights) wird das Modell inaktive Verbindungen überschätzen.
  • Applicability Domain: Für welche Strukturklassen ist das Modell gültig? Kandidaten, die weit außerhalb des chemischen Raums des Trainingssets liegen, bekommen eine „außerhalb der AD”-Warnung statt einer Vorhersage.

Konkrete Werkzeuge — was wann passt

RDKit — Der Einstieg für jede QSAR-Pipeline. Kostenlos, open-source (BSD-Lizenz), vollständig lokal betreibbar. Berechnet Morgan-Fingerprints, MACCS-Keys, mehr als 200 2D-Deskriptoren, liest SDF/SMILES/InChI-Formate. Kombiniert mit scikit-learn oder XGBoost entsteht in zwei bis vier Wochen ein funktionierendes Basismodell. Einschränkung: reine Toolbox — kein GUI, keine fertige QSAR-Plattform. Erfordert solide Python-Kenntnisse.

DeepChem — Open-Source-Deep Learning-Bibliothek speziell für Chemie und Biologie. Enthält fertige Implementierungen von Graph Neural Networks (AttentiveFP, D-MPNN) und vortrainierte Modelle auf Tox21, ClinTox und ChEMBL-Subsets. GPU-beschleunigtes Training. Für Teams, die über klassische Fingerprint-Modelle hinauswollen. Kostenlos; GPU-Infrastrukturkosten ca. 50–500 €/Monat.

Schrödinger — Die kommerzielle Plattform für anspruchsvolle Off-Target-Analysen. Kombiniert ML-basiertes Ligand-Screening mit physikbasierter FEP+-Berechnung für die Lead-Optimierungsphase. Hochpräzise für Kandidaten mit verfügbarer Kristallstruktur. Einschränkung: Jahreslizenz ab ca. 50.000 USD, Daten-Hosting in den USA, erfordert ausgebildete Computational Chemists. Empfehlung: erst wenn Fingerprint-Modelle die Grobauswahl gemacht haben.

KNIME Analytics Platform — Für Teams, die eine grafische Workflow-Umgebung bevorzugen. KNIME hat ein spezialisiertes Cheminformatik-Extension-Pack mit RDKit-Integration, das QSAR-Workflows visuell aufbaubar macht. Kostenlos (Open Source). Vorteil gegenüber reinem Python: Workflows sind für Nicht-Programmierer nachvollziehbar und dokumentierbar — sinnvoll in regulierten Umgebungen (GxP). Nachteil: Ressourcenhungrig bei großen Datensätzen; Deep-Learning-Workflows besser direkt in Python.

Zusammenfassung: Wann welcher Ansatz

  • Pilot mit internen Daten, Python-Stack vorhanden: RDKit + scikit-learn
  • Moderner GNN-Ansatz für neue Scaffolds: DeepChem
  • Grafische Workflows, reguliertes Umfeld (GxP): KNIME + RDKit-Extension
  • Späte Lead-Optimierung, physikbasierte Präzision: Schrödinger FEP+

Datenschutz und Datenhaltung

Off-Target-Toxizitäts-Daten sind in der pharmazeutischen Forschung extrem sensibel — es handelt sich um proprietäre Struktur-Aktivitäts-Daten, die das Kernkapital eines Wirkstoffprogramms darstellen. DSGVO-relevante personenbezogene Daten sind hier typischerweise nicht das Problem. Das Problem ist geistiges Eigentum.

Konkret bedeutet das: Kein SMILES deiner Kandidatenstrukturen, kein Assay-Ergebnis, kein SAR-Trend darf in externe Cloud-Dienste fließen, ohne dass die IP-Lage vertraglich geklärt ist. Für QSAR-Anwendungen empfiehlt sich deshalb in fast allen Fällen eine On-Premise- oder Private-Cloud-Lösung.

Für Open-Source-Stacks (RDKit, DeepChem) ist das kein Problem: Code und Modelle laufen vollständig lokal oder in der eigenen Cloud-Infrastruktur (Azure, AWS Germany Region, Hetzner). Keine Daten verlassen das Unternehmensnetzwerk.

Für Schrödinger gilt: Daten werden bei Cloud-Nutzung auf US-Servern verarbeitet. Für europäische Pharmaunternehmen mit strikten IP-Schutzanforderungen sollte On-Premise-Betrieb oder zumindest ein geprüfter Datenverarbeitungsvertrag Standard sein.

Für ChEMBL-Daten als Trainingsbasis gilt: Diese sind öffentlich und frei nutzbar (CC-BY-SA). Kein IP-Risiko. Intern generierte Assay-Daten, die zum Fine-Tuning genutzt werden, müssen unter eigenem IP-Management laufen.

Reguliertes Umfeld (GxP): Wenn QSAR-Ergebnisse in regulatorische Einreichungen einfließen, gelten zusätzliche Anforderungen an Validierung, Audit-Trails und Versionierung der Modelle. Das ist ein separates Arbeitspaket — nicht stärker als bei anderen rechnergestützten Methoden, aber explizit zu planen.

Regulatorische Akzeptanz von QSAR-Toxizitätsvorhersagen

Das ist ein oft unterschätzter Aspekt: QSAR-Modelle sind nicht nur interne Entscheidungswerkzeuge — sie sind zunehmend regulatorisch anerkannte Methoden.

ICH M7(R2): Die Internationale Harmonisierungsrichtlinie für die Identifizierung und Kontrolle von DNA-reaktiven Verunreinigungen akzeptiert explizit QSAR-Bewertungen als primäre Methode. Sowohl FDA als auch EMA akzeptieren unter ICH M7 QSAR-Gutachten für mutagene Verunreinigungen in Wirkstoffsynthese-Prozessen — ohne zwingend in-vitro-Bestätigung.

FDA SafetAI Initiative: Das Center for Drug Evaluation and Research (CDER) hat gemeinsam mit dem National Center for Toxicological Research (NCTR) die SafetAI-Initiative gestartet, um KI-basierte QSAR-Modelle für Schlüssel-Sicherheitsendpunkte (Hepatotoxizität, Karzinogenität, Kardiotoxizität) zu entwickeln und zu validieren.

EU AI Act: QSAR-Modelle in der pharmakologischen Forschung werden je nach Verwendungskontext unter den EU AI Act fallen — als Hochrisiko-KI-Systeme, wenn sie direkt in regulatorische Entscheidungsketten einfließen. Die konkreten Implikationen für in-silico-Toxikologie sind zum Zeitpunkt dieser Seite noch in Klärung. Empfehlung: Regulatory Affairs und Datenschutz frühzeitig einbeziehen.

Was das praktisch bedeutet: Ein gut validiertes QSAR-Modell mit dokumentiertem Trainingsset, klarer Applicability Domain und externer Validierungsstatistik kann im Dossier aufgeführt werden. Es ersetzt keine in-vitro-Bestätigung für finale Lead-Kandidaten, kann aber Screening-Entscheidungen stützen und Ressourcen priorisieren.

Was es kostet — realistisch gerechnet

Einmalige Aufbaukosten

Der größte Kostenblock ist Personal, nicht Software:

  • Ein erfahrener Computational Chemist / Cheminformatiker (PhD-Niveau): 80.000–130.000 €/Jahr Vollzeit, 12–24 Monate Aufbauzeit
  • Externe Unterstützung (Beratung, Modellentwicklung): 150.000–400.000 € je nach Scope
  • Datenkuration aus ChEMBL und internen Quellen: 2–6 Monate Vollzeitaufwand für einen Wissenschaftler
  • IT-Infrastruktur (GPU-Server, Datenbankserver): 10.000–50.000 € einmalig (On-Premise) oder 3.000–15.000 €/Jahr (Cloud)

Laufende Kosten (jährlich nach Aufbau)

  • RDKit/DeepChem: 0 € Lizenz, Infrastruktur ca. 5.000–20.000 €/Jahr
  • Schrödinger (wenn eingesetzt): 50.000–150.000 USD/Jahr je nach Modulkonfiguration
  • Datenbankpflege, Modell-Retraining, externe Validierung: 10–15 % des initialen Aufbauaufwands
  • Interner Betrieb (0,5 FTE Cheminformatiker): 40.000–65.000 €/Jahr

Gegenrechnung

Ein einziger vermiedener Phase-II-Abbruch aus toxikologischen Gründen spart laut Branchendaten 50 bis 200 Millionen Euro. Das entspricht dem 100- bis 1.000-fachen der jährlichen Betriebskosten einer funktionierenden QSAR-Pipeline.

Aber: Beachte die ROI-Sicherheit-Einschränkung. Du kannst nicht wissen, ob der Kandidat, den du aussortiert hast, in Phase II wirklich gescheitert wäre — das Modell hat eine Fehlerrate, und ein Teil der geflaggten Verbindungen wäre möglicherweise klinisch unbedenklich gewesen. Der Wert der Methode liegt in der Portefeuille-Ebene: Über viele Programme und viele Jahre verteilt, sinkt die toxikologische Attrition messbar.

Messung des ROI in der Praxis
Tracking-Metriken, die wirklich funktionieren: Rate toxikologisch geflaggter Kandidaten pro Programmzyklus, Hit-Rate in anschließenden in-vitro-Assays (Modellpräzision validieren), Anteil der Kandidaten, die Phase 0 ohne toxikologisches Flag passieren, Phase-I-Toxizitätsergebnisse über Programme hinweg über mehrere Jahre.

Drei typische Einstiegsfehler

1. Mit dem hERG-Modell starten und dabei stehen bleiben.
hERG ist das offensichtlichste Ziel — aber Off-Target-Toxizität ist breiter. CYP3A4-Inhibition, hepatotoxische Strukturmuster, adrenale Toxizität, mitochondriale Toxizität — ein gutes Off-Target-Panel deckt 50 bis 200 Targets ab, nicht eines. Wer nur hERG modelliert, hat das erste Werkzeug gebaut, aber keine Off-Target-Strategie. Lösung: von Anfang an Multi-Task-Architektur planen und die Panel-Breite mit Regulatory Affairs abstimmen.

2. Kein Applicability-Domain-Check implementieren.
Jedes QSAR-Modell liefert für jede Verbindung einen Score — auch für Kandidaten, die strukturell weit vom Trainingsset entfernt liegen. Ein Score von 0,3 für eine Verbindung, die keiner Trainingsverbindung ähnelt, bedeutet nichts. Ohne AD-Check werden diese Vorhersagen wie valide Daten behandelt und führen zu falschen Entscheidungen. Lösung: jede Vorhersage muss einen AD-Indikator tragen (“zuverlässig”, “grenzwertig”, “außerhalb des Anwendungsbereichs”). Verbindungen außerhalb der AD müssen in-vitro gescreent werden, unabhängig vom ML-Score.

3. Das Modell wird einmalig trainiert und nicht gepflegt.
Das ist die ruhigste und teuerste Fehlerquelle. Ein Modell, das auf ChEMBL-Daten von 2022 trainiert wurde und 2026 keine internen Assay-Daten nachgeführt bekommen hat, verpasst Strukturklassen, die erst in späteren Jahren auftauchten. Schlimmer: Es liefert weiterhin Vorhersagen, ohne zu melden, dass es diese Strukturen noch nie gesehen hat.

Wer dieses Problem nicht adressiert, hat nach drei Jahren ein System, das neue Scaffold-Klassen systematisch fehlklassifiziert. Die Lösung ist organisatorisch: Retraining-Zyklus festlegen (mindestens einmal jährlich), Wet-Lab-Assay-Ergebnisse konsequent in die Trainingsdatenbank zurückführen, Drift-Monitoring implementieren (Vergleich Modellvorhersage vs. tatsächliches Assay-Ergebnis über laufende Quartale).

Was mit der Einführung wirklich passiert — und was nicht

Die Technik ist das handhabbarste an dieser Einführung. Der Rest ist schwieriger.

Widerstand der Synthesechemiker. In vielen Discovery-Teams entscheiden die Synthesechemiker, was als nächstes gemacht wird — sie haben die Expertise und die Intuition. Ein Computersystem, das ihre Lieblingsstruktur mit einem roten Flag versieht, kann auf Ablehnung stoßen: “Das Modell kennt meine Chemie nicht.” Diese Reaktion ist nicht irrational. Mittel gegen sie: Das Modell nie als Entscheidungsinstanz einführen, sondern als zusätzliche Information im Entscheidungsprozess. Die Chemikerinnen und Chemiker sehen den Score, das Konfidenzintervall und die ähnlichsten Trainingsverbindungen — dann entscheiden sie. Transparenz gewinnt mehr Vertrauen als Autorität.

Überschätzung durch Führungsebene. “Wir haben jetzt KI-Toxizitätsvorhersage, also brauchen wir weniger In-vitro-Assays” — dieser Schluss ist falsch und gefährlich. ML-Vorhersagen ersetzen keine experimentelle Bestätigung für Kandidaten, die in klinische Entwicklung gehen. Was sie ersetzen: die Assay-Ausgaben für Kandidaten, die das ML-System früh und zuverlässig als hochriskant einstuft. Diese Unterscheidung muss im Führungskreis explizit kommuniziert werden.

Fehlender Feedback-Loop. Das häufigste operative Versäumnis: Assay-Ergebnisse gehen nicht systematisch zurück in die Trainingsdatenbank. Die Vorhersage wird genutzt, das Ergebnis wird intern verbucht, aber das Modell lernt nicht daraus. Nach zwei Jahren ist das Modell auf internen Daten schlechter als auf dem Stand seiner externen Trainingsdaten — genau umgekehrt zum Ziel.

Was konkret hilft:

  • Wöchentliche automatisierte Reports: welche Verbindungen wurden geflaggt, welche nicht, und was waren die tatsächlichen Assay-Ergebnisse?
  • Vierteljährliches Review-Meeting zwischen Computational Team und Medicinal Chemistry
  • Klares Protokoll: welche Assay-Ergebnisse gehen wann in das Retraining-Set?
  • Ein benannter “Model Owner” im Computational-Team, der für Modellgüte und Retraining-Zeitplan zuständig ist

Realistischer Zeitplan mit Risikohinweisen

PhaseDauerWas passiertTypisches Risiko
Datenbeschaffung und -kurationMonat 1–4ChEMBL hERG-Daten herunterladen, bereinigen, standardisieren; interne Assay-Daten zusammenführen; Aktivitätsschwellen definierenWeniger interne Daten als erwartet — externe Daten dominieren, interne Validierung zeigt Schwächen
Modell-PrototypMonat 3–6Fingerprint-QSAR als Baseline, GNN als Zielarchitektur; erste interne Benchmarks; Applicability Domain definierenKlassen-Ungleichgewicht unterbricht Trainingsloop — SMOTE-Korrektur oder Class-Weighting nötig
Interne ValidierungMonat 5–8Prospektive Validierung: Vorhersagen für Verbindungen machen, die noch nicht im Assay waren; Ergebnisse vergleichen; Konfidenz-Intervalle kalibrierenModell überschätzt Aktivität — Threshold-Tuning auf Basis interner FP/FN-Toleranz
Pipeline-IntegrationMonat 7–12Einbindung in Compound-Registry oder D3-Discovery-Plattform; automatisierte Reports; User-Interface für ChemikerIT-Integration dauert länger als geplant — Feature-Freeze empfohlen für Phase-1-Rollout
Pilot und FeedbackMonat 10–15Erste reale Screening-Kampagne; Chemiker-Feedback sammeln; Wet-Lab-Ergebnisse zurückspielenAkzeptanzproblem: Chemiker vertrauen System nicht — Trainingsdaten-Transparenz erhöhen
Vollbetrieb und Retrainingab Monat 15Reguläres Retraining (halbjährlich), Panel-Erweiterung, zweite Endpunkte onboardenModell-Drift: Vorhersagequalität sinkt still — Drift-Monitoring unerlässlich

Häufige Einwände — und was dahintersteckt

“Die öffentlichen Daten passen nicht zu unserer Chemie.”
Das stimmt teilweise. ChEMBL-Daten kommen aus Tausenden verschiedener Labors mit variablen Assay-Bedingungen — die Varianz ist real. Das Argument greift aber nicht als Ausschlussgrund: Auch ein auf externen Daten vortrainiertes Modell, das auf internen Daten feinabgestimmt wird (Transfer-Learning), ist besser als kein Modell. Und selbst ein Basismodell, das Strukturklassen mit bekannten hERG-Risiken zuverlässig erkennt, hat operativen Wert. Der Einwand verlangt nach einem Pilotprojekt, nicht nach einem Veto.

“Wir haben zu wenig interne Daten.”
Für ein valides Basismodell braucht man keine internen Daten — die 150.000+ hERG-Datenpunkte in ChEMBL reichen. Interne Daten sind wertvoll für Fine-Tuning und Validierung auf der eigenen Chemie, aber keine Voraussetzung für den Start. Wer 500 interne hERG-Messungen hat, hat genug für eine valide retrospektive Validierung und den Start des Feedback-Loops.

“Das Modell macht Fehler — wie können wir ihm vertrauen?”
Das ist der richtigste Einwand, und er verdient eine ehrliche Antwort: Das Modell macht Fehler. Es wird hERG-Blocker übersehen (False Negatives) und sichere Verbindungen flaggen (False Positives). Die Frage ist nicht, ob es perfekt ist, sondern ob es besser ist als der Status quo — kein Screening. Eine AUC-ROC von 0,87 heißt: Das Modell sortiert Risiken signifikant besser als Zufall. Kein erfahrener Medicinal Chemist würde das als ausreichend für eine finale Entscheidung betrachten — aber als Vorfilter, der das In-vitro-Assay auf eine kleinere, angereicherte Kandidatenmenge fokussiert, ist es klar wertschöpfend.

Woran du merkst, dass das zu dir passt

  • Du hast ein aktives Drug-Discovery-Programm mit regulären Synthese-Screening-Zyklen — mindestens 50 neue Kandidatenstrukturen pro Quartal
  • Du hast Zugang zu Assay-Daten, die als Trainings- oder Validierungsgrundlage dienen können — entweder intern oder über ChEMBL
  • Du verfügst über mindestens eine Person mit cheminformatischer Expertise (PhD-Niveau in Computational Chemistry, Cheminformatik oder Data Science mit Domänenwissen)
  • Dein Team hat bereits erlebt, dass ein Kandidat in In-vitro- oder In-vivo-Studien an Off-Target-Toxizität scheiterte, die früher hätte erkannt werden können
  • Deine Drug-Discovery-Entscheidungen werden datengetrieben unterstützt — du hast eine Compound-Registry, strukturierte SAR-Dokumentation und ein Daten-Management-System

Wann es sich (noch) nicht lohnt — drei harte Ausschlusskriterien:

  1. Kein Computational Chemist im Haus und kein Budget für externe Expertise. Das ist das wichtigste Ausschlusskriterium. Du kannst keine QSAR-Pipeline einkaufen und in Betrieb nehmen wie ein SaaS-Tool. Das System braucht jemanden, der Modellentscheidungen versteht, Datenprobleme diagnostiziert und Ergebnisse fachlich einordnet. Ohne diese Person ist das Ergebnis keine KI-gestützte Entscheidungsunterstützung — es ist eine Blackbox, deren Ausgaben du nicht überprüfen kannst.

  2. Weniger als 200 relevante Struktur-Aktivitäts-Datenpunkte auf dem Zieltarget — intern oder extern. Unterhalb dieser Grenze ist ein statistisch robustes Modell nicht möglich. Externe Daten aus ChEMBL können diese Grenze senken, wenn die Assay-Bedingungen ähnlich sind — aber das muss prospektiv geprüft werden, nicht angenommen.

  3. Keine Integration mit dem Wet-Lab-Datenmanagementsystem geplant. Ein QSAR-System ohne Feedback-Loop ist nach 18 Monaten schlechter als am ersten Tag, weil die Chemie weiterentwickelt wird, das Modell aber nicht. Wenn kein Budget und keine Kapazität für die Wet-Lab-ML-Integration vorhanden ist, ist der Aufbau einer Standalone-QSAR-Pipeline verschwendetes Kapital.

Das kannst du heute noch tun

Du brauchst für einen ersten Eindruck keine fertige Pipeline. Das Anaconda-Paket mit RDKit und scikit-learn ist in einer Stunde installiert, ChEMBL-Daten für hERG sind öffentlich verfügbar — du kannst mit einem Basis-Experiment starten.

Für die strategische Einschätzung hilft auch ein anderer Einstieg: Lass ein großes Sprachmodell eine erste Literaturanalyse zu hERG-Strukturmerkmal-Mustern machen und nutze das Ergebnis als Basis für eine interne Diskussion über Screening-Prioritäten.

Prompt: hERG-Risikoprofil für deine Wirkstoffklasse
Du bist ein erfahrener Computational Chemist. Ich arbeite an einem [WIRKSTOFFKLASSE, z. B. Kinase-Inhibitor]-Programm und möchte verstehen, welche strukturellen Merkmale das hERG-Risiko in meiner Verbindungsklasse erhöhen. Analysiere für mich: 1. Welche molekularen Substrukturen und Eigenschaften gelten als bekannte hERG-Risikofaktoren in der Literatur? 2. Welche Strukturoptimierungsstrategien werden typischerweise genutzt, um hERG-Aktivität in [WIRKSTOFFKLASSE] zu reduzieren, ohne die Zielaffinität zu verlieren? 3. Welche öffentlichen QSAR-Modelle oder Benchmarkdatensätze sind spezifisch für [WIRKSTOFFKLASSE] relevant? 4. Welche experimentellen Assays sollte ich priorisieren, um meine ML-Vorhersagen zu validieren? [OPTIONAL: Ich kann dir folgende Strukturen oder SMILES meiner aktuellen Kandidaten mitgeben: SMILES_HIER_EINFÜGEN] Gib mir eine konkrete, priorisierte Handlungsempfehlung — kein allgemeines ADMET-Tutorial.
Funktioniert mit Claude, ChatGPT, Gemini
Beispiel-Ausgabe

Mitarbeiter:in

Wirkstoffklasse: ATP-kompetitive Kinase-Inhibitoren mit Aminopyrimidin-Kern. Kandidaten haben typischerweise einen basischen Stickstoff im Linker-Bereich.

KI-Assistent

Für ATP-kompetitive Kinase-Inhibitoren mit Aminopyrimidin-Kern sind folgende hERG-Risikofaktoren gut dokumentiert: **Bekannte Risikofaktoren in deiner Klasse:** • Lipophile basische Amine im Linker (pKa > 8, logP > 3) — der klassische hERG-Risikotyp • Aromatische Ringsysteme > 3 Ringe, besonders wenn koplanar • Molekularmasse > 450 Da in Kombination mit basischen Zentren **Optimierungsstrategien für Aminopyrimidin-Kinase-Inhibitoren:** • pKa des basischen Stickstoffs auf 7–8 reduzieren (z. B. durch elektronenziehende Substituenten) • Zyklische Amid-Gruppen statt offenkettiger basischer Amine einsetzen • logP durch polare Substituenten im Lösungsmittel-exponierten Bereich senken **Empfohlene Datensätze:** ChEMBL hERG-Datensatz (Aktivitätsschwelle IC₅₀ < 1 µM, ca. 9.500 Einträge nach Curation), Tox21-hERG-Panel für Schnell-Klassifikation **Prioritäre Assays:** Patch-Clamp (Goldstandard) für Top-5-Kandidaten; Fluoreszenz-basiertes hERG-Assay für Triage-Screening (höherer Throughput, mehr Varianz) **Handlungsempfehlung:** Berechne zunächst logP + pKa für alle aktuellen Kandidaten (RDKit). Kandidaten mit logP > 3 UND pKa > 8 im basischen Zentrum sollten vorrangig ins In-vitro-hERG-Assay. Für das ML-Modell: ChEMBL-Kinase-Inhibitoren als Domänen-spezifisches Subset extrahieren — verbessert die Vorhersagequalität deutlich gegenüber dem generischen hERG-Modell.

Quellen & Methodik

  • 90 % Fehlschlagrate klinischer Kandidaten; PMC-Analyse 9.682 Moleküle (2001–2023): van de Graaf et al., „Why 90% of clinical drug development fails and how to improve it?” PMC9293739 (2022); bestätigt durch Nature Communications, „Dynamic clinical trial success rates for drugs in the 21st century” (2025).
  • MELLODDY-Konsortium (10 Pharmaunternehmen, 2023): Hanser et al., „MELLODDY: Cross-pharma Federated Learning at Unprecedented Scale Unlocks Benefits in QSAR without Compromising Proprietary Information”, J. Chem. Inf. Model. 64(7):2331–2344 (2023). DOI: 10.1021/acs.jcim.3c00799. AUC-PR-Verbesserungen für 8 von 10 Partnern > 2,5 %; pharmakologische Sicherheitspanels zeigten die stärksten Verbesserungen.
  • Terfenadine / hERG-Beispiel: Sanguinetti et al., „hERG, a Primary Human Ventricular Target of the Nonsedating Antihistamine Terfenadine”, Circulation 94(4):817–823 (1996); > 400 Fälle von QT-Verlängerung und assoziierten Todesfällen bei 100 Millionen Verschreibungen. PMC4593700 (2015) gibt einen Überblick zu hERG-Antitarget-QSAR-Modellen.
  • Phase-II-Kosten $58,6 Mio. direkte Kosten: Sertkaya et al., „Spending on Phased Clinical Development of Approved Drugs”, JAMA Health Forum; PMC10349341 (2023).
  • Deloitte 2023: $2,3 Mrd. Gesamtentwicklungskosten: Deloitte Insights, „2024 Global Life Sciences Outlook”, zit. in GEN (Genetic Engineering & Biotechnology News), Dezember 2023.
  • hERG-Modell-Benchmarks (AUC-ROC 0,87–0,96 GNN): Ö. Adem et al., „hERG toxicity prediction in early drug discovery using extreme gradient boosting”, Scientific Reports 15 (2025); Frontiers in Pharmacology, „Ensemble of structure and ligand-based classification models for hERG liability profiling” (2023).
  • ICH M7(R2) QSAR-Akzeptanz: ICH M7(R2) Leitlinie „Assessment and Control of DNA Reactive (Mutagenic) Impurities in Pharmaceuticals to Limit Potential Carcinogenic Risk” (2023); EMA/FDA akzeptieren QSAR-Gutachten als primäre Methode für mutagene Verunreinigungen.
  • Applicability Domain, Modellgenauigkeit: Sahigara et al., „The importance of the domain of applicability in QSAR modeling”, ScienceDirect (2008); aktuelle Benchmarks zur AD-Bewertung in JCIM.
  • ChEMBL-Datenbankgröße: EMBL-EBI, ChEMBL Release 34 (2024); > 2,3 Millionen Verbindungen, 19 Millionen Aktivitätseinträge.

Du willst wissen, welche QSAR-Architektur für deine Verbindungsklasse geeignet ist, oder brauchst Unterstützung beim Aufbau einer internen Screening-Pipeline? Meld dich — wir schauen uns den konkreten Fall an.

Diesen Inhalt teilen:

🤝

Interesse an diesem Use Case?

Schreib uns, wenn du mehr erfahren oder diesen Use Case für dein Unternehmen umsetzen möchtest. Wir melden uns zeitnah bei dir.

Deine Daten werden ausschließlich zur Bearbeitung deiner Anfrage verwendet (Art. 6 Abs. 1 lit. b DSGVO). Mehr in unserer Datenschutzerklärung.

Kostenloser Newsletter

Bleib auf dem neuesten
Stand der KI

Wähle deine Themen und erhalte relevante KI-News, Praxistipps und exklusive Inhalte direkt in dein Postfach – kein Spam, jederzeit abmeldbar.

Was interessiert dich? Wähle 1–3 Themen — du bekommst nur Inhalte dazu.

Mit der Anmeldung stimmst du unserer Datenschutzerklärung zu. Jederzeit abmeldbar.

Kostenlos
Kein Spam
Jederzeit abmeldbar