RDKit ist das meistgenutzte Open-Source-Cheminformatik-Paket. Es berechnet molekulare Deskriptoren, liest und schreibt chemische Dateiformate (SDF, SMILES, Mol2) und stellt die Grundbausteine für QSAR-Modelle, Fingerprint-Berechnung und molekulares Screening bereit. Standardbibliothek in pharmazeutischer Forschung und akademischer Cheminformatik.
Kosten: Kostenlos; BSD-Lizenz. Keine Cloud-Gebühren, keine Nutzerlizenzen. Infrastrukturkosten (Server, Rechenzeit) liegen beim Betreiber.
Stärken
- De-facto-Standard in der Industrie und Forschung — ausgezeichnete Community, umfangreiche Dokumentation
- Berechnet über 200 molekulare Deskriptoren und alle gängigen Fingerprints (Morgan, MACCS, TopologicalTorsion)
- Liest alle relevanten Chemieinformatik-Formate: SDF, SMILES, InChI, Mol2, PDB
- Nahtlose Integration mit RDKit in Python (NumPy, Pandas, scikit-learn, PyTorch) für ML-Pipelines
- Vollständig lokal betreibbar — keine Abhängigkeit von externen APIs, volle Datenkontrolle
- Aktive Entwicklung seit 2000, finanziert durch Bayer, AstraZeneca, Novartis und anderen Pharmaunternehmen
Einschränkungen
- Python-Kenntnisse auf solidem Niveau erforderlich — kein GUI, keine Drag-and-Drop-Oberfläche
- 3D-Konformationsgenerierung und Docking sind Grundfunktionen — für hochpräzise Physikberechnungen Schrödinger nötig
- Keine eingebaute Modellierungsplattform: ML-Modelle werden mit externen Bibliotheken (scikit-learn, PyTorch, DeepChem) gebaut
- Parallel-Computing und GPU-Beschleunigung erfordern zusätzliche Integration
Passt gut zu
So steigst du ein
Schritt 1: Installation über pip oder conda: pip install rdkit oder conda install -c conda-forge rdkit. Lies danach die RDKit Getting Started Guide — sie erklärt an praktischen Beispielen, wie Moleküle eingelesen, Deskriptoren berechnet und Fingerprints generiert werden.
Schritt 2: Lade eine SDF-Datei oder SMILES-Liste deiner Kandidatenverbindungen und berechne Morgan-Fingerprints: Chem.MolFromSmiles(smi) → AllChem.GetMorganFingerprintAsBitVect(mol, radius=2). Diese Fingerprints sind der Standard-Input für QSAR-Modelle in scikit-learn oder PyTorch.
Schritt 3: Kombiniere RDKit-Fingerprints mit Aktivitätsdaten aus ChEMBL oder internen Assays, trainiere ein Random-Forest- oder XGBoost-Modell für die Toxizitätsklassifikation, und wende es auf neue Kandidatenstrukturen an. RDKit stellt auch Similarity-Maps bereit, die visualisieren, welche Strukturfragmente zum Modell-Score beitragen.
Ein konkretes Beispiel
Eine Biotech-Gruppe in München arbeitet an Kinase-Inhibitoren und will potenzielle hERG-Blocker frühzeitig ausscheiden. Die Cheminformatikerin baut eine QSAR-Pipeline: RDKit berechnet Morgan-Fingerprints (Radius 2, 2048 Bit) und 200 2D-Deskriptoren für alle Verbindungen aus der internen SAR-Datenbank. Ein Random-Forest-Modell, trainiert auf 3.000 hERG-Aktivitätsdaten aus ChEMBL, erreicht AUC-ROC 0.82 auf der internen Validierungsmenge. Neue Kandidaten werden vor der Synthese-Beauftragung automatisch durch das Modell geschickt — hERG-Verdächtigen wird ein strukturelles Überarbeitungs-Flag gesetzt.
Diesen Inhalt teilen:
Empfohlen in 2 Use Cases
Redaktionell bewertet · Preise und Funktionen können sich ändern.
Stimmt etwas nicht?
Preise geändert, Feature veraltet oder etwas fehlt? Wir freuen uns über Hinweise und Ergänzungen.
Nicht sicher, ob RDKit zu euch passt?
Wir helfen bei der Tool-Auswahl und begleiten die Einführung in euren Arbeitsalltag — unverbindlich und kostenlos im Erstgespräch.
Weitere Tools
Augury
Augury
Predictive Maintenance Plattform spezialisiert auf Rotationsmaschinen (Motoren, Pumpen, Ventilatoren). Machine Learning analysiert Vibration und Akustiksignale zur Fehlervorhersage.
Mehr erfahrenAutoDock Vina
The Scripps Research Institute / CADD Group
AutoDock Vina ist der meistgenutzte Open-Source-Docking-Algorithmus in der präklinischen Wirkstoffforschung. Er berechnet vorhergesagte Bindungsaffinitäten (kcal/mol) zwischen kleinen Molekülen und Zielprotein-Taschen — Grundlage für Structure-Based Virtual Screening. Vina 1.2 (2021) brachte GPU-Unterstützung und deutlich verbesserte Scoring-Funktionen gegenüber dem Klassiker von 2010.
Mehr erfahrenBigQuery ML
Google Cloud
Machine-Learning-Erweiterung für Googles Data Warehouse BigQuery. Analysten trainieren Modelle direkt per SQL — ohne Datenbewegung, ohne separaten ML-Stack. Inklusive Forecasting mit TimesFM und Remote-Calls zu Gemini, Vertex AI und Anthropic-Modellen.
Mehr erfahren