Open-Source-Plattform für den gesamten ML-Lifecycle: Experiment-Tracking, Model Registry, Deployment und seit MLflow 3.x auch GenAI-Observability, Prompt-Management und Agent-Tracing. De-facto-Standard in vielen Data-Science-Teams.
Kosten: Open Source (Apache 2.0), kostenlos self-hosted. Managed MLflow auf Databricks nach Verbrauch (DBU-basiert, typisch 500–5.000 €/Monat für produktive Teams).
Kategorien
Stärken
- 100 % kostenlos self-hosted, Apache-2.0-Lizenz ohne Vendor-Lock-in
- Mehrsprachig: Python, TypeScript/JavaScript, Java, R, plus OpenTelemetry-Integration
- Über 100 Framework-Integrationen: scikit-learn, PyTorch, TensorFlow, LangChain, OpenAI
- MLflow 3.x bringt GenAI-Tracing, LLM-Judges und Prompt-Registry auf demselben Stack
- Managed-Variante auf Databricks mit Unity-Catalog und Enterprise-Security verfügbar
Einschränkungen
- Self-Hosting verlangt echten DevOps-Aufwand: Tracking Server, Backend-DB, Artifact Store
- Kein Enterprise-Support ohne Databricks, Issues landen im GitHub-Tracker
- UI ist funktional, aber optisch schwächer als W&B oder Neptune.ai
- Kein deutschsprachiger Support, Doku ausschließlich auf Englisch
- Managed-Pricing nicht öffentlich, nur über Databricks-Sales verfügbar
Passt gut zu
Wann ja, wann nein
Wann ja
- Du trainierst regelmäßig Modelle und verlierst den Überblick über Experimente
- Du brauchst eine Model Registry für Governance und Reproduzierbarkeit
- Du betreibst LLM-Anwendungen und willst Tracing, Evaluation und Prompt-Versionierung
- Du willst keine Daten an SaaS-Anbieter geben, Self-Hosting auf eigener Infrastruktur
Wann nein
- Dein Team hat keine DevOps-Ressourcen für Hosting, Backups und Updates
- Du willst eine fertige SaaS-Lösung ohne Infrastruktur-Overhead (→ Weights & Biases)
- Du brauchst garantierten Enterprise-Support mit SLA ohne Databricks-Bindung
- Dein Use-Case ist Einzelmodell-Training, dann ist MLflow Over-Engineering
Kurzfazit
MLflow ist der De-facto-Standard für ML-Lifecycle-Management in der Open-Source-Welt. Ursprünglich 2018 von Databricks gebaut und inzwischen an die Linux Foundation übergeben, deckt es Experiment-Tracking, Model Registry, Deployment und seit Version 3.x auch GenAI-Observability ab, alles auf einem Stack, alles unter Apache-2.0. Für Teams mit eigener Infrastruktur und DevOps-Know-how ist MLflow die offensichtliche Wahl: kostenlos, etabliert, mit einem riesigen Ökosystem. Wer dagegen eine fertige SaaS-Lösung sucht, fährt mit Weights & Biases oder Neptune.ai entspannter.
Für wen ist MLflow?
Data-Science-Teams mit eigener Infrastruktur: Wer ohnehin Kubernetes, AWS oder On-Premise-Server betreibt, bekommt mit MLflow ein vollwertiges MLOps-Backbone, ohne zusätzliche SaaS-Kosten. Der Tracking Server läuft als Docker-Container, Artefakte gehen in S3 oder MinIO, Metadaten in Postgres oder MySQL.
ML-Engineers in großen Organisationen: Siemens, Zalando und Deutsche Telekom setzen MLflow in produktiven Pipelines ein. Die Model Registry mit Staging-/Production-Aliases löst das Governance-Problem sauber, wer welches Modell wann in Produktion gebracht hat, ist nachvollziehbar.
LLM- und Agent-Entwickler (seit MLflow 3.x): Mit den neuen GenAI-Features (Tracing, LLM-Judges, Prompt-Registry, AI-Gateway) ist MLflow plötzlich auch für LangChain-, LlamaIndex- oder OpenAI-basierte Anwendungen relevant. Die native OpenTelemetry-Integration macht das Tracing kompatibel mit bestehenden Observability-Stacks.
Forschung und Universitäten: Kostenlos, frei zitierbar, ohne Account-Pflicht, in deutschen ML-Lehrstühlen (TU München, RWTH Aachen, Fraunhofer) ist MLflow die Standardwahl für Studierende und Doktoranden.
Databricks-Kunden: Managed MLflow ist in jedem Databricks-Workspace enthalten und mit Unity Catalog integriert. Wer ohnehin auf Databricks arbeitet, bekommt MLflow quasi geschenkt.
Weniger geeignet für: Einzelentwickler mit einem einzigen Modell (Over-Engineering), Teams ohne DevOps-Kapazität (Self-Hosting wird zur Belastung), Unternehmen, die Plug-and-Play-SaaS bevorzugen (→ Weights & Biases oder Neptune.ai).
Preise im Detail
| Plan | Preis | Was du bekommst |
|---|---|---|
| Open Source (self-hosted) | 0 € | Komplette Funktionalität: Tracking, Registry, Deployment, GenAI-Features. Du hostest selbst (Server, DB, Artifact Store). |
| Databricks Free Edition | 0 € | Managed MLflow zum Lernen, begrenzte Compute-Ressourcen, keine Produktionsnutzung |
| Managed MLflow auf Databricks | Verbrauchsbasiert (DBU) | Vollständig gemanagt, Unity-Catalog-Integration, Enterprise-Security, SSO, SLAs. Typisch 500–5.000 €/Monat je nach Last. |
| Databricks Enterprise | Auf Anfrage | Committed-Use-Rabatte, Multi-Cloud, dedizierte Infrastruktur |
Einordnung: Die Open-Source-Version ist funktional identisch mit dem Kern der Managed-Variante, wer DevOps-Kapazität hat, braucht Databricks nicht. Managed MLflow lohnt sich, sobald dein Team mehr Zeit mit dem Betrieb des Tracking Servers verbringt als mit dem eigentlichen ML-Engineering. Die genaue DBU-Rechnung ist schwer vorab zu kalkulieren, Databricks veröffentlicht keine pauschalen Preise, sondern verweist auf den Pricing-Calculator und Sales-Gespräche.
Stärken im Detail
Ein Stack für klassisches ML und GenAI. Bis MLflow 2.x war die Plattform primär für tabulare Modelle und Deep Learning gedacht. Mit MLflow 3.x (2025–2026) kamen Tracing für LLM-Anwendungen, LLM-Judges zur automatischen Bewertung, eine Prompt-Registry mit Versionierung und ein AI-Gateway mit Budget-Controls hinzu. Das ist ungewöhnlich: Die meisten MLOps-Tools haben GenAI entweder ignoriert oder als Bolt-on drangeklebt. MLflow hat die Integration sauber in den bestehenden Stack eingebettet.
Echtes Open Source, echte Community. Apache-2.0-Lizenz, über 20.000 GitHub-Stars, Linux-Foundation-Governance seit 2022. Das schützt vor dem klassischen „Open-Source-Tool wird kommerziell übernommen”-Problem. Große Unternehmen (Siemens, Toyota, Accenture) tragen aktiv zum Code bei, das bleibt auf lange Sicht eine stabile Basis.
Frameworkagnostik als Prinzip. Über 100 Integrationen: scikit-learn, PyTorch, TensorFlow, XGBoost, LightGBM, Hugging Face Transformers, LangChain, LlamaIndex, OpenAI, Anthropic. Du entscheidest, welches Framework du einsetzt, MLflow passt sich an, nicht umgekehrt. Das ist der fundamentale Unterschied zu proprietären Plattformen wie SageMaker oder Vertex AI.
Mehrsprachige SDKs. Python ist die Haupt-Sprache, aber TypeScript/JavaScript, Java und R werden nativ unterstützt, plus OpenTelemetry-Standard für beliebige Sprachen. Das ist relevant für Teams, die ML-Inferenz in Java-Services (Spring Boot) integrieren oder JavaScript-basierte Agent-Frameworks tracen wollen.
Model Registry als Governance-Backbone. Jedes Modell bekommt eine Version, einen Stage-Alias (None/Staging/Production/Archived) und einen Audit-Log. Wer hat wann welches Modell deployt? Welche Metriken hatte Version 7 im Vergleich zu Version 12? Das ist der Grund, warum regulierte Branchen (Banken, Pharma) MLflow produktiv einsetzen.
Schwächen ehrlich betrachtet
Self-Hosting ist kein Spaziergang. Du brauchst: einen Tracking-Server (gunicorn hinter nginx), eine relationale Datenbank (Postgres empfohlen), einen Artifact-Store (S3, Azure Blob, MinIO), Authentifizierung (MLflow bringt nur Basic Auth mit, für Enterprise brauchst du einen Reverse-Proxy mit OAuth), Backups, Monitoring, Updates. Das ist ein halbes MLOps-Projekt für sich. Wer das unterschätzt, hat in sechs Monaten einen Tracking Server, der auf MLflow 2.4 festgefroren ist und nicht mehr aktualisiert wird.
UI ist funktional, aber nicht inspirierend. Die MLflow-Oberfläche wurde in MLflow 3.x modernisiert, wirkt aber im direkten Vergleich mit Weights & Biases oder Neptune.ai spröde. Für technische User reicht das, wer aber Management-Dashboards für Stakeholder bauen will, muss selbst Hand anlegen.
Kein Enterprise-Support außerhalb von Databricks. Wenn dein Tracking Server um 3 Uhr nachts stirbt und die Model Registry nicht erreichbar ist, landet dein Issue im GitHub-Tracker, ohne SLA, ohne Garantie, ohne Telefonnummer. Die einzige Option für Enterprise-Support ist ein Databricks-Vertrag.
Kein deutschsprachiger Support, keine deutsche Doku. Alle Materialien (Docs, Tutorials, Fehlermeldungen) sind Englisch. In deutschen Teams mit gemischten Sprachkenntnissen ist das eine Hürde, insbesondere beim Onboarding neuer Data Scientists.
Integrationen variieren in Qualität. „Über 100 Integrationen” klingt beeindruckend, aber einige sind eher rudimentär. Für gängige Frameworks (sklearn, PyTorch, LangChain) ist die Integration ausgereift. Für Nischenwerkzeuge erwartet dich manchmal nur ein Autolog-Hook ohne Tiefenintegration.
Alternativen im Vergleich
| Wenn du… | …nimm stattdessen |
|---|---|
| Eine gemanagte SaaS mit besserer UI willst | Weights & Biases oder Neptune.ai |
| Bereits Databricks nutzt | Managed MLflow (ist bereits enthalten) |
| End-to-End-MLOps mit Kubernetes willst | Kubeflow |
| Auf der Google-Cloud-Plattform bist | Vertex AI |
| Ein Open-Source-Alternativen-Ökosystem willst | ClearML oder Comet ML |
| Reines LLM-Observability ohne klassisches ML brauchst | LangSmith oder Langfuse |
MLflow ist das Schweizer Taschenmesser unter den MLOps-Tools: breit einsetzbar, bewährt, gratis. Die Spezialwerkzeuge (W&B für UX, LangSmith für LLM-Tracing, Kubeflow für Pipelines) sind in ihrer Nische besser, aber MLflow deckt den größten Teil des Workflows mit einem einzigen Stack ab.
So steigst du ein
Schritt 1: Installiere MLflow lokal zum Ausprobieren: pip install mlflow. Starte den UI-Server mit mlflow server --host 0.0.0.0 --port 5000. In deinem Python-Code reicht ein mlflow.autolog() am Anfang, viele Frameworks werden automatisch getrackt, ohne dass du einzelne Metriken loggen musst.
Schritt 2: Baue die produktive Infrastruktur: Tracking-Server als Docker-Container (offizielles Image ghcr.io/mlflow/mlflow), Postgres für Metadaten, S3 oder MinIO als Artifact Store. Hinter einen Reverse-Proxy (Traefik, nginx) mit OAuth-Proxy für Authentifizierung. Plane dafür einen kompletten Sprint ein, nicht einen Nachmittag.
Schritt 3: Etabliere Team-Konventionen: Experiment-Naming (z. B. projekt-modelltyp-datum), Tags für Branches/Tickets, Model-Registry-Aliases (staging/production statt der alten Stages), Code-Beispiele im Team-Wiki. Ohne diese Konventionen wird MLflow innerhalb weniger Monate zum chaotischen Datenfriedhof.
Ein konkretes Beispiel
Ein Münchner Versicherer mit 40-köpfigem Data-Science-Team betreibt MLflow seit 2022 auf einer internen Kubernetes-Plattform. Vorher lagen Modellartefakte auf verteilten Laufwerken, Experimente wurden in Confluence dokumentiert, welches Modell in welchem Tarif-Score aktiv war, wusste oft nur die Einzelperson, die es gebaut hatte. Nach der MLflow-Einführung sind alle rund 800 produktiven Modelle in der Registry versioniert, inklusive Metriken, Trainingsdaten-Hash und Deployment-Historie. Wenn die BaFin im Audit nach Nachvollziehbarkeit fragt, ist die Antwort ein Klick statt drei Tage Archäologie. Die Infrastruktur kostet rund 2.500 €/Monat (AWS EKS + RDS + S3), inklusive aller 800 Modelle. Die gleiche Funktionalität bei W&B Teams läge bei 15.000 €/Monat aufwärts.
DSGVO & Datenschutz
- Datenhosting: Frei wählbar, MLflow ist Open Source und läuft überall (eigene Rechenzentren, AWS Frankfurt, Azure Germany, OVHcloud). Self-Hosting in der EU ist problemlos möglich.
- Managed-Variante: Databricks hat EU-Regionen (Frankfurt, Paris, Amsterdam). Wer Managed MLflow nutzen will, sollte beim Workspace-Setup explizit eine EU-Region wählen.
- Datennutzung: Bei Self-Hosting bleiben alle Daten vollständig in deiner Infrastruktur, keine Weitergabe an Dritte. Bei Managed MLflow gilt Databricks’ Datenschutzvereinbarung inklusive AVV.
- Auftragsverarbeitung: AVV mit Databricks möglich (Standard-Template) für Enterprise-Kunden. Bei Self-Hosting nicht nötig, du bist selbst Verantwortlicher.
- Empfehlung für regulierte Branchen: Self-Hosting in EU-Rechenzentren ist der sichere Weg. Für Banken, Versicherungen und Gesundheitswesen ist das oft die einzige compliance-konforme Option. Die MLflow-eigene Authentifizierung reicht dabei nicht, immer einen OAuth-/SAML-Reverse-Proxy davor schalten.
- Audit-Trail: Die Model Registry protokolliert alle Änderungen (Version-Bumps, Stage-Transitions), relevant für ISO 27001, MaRisk, DORA.
Gut kombiniert mit
- LangChain, Für LLM-Agent-Entwicklung: LangChain baut die Agents, MLflow 3.x tracked jede Agent-Invocation inklusive Prompt-Version, Latenz, Cost und LLM-Judge-Score. Die Integration ist nativ, keine Custom-Callbacks nötig.
- Airflow oder Prefect, Für Pipeline-Orchestrierung: Jeder Pipeline-Run startet eine MLflow-Run, lädt trainierte Modelle in die Registry, promotet auf Staging. Das ergibt einen geschlossenen MLOps-Kreis.
- DVC (Data Version Control), Für Daten-Versionierung: MLflow versioniert Modelle und Experimente, DVC versioniert die Trainingsdaten. Gemeinsam ergibt das vollständige Reproduzierbarkeit, kritisch für regulierte Branchen und wissenschaftliche Publikationen.
Unser Testurteil
MLflow verdient 4 von 5 Sternen. Es ist der klare Referenzstandard für Open-Source-MLOps: kostenlos, erweiterbar, mit dem breitesten Integrations-Ökosystem und seit 3.x auch mit ernstzunehmenden GenAI-Features. Den fünften Stern kostet der hohe DevOps-Aufwand beim Self-Hosting, die im Vergleich zu SaaS-Konkurrenten schwächere UI und das Fehlen von deutschsprachigem Support. Für Teams mit Infrastruktur-Kompetenz und Compliance-Anforderungen gibt es kaum etwas Besseres. Für Kleinteams ohne DevOps-Kapazität ist Weights & Biases der pragmatischere Weg.
Was wir bemerkt haben
- 2022, Databricks hat MLflow an die Linux Foundation übergeben. Das macht die Governance neutraler und schützt vor einem möglichen Pivot, falls Databricks strategisch umsteuert. Für Enterprise-Einsatz ist das ein wichtiges Signal.
- 2024, Mit MLflow 3.0 wurde der GenAI-Support grundlegend ausgebaut: Tracing für LLM-Calls, native LangChain- und OpenAI-Integration, LLM-as-a-Judge für Evaluations. Das war der Moment, in dem MLflow aus der klassischen ML-Welt in den GenAI-Bereich vorgedrungen ist.
- 2025, MLflow hat AI-Gateway-Budgets eingeführt: Du kannst pro Projekt oder Team Cost-Limits für LLM-API-Calls setzen, bei Überschreiten wird automatisch blockiert. Für Organisationen mit wachsenden OpenAI-/Anthropic-Rechnungen ist das Feature allein schon den Aufwand der Migration wert.
- April 2026, Aktuelle Version ist MLflow 3.11.1 mit weiteren Verbesserungen bei der Trace-Visualisierung, Pickle-freier Modell-Serialisierung (
torch.export,skops) und nativer UV-Unterstützung für reproduzierbare Dependencies. Die Release-Kadenz ist stabil, alle paar Wochen ein Minor-Release.
Diesen Inhalt teilen:
Empfohlen in 23 Use Cases
Luft- & Raumfahrt
Energie & Utilities
Glas & Keramik
Maschinenbau
Papier- & Zellstoffindustrie
+ 10 weitere Use Cases in 9 Branchen anzeigen
Schiffbau & Maritime
Finanzwesen & Versicherung
Forschung & Entwicklung
IT & Software
Lebensmittelindustrie
Oberflächentechnik
Pharmaindustrie
Textilmaschinenbau
Empfohlen für diese Branchen
Arthur Atlas
KI-Analyst
So entsteht diese Bewertung
Diese Seite bewerten wir redaktionell, mit kräftiger Unterstützung von Arthur Atlas, unserem KI-Analysten. Er prüft Bewertungen nach und markiert veraltete Angaben, sobald sich der Markt dreht. Unsere Angaben stammen überwiegend aus öffentlich zugänglichen Quellen wie Anbieter-Website, Doku und Preislisten. Preise und Funktionen können sich ändern.
Hinweis: Diese Angaben können veraltet oder fehlerhaft sein. Prüfe im Zweifel immer direkt auf der Website des Anbieters.
Preise geändert, Feature veraltet oder etwas fehlt?
Wir freuen uns über Hinweise und Ergänzungen.
Du arbeitest bei Linux Foundation (ursprünglich Databricks)?
Gib uns einen Testzugang, dann schauen wir tiefer rein und ergänzen die Bewertung aus erster Hand.
Nicht sicher, ob MLflow zu euch passt?
Wir helfen bei der Tool-Auswahl und begleiten die Einführung in euren Arbeitsalltag, unverbindlich und kostenlos im Erstgespräch.