Zum Inhalt springen

Diese Seite wird derzeit neu geprüft. Alle Angaben werden schrittweise mit Quellen belegt.

Bezahlt 🇪🇺 EU-Server Zuletzt geprüft: Juni 2026

Databricks

Databricks Inc.

4/5
Tool öffnen

Databricks ist die Lakehouse-Plattform, die Data Engineering, Analytics und KI in einem System verbindet. Auf Apache Spark, Delta Lake und Unity Catalog aufgebaut, mit der Mosaic-AI-Übernahme um eigene LLM-Trainings- und Serving-Werkzeuge erweitert. Der De-facto-Standard für Konzern-Data-Teams, mit allen Vor- und Nachteilen einer Plattform, die für Großkunden gebaut wurde.

Kosten: Pay-as-you-go in DBU (Databricks Units). Richtwerte AWS: Jobs Compute ab ca. 0,15 USD/DBU (Standard) bzw. 0,20 USD/DBU (Premium); All-Purpose Compute ca. 0,40-0,55 USD/DBU; SQL Serverless ca. 0,70 USD/DBU. Eine DBU entspricht einer normalisierten Recheneinheit pro Stunde, die tatsächlichen Kosten hängen zusätzlich von der zugrundeliegenden Cloud-Instanz (EC2, Azure VM, GCE) ab. Free Edition zum Lernen kostenlos; Enterprise-Tier mit Audit-Logs und IP-Access-Lists ist deutlich teurer als Premium.

Kategorien

Stärken

  • Lakehouse-Architektur, Data Lake und Data Warehouse in einem System, kein ETL-Bruch zwischen Storage und Analytics
  • Spark unter der Haube, skaliert vom Laptop-Notebook bis Petabyte-Pipelines, ohne Code-Umschreibung
  • Unity Catalog, zentrale Governance mit Zugriffsrechten, Lineage-Tracking und Tag-basierter Klassifikation
  • Mosaic AI, eigenes Foundation-Model-Training, Vector Search und Model Serving direkt in der Plattform
  • Delta Lake, ACID-Transaktionen, Time Travel und Schema-Evolution auf Object Storage
  • EU-Region in Frankfurt verfügbar (AWS eu-central-1, Azure West Europe) für DSGVO-konforme Verarbeitung

Einschränkungen

  • DBU-Pricing-Modell ist berüchtigt undurchsichtig, Kosten sind ohne Test schwer zu kalkulieren, Überraschungen üblich
  • Steile Lernkurve, Spark, Delta Lake, Workflows, Unity Catalog und Compute-Tier-Wahl müssen Teams beherrschen
  • Vendor-Lock-in trotz offener Formate, die Workflows, das Catalog-Modell und die Notebooks sind plattformspezifisch
  • Für kleine Teams oder Datenmengen unter 100 GB ist die Plattform überdimensioniert und unnötig teuer
  • Premium- und Enterprise-Features (Audit-Logs, Customer-Managed Keys, IP-Access-Lists) gehören nicht zum Basistarif
  • Deutscher Support fehlt, Tickets, Dokumentation und Schulungen sind ausschließlich englischsprachig

Passt gut zu

Konzerne mit Datenmengen ab mehreren TB und Bedarf an einheitlicher Plattform Data-Science-Teams, die ML-Modelle iterativ trainieren, deployen und monitoren wollen Unternehmen, die Data Engineering, BI und KI-Workloads konsolidieren wollen Teams mit Spark- oder Python-Erfahrung, die produktive Lakehouse-Architekturen aufbauen

Kurzfazit

Databricks ist die ernsthafteste Wahl, wenn ein Unternehmen Data Engineering, Analytics und KI in einer einzigen Plattform vereinen will. Die Kombination aus Spark, Delta Lake, Unity Catalog und Mosaic AI deckt vom Rohdaten-Ingest bis zum produktiven LLM-Endpoint alles ab, und das in einer Tiefe, die weder Snowflake noch Microsoft Fabric erreichen. Bezahlt wird das mit einem DBU-basierten Preismodell, das ohne ernsthafte FinOps-Disziplin schnell aus dem Ruder läuft, und einer Komplexität, die kleine Teams überfordert. Vier Sterne, Bestnote für die Klasse “große Daten, große Teams”, aber nicht jedem Unternehmen zu empfehlen.

Für wen ist Databricks?

Konzerne und gehobener Mittelstand mit echten Big-Data-Pipelines: Wer täglich mehrere hundert Gigabyte oder mehr verarbeitet, mehrere Data-Source-Systeme zusammenführt und ETL plus Analytics plus ML in einer Hand braucht, findet hier die kompletteste Lösung am Markt. Der Wert entsteht aus Konsolidierung, ein Team statt drei, ein Catalog statt fünf.

Data-Science-Teams in regulierten Branchen: Banken, Pharma und Versicherungen profitieren von Unity Catalog mit zeilen- und spaltenbasierter Zugriffskontrolle, Lineage und Audit. In Verbindung mit der EU-Region in Frankfurt lassen sich GDPR- und BaFin-Anforderungen sauber abbilden.

ML-Engineering-Teams, die Modelle produktiv betreiben: Mosaic AI bietet Model Serving, Vector Search und Feature Store nativ. Wer von Notebook zu produktivem Endpoint will, ohne fünf Tools zu integrieren, hat hier einen klaren Vorteil.

Teams mit Spark-Vorerfahrung: Wer bereits PySpark oder Scala-Spark kennt, ist sofort produktiv. Die Plattform belohnt Spark-Wissen mit der besten Developer Experience im Markt.

Weniger geeignet für:

  • Kleine Teams mit Datenmengen unter 100 GB, eine PostgreSQL plus dbt plus MLflow reicht hier völlig
  • Reine SQL-Analytics-Anwendungen ohne ML-Bedarf, BigQuery ML oder Snowflake sind günstiger und einfacher
  • Self-Service-Analyst:innen ohne Coding-Skills, die Notebook-Umgebung setzt Python- oder SQL-Kenntnisse voraus
  • Unternehmen mit fixem IT-Budget, die genaue Monatskosten brauchen, das DBU-Modell macht Forecasting schwierig

Preise im Detail

Workload (AWS, Stand Mai 2026)StandardPremiumEnterprise
Jobs Compute (Batch-ETL)ca. 0,15 USD/DBUca. 0,20 USD/DBUauf Anfrage
All-Purpose Compute (Notebooks)ca. 0,40 USD/DBUca. 0,55 USD/DBUauf Anfrage
SQL Compute (Classic)ca. 0,22 USD/DBU
SQL Pro / Serverlessca. 0,55 / 0,70 USD/DBU
Free Edition (Lernen)0 USD

Einordnung: Die DBU-Preise sind nur die halbe Wahrheit, zusätzlich fallen die Cloud-Compute-Kosten (EC2, Azure VM, GCE) an, die Databricks im Kunden-Account abrechnet. Eine typische Mittelstands-Pipeline mit täglichen ETL-Jobs, einem SQL-Warehouse für BI und einem Notebook-Cluster landet schnell zwischen 2.000 und 10.000 EUR pro Monat. Wer Mosaic-AI-Workloads (Model Serving, Vector Search, Foundation Model Training) hinzunimmt, kommt rasch fünfstellig im Monat. Premium ist für die meisten Produktivumgebungen praktisch Pflicht, weil Unity Catalog, Single Sign-On und Audit-Logs erst dort verfügbar sind. Enterprise lohnt sich nur für regulierte Branchen mit Bedarf an Customer-Managed Keys und IP-Access-Lists. Ein realistisches Pilot-Setup kostet zwei- bis dreitausend Euro im Monat, ehrliches Capacity Planning vor dem Vertrag ist Pflicht.

Stärken im Detail

Lakehouse-Architektur als echtes Differenzierungsmerkmal. Statt Daten zwischen Data Lake (S3) und Warehouse (Snowflake, Redshift) zu kopieren, läuft alles auf einem Storage-Layer. Delta Lake bringt ACID-Transaktionen, Schema-Evolution und Time Travel auf Object Storage. Das spart nicht nur Storage-Kosten, sondern eliminiert eine ganze Klasse von Synchronisationsproblemen.

Spark ist erwachsen, und Databricks macht ihn benutzbar. Die Photon-Engine (in C++ neu geschriebener Spark-Executor) ist je nach Workload zwei- bis dreimal schneller als Open-Source-Spark. Auto-Scaling, Spot-Instance-Management und Cluster-Optimierung passieren automatisch. Wer schon einmal selbst einen Spark-Cluster auf Kubernetes betrieben hat, weiß diese Bequemlichkeit zu schätzen.

Unity Catalog liefert echte Governance. Tabellen, Views, Funktionen, ML-Modelle und Volumes (unstrukturierte Daten) liegen in einem hierarchischen Catalog. Zugriffsrechte vergibst du auf Spalten- und Zeilenebene, Lineage wird automatisch erfasst, sensible Felder lassen sich taggen und maskieren. Für regulierte Industrien ist das praktisch alternativlos.

Mosaic AI integriert Foundation Models in den Lakehouse-Workflow. Seit der Akquisition 2023 lassen sich Vector Search, Model Serving, Feature Store und sogar eigenes Foundation-Model-Training direkt aus der Plattform nutzen. Wer Retrieval-Augmented-Generation auf eigenen Daten bauen will, braucht keine separate Vector-DB und keinen separaten Inference-Server.

EU-Hosting in Frankfurt ist verfügbar. Workspaces lassen sich in AWS eu-central-1 oder Azure West Europe deployen. In Verbindung mit Unity Catalog und Customer-Managed Keys (Enterprise) ist eine DSGVO-konforme Verarbeitung möglich, das ist im US-Cloud-Markt nicht selbstverständlich.

Schwächen ehrlich betrachtet

Das Pricing ist undurchsichtig, und das ist ein systemisches Problem, kein Detailfehler. DBU-Verbrauch hängt von Compute-Tier, Photon-Aktivierung, Cluster-Größe und Worker-Anzahl ab. Dazu kommen die Cloud-Compute-Kosten in deinem eigenen Account. Ohne Cost-Monitoring, Tagging-Disziplin und Quota-Limits eskalieren die Kosten. Mehrere Kunden berichten von Monatsrechnungen, die das geplante Budget um 40-60 Prozent überschritten haben. Workaround: Cluster-Policies, Job-Cluster statt All-Purpose, Auto-Termination und das Cost-Reporting in Account-Console konsequent nutzen.

Die Lernkurve ist steil und mehrdimensional. Teams müssen Spark verstehen (Lazy Evaluation, Partitionen, Shuffle), Delta Lake (Optimize, Z-Order, Vacuum), Cluster-Konfiguration (Driver vs. Worker, Photon, Auto-Scaling), Unity Catalog (Catalogs, Schemas, External Locations) und Workflows. Eine ernsthafte Einarbeitung dauert mehrere Wochen, wer das unterschätzt, baut schlechte Pipelines.

Vendor-Lock-in trotz offener Formate. Delta Lake ist Open Source, Spark ist Open Source, die Workflows, das Job-Scheduling, die Notebooks und das Unity-Catalog-Permission-Modell sind es nicht. Eine Migration weg von Databricks ist möglich, aber teuer. Viele Kunden sind faktisch gefangen, weil das Ökosystem so dicht ist.

Für kleine Datenmengen ist die Plattform massiv überdimensioniert. Wer 50 GB pro Tag verarbeitet, braucht keinen Lakehouse. Eine PostgreSQL plus dbt plus MLflow erledigt dasselbe für einen Bruchteil der Kosten und mit weniger Komplexität. Databricks lohnt sich erst ab Datenmengen, die einen einzelnen Server überfordern, typischerweise Hunderte GB bis viele TB.

Kein deutscher Support, keine deutsche Dokumentation. Tickets werden auf Englisch bearbeitet, Schulungen sind englisch, Account-Manager sitzen meist in Dublin oder London. Für Teams, deren Senior-Engineers fließend Englisch sprechen, ist das kein Problem, für gemischte Teams in mittelständischen Unternehmen schon.

Premium-Features sind nicht im Basistarif enthalten. Single Sign-On, Audit-Logs, Cluster-Policies, Unity Catalog mit feingranularer Berechtigung, alles erst ab Premium. Für ernsthafte Produktivnutzung ist Premium praktisch Pflicht, der “Standard”-Tarif ist eher ein Lock-In-Köder.

Alternativen im Vergleich

Wenn du willst……nimm besser
SQL-zentrische Analytics mit ML-Add-on, ohne Spark-KomplexitätBigQuery ML
Visuelle, drag-and-drop-orientierte Data-Science-PlattformDataiku
Nur ML-Lifecycle-Management ohne ganze Lakehouse-InvestitionMLflow (Open Source, von Databricks selbst)
Open-Source-Lösung für Data Science, lokal oder on-premisesKNIME Analytics Platform
Fertige Industrial-AI-Suite ohne eigene ModellentwicklungC3.ai

Snowflake und Microsoft Fabric sind die direktesten Konkurrenten und werden in echten Vendor-Auswahlprozessen meistens parallel evaluiert. Snowflake punktet bei reiner SQL-Analytik mit dem klareren Pricing-Modell, Fabric bei tiefer Microsoft-Integration und Power-BI-Anbindung. Wer schwerpunktmäßig KI baut und nicht nur Reporting, liegt mit Databricks vorn.

So steigst du ein

Schritt 1: Lege dir kostenlos einen Free-Edition-Workspace auf databricks.com/try-databricks an. Damit übst du Notebooks, Spark-Syntax und Delta-Tabellen risikofrei. Alternativ: 14-tägige Testphase eines vollwertigen Workspaces in deinem AWS- oder Azure-Account, um Cost-Mechanik realistisch zu erleben.

Schritt 2: Baue eine Pilot-Pipeline mit echten, aber überschaubaren Daten, etwa 10-50 GB. Lade Rohdaten in eine Bronze-Table, transformiere in Silver, aggregiere in Gold (Medallion-Architektur). Nutze ausschließlich Job-Cluster und setze Auto-Termination auf 10 Minuten. So lernst du Spark, Delta Lake und Cost-Mechanik gleichzeitig.

Schritt 3: Vor dem Produktiv-Rollout: Cluster-Policies definieren, Tagging-Strategie festlegen, Cost-Alerts einrichten und Unity Catalog mit deinem Identity Provider (Entra ID, Okta) verbinden. Ohne diese Hausaufgaben werden die ersten Monatsrechnungen unangenehm.

Ein konkretes Beispiel

Ein mittelständischer Maschinenbauer aus Stuttgart, 800 Mitarbeitende, betreibt eine Flotte von 12.000 verkauften Maschinen weltweit. Sensoren liefern täglich rund 600 GB Telemetriedaten in einen S3-Bucket. Bisher lief die Auswertung über ein Konstrukt aus Python-Skripten auf einem EC2-Server und einer Postgres-Datenbank, die Ad-hoc-Analysen brauchten Stunden, ein Predictive-Maintenance-Modell war nie produktiv geworden.

Mit Databricks (AWS Frankfurt, Premium-Tier, EU-Region) baut das Data-Team in vier Monaten eine Medallion-Architektur: Bronze-Table mit Raw-Telemetry, Silver-Table mit bereinigten und angereicherten Sensorwerten, Gold-Tables mit Aggregaten pro Maschine, Standort und Bauteil. Ein Predictive-Maintenance-Modell läuft als Daily Job auf MLflow, die Vorhersagen landen in einer Delta-Tabelle, die der Service-Außendienst über Power BI liest. Monatskosten: rund 4.800 EUR (1.200 USD DBU, 2.000 EUR EC2, 1.000 EUR S3 und Egress) plus 600 EUR für Premium-Features. Spürbarer Effekt: Servicetechniker fahren 18 Prozent gezielter, ungeplante Ausfälle bei Bestandskunden sinken um etwa ein Viertel im ersten Jahr. Wäre das Datenvolumen 50 GB statt 600 GB gewesen, hätte sich das Investment nicht gelohnt.

DSGVO & Datenschutz

  • Hosting in der EU verfügbar: Workspaces lassen sich in AWS eu-central-1 (Frankfurt), Azure West Europe (Niederlande) oder GCP europe-west3 (Frankfurt) deployen. Datenverarbeitung bleibt regional.
  • AVV mit Databricks Inc. abschließbar: Standard-Auftragsverarbeitungsvertrag wird angeboten, inklusive EU Standard Contractual Clauses. Für regulierte Branchen ist HIPAA-, ISO-27001- und SOC-2-Compliance dokumentiert.
  • US-Konzern, EU-Region, der CLOUD-Act-Vorbehalt bleibt: Databricks Inc. ist US-Unternehmen, fällt damit unter den US CLOUD Act. EU-Region reduziert das Risiko, eliminiert es aber nicht. Wer auf maximale Souveränität angewiesen ist, sollte das im Risk Assessment berücksichtigen.
  • Customer-Managed Keys nur im Enterprise-Tier: Eigene Schlüssel für Verschlüsselung von Notebooks, Workspace-Storage und Delta-Tables sind möglich, aber nur im teuersten Tier verfügbar.
  • Unity Catalog liefert das Audit-Fundament: Wer Personenbezugsdaten verarbeitet, kann mit Unity Catalog Spalten-Maskierung, Tag-basierte Klassifikation (z.B. “PII”) und Lineage-Reports umsetzen, ein Vorteil gegenüber selbstgebauten Spark-Setups.
  • Mosaic AI Model Serving: Inference-Endpoints lassen sich ebenfalls EU-regional deployen. Foundation-Model-APIs (etwa für GPT-4-Klassen) führen je nach Modell wieder durch US-Infrastruktur, hier ist genaues Hinsehen nötig.

Gut kombiniert mit

Power BI oder Tableau für Self-Service-BI: Endnutzer:innen wollen Dashboards, keine Notebooks. Databricks SQL liefert performante Endpoints, die Power BI direkt anbindet, das Engineering-Team baut die Gold-Tables, Fachbereiche bauen ihre eigenen Reports darauf.

dbt für SQL-zentrische Transformationen: Wer SQL bevorzugt und ein versioniertes, getestetes Transformations-Layer braucht, kombiniert dbt mit Databricks. dbt-databricks-Adapter ist offiziell unterstützt, Models werden als Delta-Tables materialisiert.

MLflow als Modell-Tracking-Standard: Ohnehin in Databricks integriert, aber wer hybrid (lokal trainieren, in Databricks deployen) arbeitet, profitiert vom selben Tracking-Backend in beiden Welten. Modell-Registry, Experiment-Tracking und Stage-Promotion bleiben konsistent.

Unser Testurteil

Vier Sterne, und das ist eine bewusste Entscheidung gegen die fünf. Databricks ist innerhalb seiner Klasse “ernsthafte Lakehouse-Plattform für Konzerne und gehobenen Mittelstand” konkurrenzlos: Lakehouse-Architektur, Spark-Performance, Unity-Catalog-Governance und Mosaic-AI-Integration sind im Markt unerreicht. Der fünfte Stern bleibt aus zwei Gründen aus: Erstens ist das DBU-Pricing-Modell nicht beherrschbar, ohne dedizierte FinOps-Disziplin aufzubauen, und das ist eine systemische Schwäche, kein kleiner Makel. Zweitens ist die Plattform für die Mehrheit deutscher Unternehmen (KMU, Datenmengen unter 1 TB) schlicht überdimensioniert. Wer in der Zielgruppe ist, bekommt das beste Werkzeug am Markt; wer falsch dimensioniert kauft, brennt Budget.

Was wir bemerkt haben

  • Mai 2025, Die “Community Edition” wurde durch die “Free Edition” abgelöst. Funktional ähnlich (kostenlos, eingeschränkt), aber neuer Markenname und leicht veränderter Funktionsumfang.
  • Juni 2023, Übernahme von MosaicML für 1,3 Mrd. USD. Daraus entstand “Mosaic AI” als integriertes KI-Layer der Plattform, Vector Search, Model Serving und Foundation-Model-Training sind seitdem nativ verfügbar.
  • 2024, Unity Catalog wurde von Premium-Add-on zum praktischen Pflichtbestandteil ernsthafter Produktivnutzung, wer ohne Catalog startet, baut sich Migrationsschulden ein.
  • 2024-2025, DBU-Preise blieben nominal stabil, aber die Default-Cluster-Konfigurationen (Photon ein, Premium-Tier-Promotion) führten bei vielen Kunden zu spürbar höheren Rechnungen ohne sichtbaren Preisaufschlag.

Diesen Inhalt teilen:

Empfohlen in 16 Use Cases

Empfohlen für diese Branchen

Arthur Atlas

KI-Analyst

So entsteht diese Bewertung

Diese Seite bewerten wir redaktionell, mit kräftiger Unterstützung von Arthur Atlas, unserem KI-Analysten. Er prüft Bewertungen nach und markiert veraltete Angaben, sobald sich der Markt dreht. Unsere Angaben stammen überwiegend aus öffentlich zugänglichen Quellen wie Anbieter-Website, Doku und Preislisten. Preise und Funktionen können sich ändern.

Hinweis: Diese Angaben können veraltet oder fehlerhaft sein. Prüfe im Zweifel immer direkt auf der Website des Anbieters.

Preise geändert, Feature veraltet oder etwas fehlt?

Wir freuen uns über Hinweise und Ergänzungen.

Feedback geben

Du arbeitest bei Databricks Inc.?

Gib uns einen Testzugang, dann schauen wir tiefer rein und ergänzen die Bewertung aus erster Hand.

Testzugang anbieten

Nicht sicher, ob Databricks zu euch passt?

Wir helfen bei der Tool-Auswahl und begleiten die Einführung in euren Arbeitsalltag, unverbindlich und kostenlos im Erstgespräch.

Erstgespräch anfragen

KI-Tools und Trends

KI-Wochenbriefing: jeden Freitag KI-News, Praxistipps und Tools

Kostenlos abonnieren, jederzeit abmeldbar, kein Spam.

Kostenloser Newsletter

Bleib auf dem neuesten
Stand der KI

Wähle deine Themen und erhalte relevante KI-News, Praxistipps und exklusive Inhalte direkt in dein Postfach – kein Spam, jederzeit abmeldbar.

Was interessiert dich? Wähle 1–4 Themen, du bekommst nur Inhalte dazu.

Mit der Anmeldung stimmst du unserer Datenschutzerklärung zu. Jederzeit abmeldbar.

Kostenlos
Kein Spam
Jederzeit abmeldbar