Soda Core ist ein quelloffenes Python-Framework für Datenqualitätsprüfungen, das Regeln als lesbares YAML statt als Code definiert. Es liefert über 50 eingebaute Checks, direkte Reconciliation-Tests zwischen zwei Datenquellen und Anbindung an alle gängigen Warehouses. Mit Soda v4 verschiebt sich der Fokus von der reinen CLI-Prüf-Engine hin zu kollaborativen Data Contracts und einer Cloud-Plattform mit KI-gestützter Anomalieerkennung.
Kosten: Soda Core (Open Source, Apache 2.0) kostenlos. Soda Cloud: Free-Plan 0 USD, Team-Plan 750 USD/Monat (unbegrenzte Nutzer, SPU-basierte Abrechnung), Enterprise auf Anfrage
Kategorien
Stärken
- YAML-basierte Checks: zugänglicher als Python-Code für Teams ohne Programmiererfahrung
- 50+ eingebaute Prüfungen: Nullquoten, Duplikate, Werteverteilungen, Freshness, referentielle Integrität
- Reconciliation Checks: direkte Gegenüberstellung zweier Datenquellen (Quelle vs. Ziel) out-of-the-box
- Unterstützt alle wichtigen Warehouses: Snowflake, BigQuery, Databricks, PostgreSQL, Redshift, MySQL, DuckDB
- Soda Core vollständig open-source unter Apache 2.0, kostenlos und selbst betreibbar
- Architektur lässt Rohdaten in deiner Umgebung, nur Metadaten und Ergebnisse gehen an Soda Cloud
Einschränkungen
- Kein deutschsprachiger Support, Doku und Community ausschließlich auf Englisch
- Soda v4 hat den Fokus auf Data Contracts verschoben, ältere v3-Checks müssen migriert werden
- Keine grafische UI in der kostenlosen Version, ausschließlich CLI und YAML
- Für komplexe statistische Anomalieerkennung weniger ausgereift als Great Expectations
- Sprung vom kostenlosen Open-Source-Core zum Team-Plan (750 USD/Monat) ist steil, dazwischen wenig
Passt gut zu
Wann ja, wann nein
Wann ja
- Du willst Datenqualität als Code versionieren und in deine CI/CD-Pipeline integrieren
- Du sicherst ein Migrations- oder Replikationsprojekt zwischen zwei Datenbanken ab
- Dein Team bevorzugt lesbares YAML statt selbstgeschriebenem Python für Qualitätsregeln
- Du brauchst eine kostenlose, selbst betreibbare Lösung ohne Vendor-Lock-in
Wann nein
- Du brauchst eine fertige UI ohne Programmierung und ohne CLI-Arbeit
- Dein Team verarbeitet hochkomplexe statistische Anomalien (dann eher Great Expectations)
- Du willst deutschsprachigen Support und deutsche Dokumentation
- Du suchst eine reine Out-of-the-box-SaaS-Lösung ohne Engineering-Aufwand
Kurzfazit
Soda Core ist ein solides, quelloffenes Werkzeug für Datenqualität als Code. Seine größte Stärke ist die Lesbarkeit: Qualitätsregeln werden als YAML definiert, nicht als Python, das macht sie auch für Analysten ohne tiefe Programmierkenntnisse zugänglich. Besonders überzeugend sind die eingebauten Reconciliation-Checks, die zwei Datenquellen direkt gegenüberstellen, ideal für Migrations- und Replikationsprojekte. Mit Soda v4 verschiebt sich der Fokus allerdings spürbar von der freien CLI-Engine hin zu Data Contracts und der kostenpflichtigen Soda Cloud. Wer nur den Open-Source-Core nutzt, bekommt ein robustes, aber nüchternes CLI-Tool ohne UI. Wer mehr will, landet schnell beim Team-Plan für 750 USD/Monat, und dazwischen klafft eine Lücke.
Für wen ist Soda Core?
Data-Engineering-Teams: Die Kernzielgruppe. Wer Pipelines baut und Datenqualität automatisiert in CI/CD prüfen will, bekommt mit Soda Core ein Werkzeug, das sich gut in bestehende Orchestrierung (Airflow, dbt, dagster) einfügt und Regeln versionierbar als YAML ablegt.
Migrationsprojekte: Die stärkste Nische. Die Reconciliation-Checks vergleichen Quell- und Zielsystem zeilen- und wertegenau. Bei Datenbankmigrationen oder Replikations-Setups ersetzt das fehleranfällige manuelle Stichproben durch reproduzierbare Tests.
Analytics-Engineers ohne Python-Fokus: Wer lieber deklarativ in YAML beschreibt, was korrekt ist, statt imperativen Testcode zu schreiben, findet Soda zugänglicher als Great Expectations. Die Einstiegshürde liegt bei der Syntax niedriger.
Teams mit Datenschutz-Anforderungen: Da Soda die eigentlichen Rohdaten in deiner Umgebung scannt und nur Metadaten und Prüfergebnisse an Soda Cloud sendet, ist die Architektur für sensible Datenbestände interessanter als reine Ingest-SaaS-Tools.
Weniger geeignet für: Teams ohne Engineering-Ressourcen, die eine fertige Klick-UI erwarten; Projekte mit anspruchsvoller statistischer Anomalieerkennung; und alle, die deutschsprachigen Support oder eine reine No-Code-Lösung brauchen.
Preise im Detail
| Plan | Preis | Was du bekommst |
|---|---|---|
| Soda Core (Open Source) | 0 USD | Vollständiges CLI- und Python-Framework unter Apache 2.0, alle Checks, selbst betreibbar, keine UI |
| Soda Cloud Free | 0 USD | Kostenlose Soda Processing Units (SPUs), Pipeline-Testing, Metrik-Observability, Alerting- und Ticketing-Integrationen, keine Kreditkarte nötig |
| Soda Cloud Team | 750 USD/Monat | Alles aus Free, unbegrenzte Nutzer, Pay-as-you-go-SPUs, Katalog-Integrationen, kollaborative Data Contracts, No-Code-Oberfläche, KI-gestützte Datenqualität, Audit-Logs mit RBAC, Private Deployment, SSO, Premium-Support |
| Soda Cloud Enterprise | Auf Anfrage | Erweiterte Zusammenarbeit, individuelle Konditionen, Demo erforderlich |
Einordnung: Der Open-Source-Core kostet nichts und reicht für viele technische Teams, die ihre Checks in YAML schreiben und in der Pipeline ausführen, völlig aus, hier liegt der eigentliche Wert des Produkts. Der Soda-Cloud-Free-Plan ist ein guter Einstieg, um die verwaltete Oberfläche mit kostenlosen SPUs auszuprobieren. Der Sprung zum Team-Plan für 750 USD/Monat ist allerdings steil: Es gibt dazwischen keinen günstigen Mittelweg, entweder du betreibst alles selbst kostenlos, oder du zahlst gleich vierstellig pro Jahr. Für kleine Teams ist das eine harte Schwelle. Die SPU-basierte Abrechnung macht die tatsächlichen Kosten zudem schwer vorhersehbar, hier solltest du vor einer Buchung eine konkrete Mengenkalkulation mit dem Vertrieb durchgehen. Jahresabrechnung und Mengenrabatte sind verfügbar.
Stärken im Detail
YAML statt Code senkt die Einstiegshürde. Qualitätsregeln wie missing_count(email) = 0 oder duplicate_count(order_id) = 0 sind selbsterklärend und auch für nicht-programmierende Teammitglieder lesbar und prüfbar. Im Vergleich zu Great Expectations, das stark auf Python setzt, ist das ein echter Zugänglichkeitsvorteil, besonders in gemischten Teams aus Engineers und Analysten.
Reconciliation-Checks sind die Killer-Funktion. Soda stellt zwei Datenquellen direkt gegenüber, Quelle gegen Ziel, und meldet Abweichungen in Zeilenzahl, Werten oder Aggregaten. Bei Datenbankmigrationen, ETL-Umbauten oder Replikations-Setups ersetzt das manuelle SQL-Vergleiche, die fehleranfällig und kaum reproduzierbar sind. Diese Funktion gibt es bei vielen Wettbewerbern nicht out-of-the-box.
Breite Warehouse-Unterstützung. Soda spricht Snowflake, BigQuery, Databricks, PostgreSQL, Redshift, MySQL, Spark, Presto und DuckDB an. Du bist nicht an ein Ökosystem gebunden und kannst dieselbe Check-Logik über heterogene Quellen anwenden.
Echtes Open Source, kein Lock-in. Soda Core steht unter Apache 2.0. Du kannst es vollständig selbst betreiben, in jede Pipeline einbauen und versionieren, ohne je einen Vertrag zu unterschreiben. Das ist eine ehrliche Open-Core-Basis, kein zeitlich begrenztes Trial.
Datenschutz-freundliche Architektur. Die Rohdaten werden in deiner eigenen Umgebung gescannt, nur Metadaten und Prüfergebnisse verlassen sie Richtung Soda Cloud. Das reduziert das Datenschutzrisiko deutlich gegenüber Tools, die Daten zur Verarbeitung hochladen.
Schwächen ehrlich betrachtet
Der v4-Umbau erzwingt Migration. Soda hat sich mit Version 4 von einer CLI-zentrierten Check-Engine zu einer observability-getriebenen Plattform mit Data Contracts gewandelt. Bestehende v3-Checks müssen angepasst werden, und Teile der freien Funktionalität wandern erkennbar Richtung kostenpflichtige Cloud. Wer eine stabile, eingefrorene CLI erwartet, sollte den Versionswechsel sorgfältig planen.
Keine UI im kostenlosen Core. Der Open-Source-Core ist reines CLI und YAML. Visualisierungen, Dashboards, Alerting und Kollaboration gibt es erst in Soda Cloud, und damit erst ab dem Free-Plan beziehungsweise produktiv ab Team. Für nicht-technische Stakeholder, die Ergebnisse im Browser sehen wollen, reicht der Core allein nicht.
Harte Preisschwelle. Zwischen kostenlos und 750 USD/Monat liegt nichts. Ein kleines Team, das etwas mehr als der Free-Plan braucht, hat keinen günstigen Zwischenschritt. Das macht Soda Cloud für Startups und kleine Datenteams unattraktiv, sobald die Free-Limits erreicht sind.
Schwächer bei statistischer Anomalieerkennung. Für komplexe statistische Erwartungen, Verteilungstests und ausgefeilte Anomalie-Profile ist Great Expectations reifer. Soda deckt die gängigen Fälle gut ab, stößt bei datenwissenschaftlich anspruchsvollen Szenarien aber früher an Grenzen. Workaround: Soda für die Pipeline-Validierung, ein spezialisiertes Tool für tiefe statistische Analysen.
Kein deutscher Support. Dokumentation, Community und Support sind ausschließlich englischsprachig. Für deutsche Teams ohne Englisch-Affinität ist das eine reale Hürde, gerade beim Onboarding und bei der Fehlersuche.
Alternativen im Vergleich
| Wenn du… | …nimm stattdessen |
|---|---|
| Anspruchsvolle statistische Anomalieerkennung in Python brauchst | |
| Datenqualitätstests direkt in deine dbt-Modelle integrieren willst | |
| Eine breite Datenplattform mit Transformation und Qualität suchst |
Erwähnenswert, ohne dass wir sie hier verlinken: Monte Carlo und Bigeye sind kommerzielle Data-Observability-Plattformen mit stärkerem Fokus auf automatische Anomalieerkennung, allerdings deutlich teurer und proprietär. Wer ohnehin in dbt lebt, deckt einfache Tests oft schon mit dbt-eigenen Mitteln ab und braucht Soda erst, wenn Reconciliation oder eine eigenständige Qualitätsschicht ins Spiel kommt. Soda spielt seine Stärke vor allem dort aus, wo Migrationen und Quelle-Ziel-Vergleiche im Mittelpunkt stehen.
So steigst du ein
Schritt 1: Installiere Soda Core per pip für deine Datenquelle, zum Beispiel pip install -i https://pypi.cloud.soda.io soda-postgres (oder soda-snowflake, soda-bigquery etc.). Richte eine configuration.yml mit den Verbindungsparametern ein.
Schritt 2: Erstelle eine checks.yml mit deinen ersten Qualitätsregeln, etwa missing_count(email) = 0 oder duplicate_count(order_id) = 0. Für Migrationsprojekte definierst du Reconciliation-Checks, die Quell- und Zieldatenbank direkt vergleichen.
Schritt 3: Führe soda scan -d your_datasource -c configuration.yml checks.yml aus. Soda Core zeigt pro Prüfung PASS/FAIL mit konkreten Abweichungswerten. Plane regelmäßige Scans in deiner CI/CD-Pipeline oder deinem Scheduler ein und lass fehlgeschlagene Checks den Build blockieren.
Ein konkretes Beispiel
Ein Versicherungsunternehmen migriert seine Kundendatenbank von SQL Server zu PostgreSQL. Das Data-Engineering-Team definiert 45 Soda-Checks für die 12 wichtigsten Tabellen: Kundennummern eindeutig und vollständig, Vertragsbeträge im gleichen Wertebereich, Policennummern referentiell integer, dazu Reconciliation-Checks, die Zeilenzahl und Summen zwischen Quelle und Ziel abgleichen. Beim ersten Test schlagen 8 Checks fehl, darunter ein systematischer Encoding-Fehler bei Umlauten in Kundennamen, der manuell unentdeckt geblieben wäre. Die Behebung dauert einen Tag. Ohne automatisierte Tests wäre der Fehler erst in der Produktion aufgefallen, dann mit deutlich höherem Aufwand und Risiko. Die Checks bleiben anschließend als Regressionsschutz in der Pipeline.
DSGVO & Datenschutz
- Anbieter: Soda Data, ursprünglich aus Belgien (Brüssel) stammend, mit Präsenz in den USA. Soda Core selbst läuft vollständig in deiner eigenen Umgebung.
- Architektur: Die Rohdaten werden in deiner Infrastruktur gescannt, nur Metadaten und Prüfergebnisse werden an Soda Cloud übertragen. Das reduziert das Datenschutzrisiko erheblich gegenüber Tools, die Daten zur Verarbeitung hochladen.
- Zertifizierungen: Soda hat eine SOC-2-Type-II- und SOC-3-Prüfung für den Zeitraum April 2025 bis März 2026 mit cleaner Opinion abgeschlossen. Das Trust Center nennt zudem GDPR- und DORA-Compliance.
- Auftragsverarbeitung (AVV/DPA): Ein Data Processing Agreement ist über das Trust Center verfügbar. Für den produktiven Einsatz mit personenbezogenen Daten solltest du es vor Vertragsabschluss prüfen.
- Hosting-Region: Die konkrete Hosting-Region von Soda Cloud ist öffentlich nicht eindeutig dokumentiert. Da der Open-Source-Core ohnehin lokal läuft, ist die Frage für reine Core-Nutzer nachrangig; für Cloud-Nutzer mit strengen Residenz-Anforderungen direkt beim Anbieter klären.
- Empfehlung für Unternehmen: Für DSGVO-sensible Branchen ist die Core-only-Variante (Daten bleiben lokal) der konservativste Weg. Wer Soda Cloud nutzt, sollte DPA und Hosting-Region vor dem Rollout schriftlich bestätigen lassen.
Gut kombiniert mit
, Soda prüft die Datenqualität, dbt übernimmt die Transformation. Soda-Checks laufen vor oder nach dbt-Runs in derselben Pipeline und sichern die Modelle gegen fehlerhafte Eingangsdaten ab. , als Datenplattform liefert Databricks die Warehouses und Spark-Quellen, gegen die Soda seine Checks ausführt. Die Kombination deckt Verarbeitung und Qualitätssicherung an einem Ort ab. , für die Fälle, in denen Soda an statistische Grenzen stößt: Great Expectations übernimmt die tiefe, datenwissenschaftliche Validierung, Soda die pipeline-nahe Routineprüfung und Reconciliation.
Unser Testurteil
Soda Core verdient 3 von 5 Sternen. Als kostenloses, quelloffenes Werkzeug für Datenqualität ist es ehrlich gut: lesbare YAML-Checks, breite Warehouse-Unterstützung und mit den Reconciliation-Checks eine Funktion, die in Migrationsprojekten echten Wert schafft. Punkte kostet die Strategie um Version 4: Der Fokus wandert spürbar zur kostenpflichtigen Cloud, der Versionswechsel erzwingt Migrationen, und zwischen kostenlosem Core und dem 750-USD-Team-Plan klafft eine harte Lücke ohne günstigen Mittelweg. Dazu fehlen deutscher Support und, im freien Core, jede UI. Für technische Teams mit klarem Reconciliation- oder Pipeline-Use-Case ist Soda eine überzeugende, kostenlose Basis. Für alle, die eine fertige UI, statistische Tiefe oder einen sanften Preispfad erwarten, ist es nur die zweite Wahl.
Was wir bemerkt haben
- 2026 — Mit Soda v4 hat sich das Produkt von einer CLI-zentrierten Check-Engine zu einer observability-getriebenen Plattform mit Data Contracts gewandelt. Bestehende v3-Checks müssen migriert werden, und ein Teil der Funktionalität wandert erkennbar Richtung kostenpflichtiger Soda Cloud.
- Juni 2026 — Der Soda-Cloud-Team-Plan liegt bei 750 USD/Monat mit SPU-basierter Abrechnung. Zwischen dem kostenlosen Free-Plan und diesem vierstelligen Jahresvertrag gibt es keinen Zwischenschritt, eine spürbare Hürde für kleine Teams.
- 2025/26 — Soda hat eine SOC-2-Type-II- und SOC-3-Prüfung mit cleaner Opinion abgeschlossen und weist GDPR- sowie DORA-Compliance aus. Für regulierte Branchen ist das ein relevantes Signal, auch wenn die konkrete Cloud-Hosting-Region öffentlich nicht eindeutig dokumentiert ist.
- Juni 2026 — Soda positioniert sich in der Außendarstellung zunehmend als “AI-native” Datenqualitätsplattform. Die KI-gestützten Funktionen stecken jedoch in den kostenpflichtigen Cloud-Plänen, der quelloffene Core bleibt das klassische, deterministische Check-Framework.
Quellen
- Soda – Pricing. https://www.soda.io/pricing (abgerufen am 2026-06-13). Free-Plan 0 USD (kostenlose SPUs, keine Kreditkarte), Team-Plan 750 USD/Monat (unbegrenzte Nutzer, Pay-as-you-go-SPUs, Data Contracts, RBAC, SSO, Private Deployment), Enterprise auf Anfrage.
- Soda – Dokumentation (v4). https://docs.soda.io/ (abgerufen am 2026-06-13). Soda v4: Open-Source-Python-Bibliothek und CLI für Data Contracts; Schema-Validierung, Werteprüfung, Freshness, Row-Counts, Null-Checks; unterstützt Databricks, Snowflake, BigQuery, Redshift, PostgreSQL, MySQL, Spark, Presto, DuckDB.
- Soda – Trust Center. https://trust.soda.io/ (abgerufen am 2026-06-13). SOC 2 Type II und SOC 3 für 04/2025 bis 03/2026 mit cleaner Opinion; GDPR- und DORA-Compliance; Data Processing Agreement (DPA) verfügbar.
Diesen Inhalt teilen:
Arthur Atlas
KI-Analyst
So entsteht diese Bewertung
Diese Seite bewerten wir redaktionell, mit kräftiger Unterstützung von Arthur Atlas, unserem KI-Analysten. Er prüft Bewertungen nach und markiert veraltete Angaben, sobald sich der Markt dreht. Unsere Angaben stammen überwiegend aus öffentlich zugänglichen Quellen wie Anbieter-Website, Doku und Preislisten. Preise und Funktionen können sich ändern.
Hinweis: Diese Angaben können veraltet oder fehlerhaft sein. Prüfe im Zweifel immer direkt auf der Website des Anbieters.
Preise geändert, Feature veraltet oder etwas fehlt?
Wir freuen uns über Hinweise und Ergänzungen.
Du arbeitest bei Soda Data?
Gib uns einen Testzugang, dann schauen wir tiefer rein und ergänzen die Bewertung aus erster Hand.
Nicht sicher, ob Soda Core zu euch passt?
Wir helfen bei der Tool-Auswahl und begleiten die Einführung in euren Arbeitsalltag, unverbindlich und kostenlos im Erstgespräch.
KI-Tools und Trends
KI-Wochenbriefing: jeden Freitag KI-News, Praxistipps und Tools
Kostenlos abonnieren, jederzeit abmeldbar, kein Spam.