Soda Core ist ein Open-Source-Framework für Datenqualitätsprüfungen, das Qualitätsregeln als YAML-Dateien definiert — einfacher lesbar als Python-Code. Es unterstützt über 50 built-in Checks und direkte Reconciliation-Tests zwischen zwei Datenquellen, was es besonders für Migrationsprojekte geeignet macht.
Kosten: Soda Core (Open Source, Apache 2.0) kostenlos. Soda Cloud (verwalteter Dienst mit UI, Benachrichtigungen, Team-Features) ab ca. 700 USD/Monat; Preise abhängig von Datenquellen und Nutzeranzahl
Stärken
- YAML-basierte Checks: zugänglicher als Python-Code für Teams ohne Programmiererfahrung
- 50+ eingebaute Prüfungen: Nullquoten, Duplikate, Werteverteilungen, referentielle Integrität
- Reconciliation Checks: direkte Gegenüberstellung zweier Datenquellen (Quelle vs. Ziel) out-of-the-box
- Unterstützt alle wichtigen Warehouses: Snowflake, BigQuery, Databricks, PostgreSQL, SQL Server, Redshift
- Soda Core vollständig open-source unter Apache 2.0
Einschränkungen
- Kein deutschsprachiger Support
- Soda Core 4.0 hat die Syntax auf Data Contracts umgestellt — ältere Checks müssen migriert werden
- Keine grafische UI in der kostenlosen Version — ausschließlich CLI und YAML
- Für komplexe statistische Anomalieerkennung weniger geeignet als Great Expectations
Passt gut zu
So steigst du ein
Schritt 1: Installiere Soda Core per pip für deine Datenquelle: pip install -i https://pypi.cloud.soda.io soda-postgres (oder soda-snowflake, soda-bigquery etc.). Richte eine configuration.yml mit den Verbindungsparametern ein.
Schritt 2: Erstelle eine checks.yml mit deinen ersten Qualitätsregeln — zum Beispiel missing_count(email) = 0 oder duplicate_count(order_id) = 0. Für Migrationsprojekte: definiere Reconciliation-Checks, die Quell- und Zieldatenbank direkt vergleichen.
Schritt 3: Führe soda scan -d your_datasource -c configuration.yml checks.yml aus. Soda Core zeigt pro Prüfung PASS/FAIL mit konkreten Abweichungswerten. Plane regelmäßige Scans in deiner CI/CD-Pipeline oder deinem Scheduler ein.
Ein konkretes Beispiel
Ein Versicherungsunternehmen migriert seine Kundendatenbank von SQL Server zu PostgreSQL. Das Data-Engineering-Team definiert 45 Soda-Checks für die 12 wichtigsten Tabellen: Kundennummern eindeutig und vollständig, Vertragsbeträge im gleichen Wertebereich, Policennummern referentiell integer. Beim ersten Test schlagen 8 Checks fehl — darunter ein systematischer Encoding-Fehler bei Umlauten in Kundennamen, der manuell unentdeckt geblieben wäre. Behebung dauert einen Tag; ohne automatisierte Tests wäre der Fehler erst in der Produktion aufgefallen.
Diesen Inhalt teilen:
Empfohlen in 1 Use Cases
IT & Software
Redaktionell bewertet · Preise und Funktionen können sich ändern.
Stimmt etwas nicht?
Preise geändert, Feature veraltet oder etwas fehlt? Wir freuen uns über Hinweise und Ergänzungen.
Nicht sicher, ob Soda Core zu euch passt?
Wir helfen bei der Tool-Auswahl und begleiten die Einführung in euren Arbeitsalltag — unverbindlich und kostenlos im Erstgespräch.
Weitere Tools
Apache Airflow
Apache Software Foundation
Open-Source-Standard für Workflow-Orchestrierung. Definiert Datenpipelines und ML-Trainingsabläufe als Python-DAGs, plant sie zeitgesteuert oder ereignisbasiert und überwacht jeden Lauf. Mit Airflow 3.0 (April 2025) hat das Projekt einen großen Architektur-Sprung mit DAG-Versionierung, neuer React-UI und Asset-basiertem Scheduling vollzogen.
Mehr erfahrenDatabricks
Databricks Inc.
Databricks ist die Lakehouse-Plattform, die Data Engineering, Analytics und KI in einem System verbindet. Auf Apache Spark, Delta Lake und Unity Catalog aufgebaut, mit der Mosaic-AI-Übernahme um eigene LLM-Trainings- und Serving-Werkzeuge erweitert. Der De-facto-Standard für Konzern-Data-Teams — mit allen Vor- und Nachteilen einer Plattform, die für Großkunden gebaut wurde.
Mehr erfahrenDatafold
Datafold Inc.
Datafold automatisiert die Validierung von Datenbankmigrationen durch KI-gestützte SQL-Übersetzung und cross-database Diffing. Der Datafold Migration Agent konvertiert SQL-Code zwischen Dialekten und prüft automatisch Datenparität zwischen Quell- und Zielsystem auf Zeilenebene — ohne manuelle Stichproben.
Mehr erfahren