Great Expectations (GX Core) ist das meistgenutzte Open-Source-Framework für Datenqualitätsprüfungen. Es verbindet sich mit SQL-Datenbanken, DataFrames und Cloud-Speichern, definiert Qualitätsregeln als 'Expectations' und erstellt automatisch HTML-Berichte — ideal für Teams, die Datenqualität in ERP-nahen Pipelines systematisch messen wollen.
Kosten: GX Core ist Apache-2.0-lizenziert und dauerhaft kostenlos. GX Cloud (verwalteter Dienst mit UI und Collaboration) ab ca. 500 USD/Monat.
Stärken
- Kostenlos und Open Source: kein Vendor-Lock-in, läuft on-premises oder in eigener Cloud
- SQL-Kompatibilität: verbindet sich direkt mit PostgreSQL, SQL Server, MySQL — also auch mit ERP-Datenbankschichten
- Automatische Profiling-Berichte: einmalige Ausführung erstellt Verteilungsstatistiken je Spalte, Nullquoten, Werteverteilungen
- Deklarative Regelsprache: Qualitätserwartungen als Code — wiederholbar, versionierbar, automatisierbar
- Aktive Community: ca. 9.000 GitHub-Stars, regelmäßige Updates, viele ERP-spezifische Beispiele in der Dokumentation
Einschränkungen
- Kein Deutsch-Support und keine deutsche UI
- Erfordert Python-Kenntnisse und Zugang zur ERP-Datenbank (kein Click-and-go)
- Für Nicht-Entwickler ohne Middleware oder IT-Unterstützung nicht direkt nutzbar
- GX Cloud (verwaltete Version mit Web-UI) ist kostenpflichtig
Passt gut zu
So steigst du ein
Schritt 1: Installiere GX Core per pip: pip install great_expectations. Richte eine Data Source ein, die auf deine ERP-Datenbank zeigt (PostgreSQL, SQL Server oder MySQL — dafür benötigst du Lesezugang zur Datenbank-Layer des ERP).
Schritt 2: Führe ein automatisches Profiling auf einer Stammdatentabelle durch — z.B. der Artikelstamm-Tabelle. GX Core liefert dir innerhalb von Minuten eine HTML-Übersicht mit Null-Quoten, Werteverteilungen und Inkonsistenz-Indikatoren je Spalte.
Schritt 3: Definiere Qualitätsregeln als Expectations (z.B. “Lieferanten-Steuernummer darf nicht NULL sein”, “Kostenstelle muss im definierten Wertebereich liegen”) und plane tägliche oder wöchentliche Ausführung über einen Scheduler. Abweichungen landen in einem HTML-Report, den du als E-Mail-Anhang versenden kannst.
Ein konkretes Beispiel
Ein produzierendes Unternehmen mit 450 Mitarbeitenden möchte vor der Umstellung auf SAP S/4HANA wissen, wie sauber die Stammdaten im Altsystem sind. Der IT-Verantwortliche setzt GX Core auf einem lokalen Python-Server auf, verbindet es mit der ERP-Datenbank über ODBC und lädt das Ergebnis des ersten Profilings als HTML-Bericht in Teams. Ergebnis: 12% der Artikelstammsätze haben keine Maßeinheit, 8% der Lieferanten fehlt eine gültige USt-IdNr. Das Bereinigungsprojekt dauert 3 Wochen — statt erst im Migrationsprojekt den Crash zu entdecken.
Diesen Inhalt teilen:
Empfohlen in 1 Use Cases
Branchenübergreifend
Redaktionell bewertet · Preise und Funktionen können sich ändern.
Stimmt etwas nicht?
Preise geändert, Feature veraltet oder etwas fehlt? Wir freuen uns über Hinweise und Ergänzungen.