Architektur & Bauwesen instandhaltungkostenanomalie

Instandhaltungskosten-Anomalieerkennung

KI vergleicht Instandhaltungsausgaben über ein Immobilienportfolio und kennzeichnet Rechnungen, die vom Benchmark für vergleichbare Objekte deutlich abweichen — bevor sie bezahlt werden.

Worum geht's?

Es ist der 12. März, 10:47 Uhr.

Stefan Reimer, Facility-Manager bei einer mittelgroßen Wohnungsbaugesellschaft in Nordrhein-Westfalen, arbeitet sich durch die Rechnungen für das erste Quartal. 340 Einheiten, 18 Dienstleister, Rechnungen für alles von der Dachrinnenreinigung bis zur Heizungsinspektion. Er prüft stichprobenartig: Eine Rechnung für Sanitärarbeiten in Gebäude 4 liegt bei 2.840 Euro. Klingt plausibel. Die für Gebäude 17 bei 2.950 Euro. Auch plausibel. Die für Gebäude 9 bei 4.720 Euro — für dieselbe Leistung. Stefan macht eine Notiz: „Nachfragen”, und geht weiter. Die Notiz landet im nächsten Quartals-Review. Der Review wird auf den übernächsten verschoben.

Sechs Monate später bezahlt die Gesellschaft die vierte Rechnung desselben Dienstleisters zu diesem Preis, ohne dass jemand geprüft hat, warum Gebäude 9 systematisch 60 Prozent teurer ist als die vergleichbaren Gebäude im selben Bestand.

Das ist kein Einzelfall. In jedem Portfolio mit mehr als 50 Einheiten passiert das an mehreren Stellen gleichzeitig — nicht weil Stefan seinen Job nicht macht, sondern weil ein Mensch gar nicht alle Preise und Muster im Kopf halten kann, die nötig wären, um Abweichungen zuverlässig zu erkennen.

Das echte Ausmaß des Problems

Instandhaltungskosten sind der größte variable Kostenblock in jedem Immobilienportfolio. Laut den deutschen Bewirtschaftungskosten-Ansätzen für 2024 (Sprengnetter/Sachwertrichtlinie) liegen die normativen Instandhaltungskosten für Wohngebäude bei 13,80 Euro pro Quadratmeter Wohnfläche und Jahr — ein Portfolio mit 1.000 Einheiten zu je 70 m² hat damit ein jährliches Instandhaltungsvolumen von etwa 966.000 Euro. In der Praxis schwankt dieser Wert je nach Gebäudealter, Zustand und Marktregion um 40–80 Prozent nach oben und unten.

Genau in dieser Schwankungsbreite verbergen sich die Anomalien:

Systematisch überhöhte Preise bei einzelnen Dienstleistern oder Vertragsklassen, die im Einzelfall unauffällig, im Portfolio-Vergleich aber klar erkennbar wären
Doppeleinreichungen derselben Rechnung in leicht abgewandelter Form — unterschiedliche Rechnungsnummern, leicht verschobenes Datum, leicht geänderter Beschreibungstext
Scope Creep: Leistungspositionen in einer Rechnung, die über den vereinbarten Auftrag hinausgehen, ohne dass eine Nachtragsvereinbarung vorliegt
Leistungsabgrenzungsbetrug: Instandhaltungsleistungen, die als modernisierende Maßnahmen abgerechnet werden (mit anderem Umlagerecht)

Die manuelle Kontrolle dieser Muster ist realistisch nicht machbar. Facility-Manager berichten in der Fachpresse, dass selbst bei disziplinierter Rechnungskontrolle nur 5–15 Prozent der eingehenden Rechnungen tiefergehend geprüft werden — der Rest fließt durch, solange der Betrag in den erwarteten Rahmen fällt. Laut VDIV (Verband der Immobilienverwalter Deutschland) erreichen Wohnungsunternehmen mit aktivem Betriebskosten-Management typischerweise nur 1 Prozent jährliche Kostensenkung gegenüber dem allgemeinen Kostenanstieg von 2,5 Prozent — ein Hinweis darauf, wie viel Potenzial in der Praxis ungenutzt bleibt.

Mit vs. ohne KI — ein ehrlicher Vergleich

Kennzahl	Ohne KI-Unterstützung	Mit Anomalieerkennung
Anteil geprüfter Rechnungen	5–15 % (Stichproben)	100 % (automatisches Scanning)
Erkennungsquote Doppeleinreichungen	Hängt von Aufmerksamkeit ab	>95 % durch Hash-Vergleich und Fuzzy Matching
Erkennungsquote Preisausreißer	Kaum systematisch möglich	80–90 % — sofern Benchmark-Daten vollständig
Zeit für Rechnungskontrolle pro Woche	3–6 Stunden (Facility-Manager)	0,5–1 Stunde (nur markierte Rechnungen prüfen)
Reaktionszeit bei erkannter Anomalie	Wochen bis Monate	Vor Zahlungsfreigabe — bei Integration in AP-Workflow
Nachweis gegenüber Dienstleister	Bauchgefühl, unstrukturiert	Benchmarkvergleich mit konkreten Referenzwerten

Ein wichtiger Unterschied zum Selbstverständnis vieler Property-Manager: Das System ersetzt nicht die Entscheidung, es bereitet sie vor. Eine markierte Rechnung zahlt das System nicht automatisch zurück — es stellt sie in eine Prüfwarteschlange, sodass ein Mensch mit dem richtigen Kontext entscheidet.

Einschätzung auf einen Blick

Zeitersparnis — hoch (4/5) Facility-Manager verbringen zwei bis vier Stunden wöchentlich mit manueller Rechnungskontrolle, Stichproben und dem Nachvollziehen von Preisabweichungen. Die Anomalieerkennung reduziert diesen Aufwand drastisch: Statt alle Rechnungen zu sichten, wird nur noch eine deutlich kleinere Treffermenge geprüft — typisch 3–8 Prozent aller Rechnungen erhalten einen Anomalie-Flag, der restliche Stapel kann ohne manuelle Prüfung freigegeben werden. Nicht ganz auf 5 bewertet, weil die initiale Einrichtung und laufende Modellpflege Zeit binden.

Kosteneinsparung — hoch (4/5) Dies ist der stärkste Hebel dieses Anwendungsfalls: Jede nach Prüfung korrigierte Rechnung ist ein direkt messbarer Einsparungsbetrag. In der Praxis berichten FM-Dienstleister von 1–4 Prozent recoverbaren Rechnungsbeträgen bei konsequenter Anomalieerkennung — bei einem Portfolio mit 600.000 Euro Jahres-Instandhaltungsvolumen sind das 6.000 bis 24.000 Euro im Jahr. Keine theoretische Zeitersparnis, sondern bares Geld. Nicht auf 5, weil koordinierter Lieferantenbetrug (Typ 3, siehe unten) mit rein statistischen Methoden nur schwer zu fassen ist.

Schnelle Umsetzung — niedrig (2/5) Der Bottleneck ist nicht die Software, sondern die Daten. Für ein aussagekräftiges Benchmarking-Modell braucht es mindestens zwei bis drei Jahre bereinigter Rechnungshistorie, konsistent nach Objekttyp, Leistungsart und Gewerk kodiert. In der Praxis müssen Rechnungsdaten oft aus mehreren Systemen zusammengeführt, Kategorisierungen vereinheitlicht und Objekte nach vergleichbaren Merkmalen klassifiziert werden. Realistisch vergehen 10–14 Wochen bis zum ersten funktionsfähigen Piloten. Wer das unterschätzt, bricht das Projekt in der Datenaufbereitungsphase ab.

ROI-Sicherheit — hoch (4/5) Im Vergleich zu vielen anderen KI-Anwendungen ist die ROI-Messung hier ungewöhnlich direkt: Jede durch das System markierte und nach Prüfung korrigierte Rechnung erzeugt einen dokumentierten Einsparungsbetrag. Audit-Trail, Vergleichswert und Recovery-Betrag liegen im System vor. Das macht es einfach, Vorstand oder Eigentümer zu überzeugen. Nicht auf 5, weil die erste Pilotphase oft ein Lernprozess ist und die Treffgenauigkeit des Modells erst nach 6–12 Monaten Betrieb stabil wird.

Skalierbarkeit — hoch (4/5) Das Modell wird mit jedem neuen Objekt besser: Mehr Vergleichswerte bedeuten eine präzisere Benchmark-Grundlage und niedrigere Fehlerquoten. Für Unternehmen, die ihr Portfolio durch Zukäufe erweitern, ist das ein echtes strukturelles Plus — neue Objekte werden sofort in den Benchmarking-Kontext eingebettet. Nicht ganz maximal bewertet, weil stark heterogene Portfolios (Gewerbe + Wohnen + Spezialimmobilien) separate Benchmarking-Modelle benötigen, was den Konfigurationsaufwand multipliziert.

Richtwerte — stark abhängig von Portfoliogröße, Datenhistorie und Homogenität des Bestands.

Was das System konkret macht

Die technische Grundlage ist Predictive Analytics auf Kostenzeitreihen — kein komplexes Machine Learning-Modell mit schwarzer Box, sondern im Kern statistisches Benchmarking mit transparenten Vergleichsregeln:

Schritt 1: Datenbasis aufbauen. Alle Rechnungen der letzten zwei bis drei Jahre werden normalisiert: Objekte werden nach Baujahr, Typ (EFH, MFH, Gewerbe), Lage (PLZ-Cluster oder Regionalkategorie) und Fläche klassifiziert. Leistungsarten werden auf standardisierte Kategorien gemappt (z.B. alle Varianten von “Dachrinnenreinigung” auf ein einheitliches Kürzel).

Schritt 2: Benchmark-Verteilung berechnen. Für jede Kombination aus Objektklasse und Leistungsart berechnet das System eine Kostenverteilung — typisch mit Median, 75. Perzentil und einem oberen Schwellenwert (z.B. 90. oder 95. Perzentil). Rechnungen, die oberhalb dieses Schwellenwerts liegen, werden als Ausreißer markiert.

Schritt 3: Regelbasierte Duplikatprüfung. Parallel läuft eine harte Prüfung: Gleiche Rechnung (Betrag + Dienstleister + Objekt + Zeitraum) in einem definierten Zeitfenster zweimal eingegangen? Flaggen. Leicht abweichender Betrag (±5%), gleicher Dienstleister, gleicher Zeitraum? Auch flaggen, Fuzzy-Match-Score sichtbar machen.

Schritt 4: Alert-Workflow. Markierte Rechnungen landen in einer Prüfwarteschlange — mit dem Benchmarkwert, dem Abweichungsprozentsatz und einer Begründung. Der Facility-Manager sieht nicht nur “auffällig”, sondern auch: “Diese Rechnung liegt 68 % über dem Median vergleichbarer Objekte des gleichen Baujahrs in dieser Region.”

Was das System nicht leistet: Es erkennt keine inhaltlichen Leistungsmängel (“die Arbeit wurde gar nicht ausgeführt”), keine komplex verschleierten Kickback-Strukturen und keine Vergaberechtsverstöße. Dafür braucht es entweder physische Begehung oder spezialisierte Forensik — mehr dazu im folgenden Abschnitt.

Drei Anomalietypen — und was die KI davon wirklich erkennt

Die häufigste Enttäuschung bei der Einführung: Property-Manager erwarten, dass das System “Betrug erkennt” — und sind überrascht, wenn bestimmte Probleme trotzdem durchkommen. Das liegt daran, dass es im Facility Management drei strukturell verschiedene Anomalietypen gibt, die jeweils unterschiedlich schwer zu erkennen sind.

Typ 1: Preisanomalien — KI erkennt das gut

Hierzu zählen: systematisch überhöhte Stunden- oder Materialsätze, Zuschläge ohne vertragliche Grundlage, deutlich über Benchmark liegende Pauschalpreise für Standardleistungen. Diese Anomalien sind statistisch gut detektierbar, weil die Abweichung im direkten Vergleich mit vergleichbaren Objekten sichtbar wird. Erkennungsquoten von 80–90 % sind in der Praxis erreichbar — vorausgesetzt, die Benchmark-Datengrundlage ist sauber.

Typ 2: Leistungsüberfakturierung (Scope Creep) — KI erkennt das teilweise

Hier werden Leistungen abgerechnet, die nicht beauftragt wurden, oder ein vereinbarter Auftrag wird durch zusätzliche Positionen aufgebläht. Das KI-System kann auffällige Preispositionen erkennen (“Diese Leistungsposition taucht bei diesem Dienstleister systematisch auf, bei keinem anderen”), aber ohne Abgleich mit dem ursprünglichen Auftragszettel kann es nicht unterscheiden, ob die Position legitim ist. Ein CAFM-System, das Auftragsmanagement und Rechnungsprüfung verbindet, löst dieses Problem — eine reine Kostenanalyse nicht. Das ist der häufigste Grund, warum Leistungsüberfakturierung trotz Anomalieerkennung lange unentdeckt bleibt.

Typ 3: Koordinierter Lieferantenbetrug — KI erkennt das kaum

Der häufigste Fall: Zwei oder mehr Beteiligte (Dienstleister + interner Mitarbeiter, der Rechnungen freigibt) koordinieren sich. Die Rechnungen sind in sich stimmig, die Preise bewegen sich im plausiblen Rahmen, aber ein Teil des Geldes fließt zurück (Kickbacks). Statistische Kostenanomalien zeigen sich hier nicht oder nur mit erheblicher Verzögerung. Wer koordinierten Betrug aufdecken will, braucht Netzwerkanalyse (wer hat welche Rechnungen über welche Zeiträume freigegeben?) und verhaltensbasierte Muster — Werkzeuge, die weit über das Benchmarking hinausgehen. Das ist kein Argument gegen Anomalieerkennung, aber ein Argument dafür, realistische Erwartungen zu setzen.

Praktische Konsequenz: Ein gut eingerichtetes Benchmarking-System erkennt Typ 1 sehr gut, Typ 2 eingeschränkt, Typ 3 kaum. Wer Typ 2 und 3 ernsthaft adressieren will, braucht zusätzlich ein Auftragsmanagement-System (für den Abgleich von Auftrag und Rechnung) und separate Zugriffskontrollen im Freigabeprozess — keine reine Kostenanomalie-Lösung.

Konkrete Werkzeuge — was wann passt

Die Bandbreite der verfügbaren Lösungen ist groß und hängt stark von Portfoliogröße und vorhandener Infrastruktur ab.

Planon — für große FM-Organisationen mit IWMS-Bedarf

Das Enterprise-CAFM mit integriertem Cost-Benchmarking und Spend-Analytics. Planon verbindet Auftragsmanagement, Dienstleistersteuerung und Rechnungsprüfung in einem System — das ermöglicht auch Typ-2-Anomalien (Scope-Abgleich) zu erkennen. Implementierungsprojekte dauern typisch 6–18 Monate, Kosten 50.000–300.000 Euro je nach Scope. Sinnvoll ab ~50.000 m² verwalteter Fläche oder für FM-Dienstleister, die für mehrere Auftraggeber arbeiten.

Facilio — für mittlere Portfolios mit Wachstumsambitionen

Cloud-natives FM-System mit eingebautem KI-Layer für Kostenanomalien und Spend-Analytics. Facilio ist schlanker als Planon, API-first und spezifisch für das Problem “wir sind über Excel hinausgewachsen, aber ein vollständiges IWMS ist zu komplex”. EU-Datenhaltung (AWS Frankfurt), AVV erhältlich. Preise nur auf Anfrage, Implementierung typisch ab 15.000–40.000 Euro/Jahr. Sinnvoll für Portfolios ab ~200 Einheiten, die bereits digitale Rechnungserfassung haben.

Microsoft Power BI — für alle, die eigene Benchmark-Dashboards bauen

Wer bereits CAFM- oder ERP-Daten digital vorliegen hat und kein zusätzliches System einführen will, kann die Anomalie-Logik in Power BI selbst bauen: Kostenwerte nach Objektklasse aggregieren, Verteilungen berechnen, Perzentil-Schwellen als Regeln definieren, auffällige Datenpunkte hervorheben. Das erfordert Datenaufbereitungskompetenz (Power Query, DAX-Grundkenntnisse) und initialen Einrichtungsaufwand von 2–4 Wochen, ist danach aber sehr flexibel. Power BI Pro kostet ab 10 Euro/Nutzer/Monat.

Julius AI — für den kostenfreien Einstieg mit einem Export

Wer ohne jede Infrastruktur testen will, ob Anomalien im eigenen Datenbestand vorhanden sind: Julius AI verarbeitet CSV- und Excel-Exporte aus jedem CAFM oder ERP in natürlicher Sprache. Einfach den Jahresexport hochladen und fragen: “Welche Rechnungspositionen weichen am stärksten vom Durchschnitt vergleichbarer Objekte ab?” Das ist kein Produktivbetrieb, aber ein kostenloser Proof of Concept innerhalb von 30 Minuten. Einschränkung: Julius AI hostet in den USA — keine personenbezogenen Daten hochladen, nur aggregierte Kostendaten.

Zusammenfassung: Wann welcher Ansatz

Mehr als 50.000 m² oder FM-Dienstleister → Planon
Wachsendes Portfolio 200–5.000 Einheiten, digitale Rechnungserfassung vorhanden → Facilio
Vorhandene Microsoft-Umgebung, internes Analyse-Know-how → Power BI
Erster kostenloser Proof of Concept mit vorhandenen Excel-Daten → Julius AI

Datenschutz und Datenhaltung

Rechnungsdaten im Facility Management sind in der Regel keine personenbezogenen Daten im Sinne der DSGVO — solange es sich um B2B-Rechnungen von juristischen Personen handelt. In der Praxis sind dennoch drei Punkte zu beachten:

Mitarbeitende als Freigeber. Wenn das System Muster analysiert, die mit dem Verhalten einzelner Mitarbeitender korrelieren (z.B.: “Alle auffälligen Rechnungen wurden von Person X freigegeben”), wird ein personenbezogener Bezug hergestellt. Das ist dann eine Verarbeitung personenbezogener Daten — Betriebsrat einbeziehen und Nutzungskontext dokumentieren.

Subdienstleister und natürliche Personen. Kleine Handwerker rechnen oft als Einzelunternehmer ab. Deren Rechnungsdaten sind personenbezogene Daten. Wenn diese Rechnungen in das System fließen, gilt Art. 28 DSGVO — ein Auftragsverarbeitungsvertrag (AVV) mit dem Software-Anbieter ist Pflicht. Planon und Facilio stellen AVV bereit (EU-Datenhaltung). Julius AI hostet in den USA — für diese Daten daher ungeeignet, es sei denn, Namen und Einzelunternehmer-Identifizierbarkeit wurden vor dem Upload entfernt. Power BI mit konfiguriertem EU Data Boundary ist DSGVO-konform.

Interessant für Wohnungsbaugesellschaften: Der GdW betreibt über die Geislinger Konvention ein branchenübergreifendes Benchmarking-Programm für Betriebskosten. Wenn ihr eure Daten dort einspielt (anonymisiert auf Objektebene), bekommt ihr als Gegenleistung Zugang zu regionalen und bundesweiten Vergleichswerten — ohne eigenes ML-Modell. Das ist ein oft übersehener pragmatischer Einstieg, der für viele Wohnungsunternehmen ausreicht.

Was es kostet — realistisch gerechnet

Einmalige Einrichtungskosten

Der bei Weitem größte Posten ist die Datenaufbereitung: Rechnungshistorie aus vorhandenen Systemen exportieren, Kategorisierungen vereinheitlichen, Objekte klassifizieren. Dieser Aufwand liegt je nach Portfoliogröße und Datenlage bei 2–8 Wochen interner Arbeit, ggf. unterstützt durch externe Daten-Berater (1.500–4.000 Euro/Tag für erfahrene CAFM/Daten-Spezialisten).

Typische Gesamtkosten Einrichtung:

Kleines Portfolio (unter 200 Einheiten), Power BI-Eigenentwicklung: 3.000–8.000 Euro einmalig
Mittleres Portfolio (200–1.000 Einheiten), Facilio-Implementierung: 15.000–40.000 Euro
Großes Portfolio (über 1.000 Einheiten), Planon-Projekt: 50.000–200.000 Euro

Laufende Kosten

Power BI Pro: ca. 10 Euro/Nutzer/Monat
Facilio: 15.000–40.000 Euro/Jahr Lizenz (abhängig von Objektanzahl)
Planon: auf Anfrage; typisch 30.000–100.000 Euro/Jahr

Was du realistisch dagegen rechnen kannst

Angenommen, dein Portfolio hat ein jährliches Instandhaltungsvolumen von 600.000 Euro. Branchenübliche Erfahrungswerte aus FM-Projekten zeigen, dass konsequente Anomalieerkennung 1,5–4 Prozent des Rechnungsvolumens in korrigierbaren Fehlern und Überhöhungen identifiziert. Das sind bei 600.000 Euro zwischen 9.000 und 24.000 Euro jährlich — nach Prüfung und Klärung, nicht automatisch und nicht alles davon ist recovery-fähig. Konservativ gerechnet mit 1,5 Prozent und 60 Prozent Recovery-Quote: rund 5.400 Euro direkter Return jährlich plus eingesparte Prüfzeit von geschätzt 100–150 Stunden.

Für kleine Portfolios (unter 150 Einheiten) ist die Relation ungünstig: Der jährliche Return reicht nicht, um die Einrichtungskosten in vertretbarer Zeit zu amortisieren. Für Portfolios ab 300–400 Einheiten mit strukturierter Rechnungsdatenlage verbessert sich das Bild erheblich.

Drei typische Einstiegsfehler

1. Mit dem Benchmarking starten, bevor die Datenbasis bereinigt ist.

Der häufigste Fehler: Man exportiert alle verfügbaren Rechnungsdaten, wirft sie ins Modell — und erhält eine Flut von “Anomalien”, die in Wirklichkeit Datenfehler sind: doppelt kodierte Leistungsarten, unterschiedliche Schreibweisen desselben Dienstleisters, Objekte mit unklarer Klassifizierung. Das Ergebnis ist ein Dashboard, das so viele Alerts produziert, dass niemand mehr drauf schaut. Der richtige Weg ist umgekehrt: erst Datenlage aufräumen, dann Modell aufbauen, dann Alerts aktivieren. Das braucht Zeit und ist langweilig — aber es entscheidet darüber, ob das System nach drei Monaten noch genutzt wird.

2. Alerts ohne Prozess einrichten.

Ein System, das auffällige Rechnungen markiert, ist wertlos ohne einen definierten Workflow: Wer bekommt den Alert? Wer hat die Entscheidungsbefugnis, eine Zahlung zu stoppen? Wie wird die Klärung mit dem Dienstleister dokumentiert? In der Praxis landen Anomalie-Alerts oft in einer freigegebenen Inbox, die niemand regelmäßig öffnet — oder ein einziger Facility-Manager ist für die gesamte Prüfung zuständig, hat aber keine Kapazität. Ohne klare Verantwortlichkeit und Eskalationsweg ist das System nur eine weitere ungelesene E-Mail-Flut.

3. Das Modell nach dem Launch sich selbst überlassen.

Das ist die gefährlichste Form des Scheiterns — weil sie langsam passiert. Wenn das Portfolio wächst (neue Gebäude werden zugekauft), wenn Baustoffe und Energiepreise stark steigen, wenn Dienstleister wechseln — dann verschiebt sich die “normale” Kostenverteilung. Ein Modell, das auf Daten aus 2021–2023 trainiert wurde und 2026 noch dieselben Schwellenwerte verwendet, produziert zunehmend falsche Alarme (legitime Preiserhöhungen werden als Anomalien markiert) oder übersieht echte Probleme (weil neue Dienstleister keinen Historienvergleich haben). Modellpflege ist kein technisches Luxusproblem, sondern operatives Pflichtprogramm — mindestens halbjährlich Schwellenwerte überprüfen, nach größeren Portfolioveränderungen sofort.

Was mit der Einführung wirklich passiert — und was nicht

Die Einführung von Anomalieerkennung löst im Facility Management fast immer eine Spannung aus, die unterschätzt wird: Dienstleister-Beziehungen.

Wer seit Jahren mit denselben Handwerkern und Dienstleistern arbeitet und plötzlich systematisch Rechnungen zurückhält, weil ein Algorithmus sie markiert hat, braucht eine klare Kommunikationsstrategie. Erfahrene Facility-Manager berichten, dass die ersten Rückmeldungen auf Rechnungsprüfungen meistens eines von zwei Mustern zeigen: entweder sofortige Bereitschaft zur Klärung (und oft Anerkennung des Fehlers), oder defensiven Widerstand — besonders wenn der Dienstleister ahnt, dass das Prüfsystem einen strukturellen Vorteil offenbart, nicht nur einen Einzelfall.

Was konkret hilft:

Kommuniziere gegenüber Dienstleistern frühzeitig, dass ihr ein automatisches Benchmarking-System einführt — das ist keine Beschuldigung, sondern eine neue Qualitätsstufe in der Zusammenarbeit
Trenne die Kommunikation: Anomalie-Alert ≠ Betrugsvorwurf. Es ist eine Prüfanfrage mit konkretem Benchmark-Vergleich als Grundlage
Stelle sicher, dass die Person, die Klärungsgespräche führt, die Benchmark-Logik versteht und erklären kann — “das System hat das markiert” ist keine akzeptable Begründung gegenüber einem Dienstleister
Plane einen Monat nach Pilot-Start eine interne Retrospektive: Wie viele Alerts wurden falsch? Was fehlte im Prozess? Passt die Sensitivitätsschwelle?

Was nicht passiert: Dass alle Probleme sofort und automatisch verschwinden. Die ersten sechs Monate sind ein Lernprozess — für das Modell (Schwellenwerte anpassen), für den Prozess (Wer klärt was wie?) und für die Dienstleister-Beziehungen. Wer das als Sofortlösung verkauft, hat in zwölf Monaten ein frustriertes Team.

Realistischer Zeitplan mit Risikohinweisen

Phase	Dauer	Was passiert	Typisches Risiko
Datenanalyse & Bestandsaufnahme	Woche 1–2	Rechnungshistorie sichten: Wie viele Jahre? Wie strukturiert? Welche Systeme? Kategorisierungen dokumentieren	Daten liegen in drei verschiedenen Systemen mit inkonsistenter Kodierung — Bereinigungsaufwand 3× größer als geplant
Datenaufbereitung & Normalisierung	Woche 2–6	Leistungsarten vereinheitlichen, Objekte klassifizieren, fehlende Stammdaten ergänzen	Hauptrisiko dieses Projekts: schlechte Datenqualität kostet mehr Zeit als Einrichtung und Analyse zusammen
Benchmark-Modell aufbauen & kalibrieren	Woche 6–9	Statistische Verteilungen berechnen, Schwellenwerte testen, Falsch-Positiv-Rate prüfen	Zu hohe Sensitivität → 30 % aller Rechnungen werden markiert → niemand schaut noch drauf
Alert-Workflow einrichten	Woche 8–10	Eskalationspfade, Freigabeprozess, Klärungsprotokoll dokumentieren	Kein klarer Prozesseigentümer → Alerts landen im Nirgendwo
Pilotbetrieb (Teilportfolio)	Woche 10–14	Alle Rechnungen eines Teilbestands live durch das System → erste echte Trefferquote messen	Dienstleister-Widerstand bei ersten Rückfragen — Kommunikationsleitfaden vorab erstellen
Rollout Vollportfolio	Ab Woche 14	Schrittweise Erweiterung auf gesamten Bestand, Modell nachtrainieren	Neue Objektklassen oder Regionen ohne ausreichende Historiendata — gesonderte Benchmarks nötig

Der Zeitplan setzt voraus, dass Rechnungsdaten digital vorliegen und exportierbar sind. Wer noch auf Papierrechnungen oder halbanaloge Prozesse setzt, muss vor Phase 1 eine Digitalisierungsphase einplanen — nochmals 4–8 Wochen.

Häufige Einwände — und was dahintersteckt

„Wir haben doch schon SAP / unser CAFM — warum brauchen wir noch ein Analyse-System?”

SAP PM und die meisten CAFM-Systeme verwalten Aufträge und Rechnungen — aber sie machen kein automatisches Benchmarking über das Portfolio. Das ist ein konzeptioneller Unterschied: CAFM optimiert den Einzelprozess, Benchmarking identifiziert Muster über viele Prozesse hinweg. Wenn Planon oder euer CAFM bereits ein eingebautes Spend-Analytics-Modul hat: prüft es zuerst. Viele Enterprise-Systeme haben diese Funktion — aber sie ist oft deaktiviert oder nicht konfiguriert, weil sie historisch eingekauft wurde und nie jemand die Einrichtung übernommen hat.

„Unsere Dienstleister sind zuverlässig — wir brauchen keine Betrugserkennung.”

Zwei Punkte: Erstens ist Anomalieerkennung nicht gleichbedeutend mit Betrugsverdacht — die häufigste Kategorie gefundener Abweichungen sind Abrechnungsfehler, keine Betrügereien. Zweitens: Selbst bei vertrauenswürdigen Dienstleistern entstehen über Zeit Preisdriften, weil niemand systematisch Marktpreisvergleiche macht und Rahmenverträge stillschweigend überschritten werden. Das ist kein Vertrauensproblem, sondern ein strukturelles Kontrollproblem.

„Der Aufwand für die Einrichtung ist zu groß.”

Das ist der ehrlichste Einwand — und er stimmt für kleine Portfolios. Für ein Portfolio unter 100–150 Einheiten mit 60.000–150.000 Euro Jahres-Instandhaltungsvolumen ist der Return wahrscheinlich zu klein, um die Einrichtungskosten zu rechtfertigen. Für diese Unternehmen empfiehlt sich stattdessen: einmal jährlich manueller Benchmark-Vergleich gegen die GdW-Richtwerte bzw. Sprengnetter-Benchmarks — das dauert einen halben Tag und kostet nichts außer Zeit.

Woran du merkst, dass das zu dir passt

Dieses Vorgehen macht Sinn, wenn:

Dein Portfolio umfasst 150 oder mehr vergleichbare Einheiten — erst dann ist die statistische Grundlage für sinnvolles Benchmarking vorhanden
Du hast mindestens zwei Jahre digitale Rechnungshistorie, die konsistent nach Objekt und Leistungsart kodiert ist — oder du bist bereit, diesen Zustand herzustellen
Ein Facility-Manager verbringt aktuell mehrere Stunden pro Woche mit manueller Rechnungskontrolle ohne systematische Vergleichsgrundlage
Du verwaltest für mehrere Auftraggeber (als FM-Dienstleister) und kannst interne Benchmarks über das gesamte betreute Portfolio ziehen — das ist ein multiplikativer Vorteil
Du kaufst regelmäßig neue Objekte zu und willst deren Kostenniveau sofort in einen Benchmarking-Kontext einbetten

Wann es sich (noch) nicht lohnt — drei harte Ausschlusskriterien:

Portfolios unter ~100 gleichartigen Einheiten. Ohne ausreichend vergleichbare Objekte produziert statistisches Benchmarking mehr Rauschen als Signal — die Standardabweichung ist zu groß, um Ausreißer von natürlicher Variation zu unterscheiden. Für diese Portfolios ist ein manueller Quartals-Vergleich gegen publizierte Benchmarks (GdW, Sprengnetter) die effizientere Methode.
Keine konsistente digitale Rechnungserfassung. Wenn Rechnungen noch als PDFs per E-Mail eingehen und manuell in Excel abgelegt werden, ohne einheitliche Kodierung nach Objekt und Leistungsart, fehlt die Datenbasis für jede Art von automatischer Analyse. Dieses Problem löst kein Anomalie-Tool — erst das ERP oder CAFM stabilisieren, dann die Analyse drauflegen.
Kein dedizierter Prozesseigentümer für die Rechnungskontrolle. Ein Alert-System ohne jemanden, der die Alerts bearbeitet, ist schlimmer als kein System — es erzeugt das trügerische Gefühl von Kontrolle ohne tatsächliche Prüfung. Vor dem Launch muss feststehen: Wer bekommt welche Alerts? Wer hat die Befugnis, eine Zahlung zu stoppen? Wer dokumentiert das Klärungsergebnis?

Das kannst du heute noch tun

Exportiere die Rechnungsdaten deines Portfolios für die letzten zwölf Monate aus deinem CAFM oder ERP — auch wenn es nur ein Excel-Export ist. Lade die Datei in Julius AI hoch (kostenloses Konto, kein technisches Setup) und stelle folgende Frage:

“Welche Dienstleister oder Objektkombinationen haben die höchsten Durchschnittskosten pro Quadratmeter für eine bestimmte Leistungsart im Vergleich zum Gesamtdurchschnitt?”

Das dauert 20 Minuten. Was du danach weißt: ob in deinen Daten überhaupt systematische Abweichungen vorhanden sind — bevor du in eine aufwändige Einrichtung investierst.

Wenn du eine spezifischere Analyse über mehrere Jahre und Objektklassen machen willst, verwende diesen Prompt in Julius AI oder direkt in ChatGPT Code Interpreter:

Benchmark-Analyse für Instandhaltungsrechnungen

Du bist Analyst für Instandhaltungskosten in einem Immobilienportfolio. Ich habe dir eine Tabelle mit folgenden Spalten hochgeladen: - Rechnungsdatum - Objektname / Objekt-ID - Objekttyp (z.B. MFH, EFH, Gewerbe) - Baujahr (oder Baujahrklasse) - Wohnfläche m² - Dienstleister - Leistungsart (z.B. Heizungsinspektion, Dachrinnenreinigung) - Rechnungsbetrag (Euro) Aufgabe: 1. Berechne für jede Leistungsart den Median-Preis je m² Wohnfläche über alle Objekte des gleichen Typs. 2. Identifiziere alle Rechnungen, die mehr als [SCHWELLENWERT]% über diesem Median liegen. 3. Zeige die Top-10 auffälligsten Rechnungen mit Betrag, Abweichungsprozent und Dienstleistername. 4. Gibt es Dienstleister, die systematisch über Benchmark abrechnen (mehr als 3 Rechnungen mit Abweichung >30%)? 5. Gibt es doppelte oder ähnliche Rechnungen (gleicher Dienstleister, ähnlicher Betrag ±5%, gleiches Objekt, innerhalb von 60 Tagen)? Antworte auf Deutsch. Nenne für jede Auffälligkeit den konkreten Wert und die Abweichung.

Funktioniert mit Julius AI, ChatGPT (Code Interpreter), Claude

Beispiel-Ausgabe

Mitarbeiter:in

Ich habe 340 Rechnungen für 2024 hochgeladen, Schwellenwert: 35%

KI-Assistent

Auswertung Instandhaltungsrechnungen 2024 — Portfolioübersicht: **Anomalie-Zusammenfassung:** - 23 Rechnungen liegen mehr als 35% über dem Leistungsart-Median (6,8% des Gesamtvolumens) - Gesamtabweichungsbetrag der markierten Rechnungen: 18.240 € über Benchmark **Top-3 Ausreißer:** 1. Heizungsinspektion, Objekt "Gartenstraße 9", Dienstleister "Thermo GmbH": 4.720 € — Median vergleichbarer MFH Baujahr 1970–1985: 2.890 € → +63% 2. Fassadenreinigung, Objekt "Parkweg 12b", Dienstleister "Reinigungsservice Klose": 3.150 € — Median: 1.980 € → +59% 3. Dachinstandsetzung, Objekt "Schulstraße 3", Dienstleister "Dach & Co GmbH": 8.900 € — Median: 6.100 € → +46% **Systemischer Befund:** Dienstleister "Thermo GmbH" hat 7 von 12 Rechnungen mit Abweichung >35% — betrifft 4 verschiedene Objekte. Empfehlung: Vertragskonditionen prüfen und Vergleichsangebote einholen. **Doppeleinreichungsverdacht:** 2 Rechnungspaare identifiziert: Dienstleister "Müller Elektro" — Rechnung vom 12.03. und 14.03.2024, beide für Objekt "Hauptstraße 7", Beträge 1.840 € und 1.860 € — Differenz 1,1%, innerhalb von 48h. Zur Prüfung vorgemerkt.

Quellen & Methodik

Bewirtschaftungskosten-Benchmark 13,80 €/m²/Jahr: Sprengnetter, „Neue Bewirtschaftungskosten-Ansätze für 2024”, shop.sprengnetter.de (2024). Bezieht sich auf Wohngebäude, jährliche Instandhaltungskosten im Ertragswertverfahren — normative Richtwerte, keine Ist-Kosten-Erhebung.
VDIV Benchmarking und Kosteneinsparungspotenzial: VDIV Deutschland e.V., „Benchmarking — Betriebskosten-Optimierung”, vdiv.de (2023). Angabe: 1 % jährliche Kostensenkung bei aktivem Benchmarking vs. 2,5 % allgemeines Kostenwachstum.
GdW Betriebskosten-Benchmarking (Geislinger Konvention): GdW Bundesverband deutscher Wohnungs- und Immobilienunternehmen e.V., Geislinger Konvention Teil 3 (Berechnungsmethoden und Auswertungsgrundsätze), hfwu.de/Geislinger-Konvention (2023).
Fraunhofer IAO KIAFaM-Projekt: Fraunhofer IAO, „KIAFaM: KI-basierte Assistenzfunktionen im Facility Management”, digital.iao.fraunhofer.de (2023). Beschreibt Einsatzszenarien für KI in der Kostenkontrolle großer Liegenschaften.
ROI-Bandbreiten (1,5–4 % korrigierbare Rechnungsanteile): Erfahrungswerte aus FM-Projekten verschiedener Anbieter (u.a. Facilio, Planon-Partnerberichte); keine unabhängig peer-reviewte Studie — als Orientierungswert behandeln.
Kosten- und Zeitangaben zu Tools: Veröffentlichte Tarife und Implementierungsaufwände von Planon (planonsoftware.com/de/), Facilio (facilio.com) und Microsoft Power BI (powerbi.microsoft.com) — Stand April 2026. Angaben zu Facilio und Planon auf Anfrage-Basis; Bandbreiten aus Marktgesprächen und veröffentlichten Case Studies.

Du willst wissen, ob euer Portfolio die Datenbasis für sinnvolles Benchmarking hat — und welcher Ansatz für eure Größe und Infrastruktur realistisch ist? Meld dich — das klären wir gemeinsam.

Diesen Inhalt teilen:

LinkedIn X / Twitter E-Mail WhatsApp

🤝

Interesse an diesem Use Case?

Schreib uns, wenn du mehr erfahren oder diesen Use Case für dein Unternehmen umsetzen möchtest. Wir melden uns zeitnah bei dir.

Zurück zu Architektur & Bauwesen

Instandhaltungskosten-Anomalieerkennung

Das echte Ausmaß des Problems

Mit vs. ohne KI — ein ehrlicher Vergleich

Einschätzung auf einen Blick

Was das System konkret macht

Drei Anomalietypen — und was die KI davon wirklich erkennt

Konkrete Werkzeuge — was wann passt

Datenschutz und Datenhaltung

Was es kostet — realistisch gerechnet

Drei typische Einstiegsfehler

Was mit der Einführung wirklich passiert — und was nicht

Realistischer Zeitplan mit Risikohinweisen

Häufige Einwände — und was dahintersteckt

Woran du merkst, dass das zu dir passt

Das kannst du heute noch tun

Quellen & Methodik

Interesse an diesem Use Case?

Weitere Use Cases

KI-Bauplanerkennung und Massenermittlung

Automatische Leistungsverzeichnis-Erstellung

KI-Mängelerfassung per Smartphone

Instandhaltungskosten-Anomalieerkennung

Das echte Ausmaß des Problems

Mit vs. ohne KI — ein ehrlicher Vergleich

Einschätzung auf einen Blick

Was das System konkret macht

Drei Anomalietypen — und was die KI davon wirklich erkennt

Konkrete Werkzeuge — was wann passt

Datenschutz und Datenhaltung

Was es kostet — realistisch gerechnet

Drei typische Einstiegsfehler

Was mit der Einführung wirklich passiert — und was nicht

Realistischer Zeitplan mit Risikohinweisen

Häufige Einwände — und was dahintersteckt

Woran du merkst, dass das zu dir passt

Das kannst du heute noch tun

Quellen & Methodik

Interesse an diesem Use Case?

Weitere Use Cases

KI-Bauplanerkennung und Massenermittlung

Automatische Leistungsverzeichnis-Erstellung

KI-Mängelerfassung per Smartphone

Bleib auf dem neuesten Stand der KI

Bleib auf dem neuesten
Stand der KI