KI-gestützte Spesenbetrug-Erkennung und Ausgabenprüfung
KI analysiert Spesenbelege und Kreditkartenabrechnungen auf ungewöhnliche Muster, doppelte Einreichungen und Policy-Verstöße — automatisch, bevor der Prüfer die Belege öffnet.
- Problem
- Laut ACFE gehen Unternehmen 5 % des Jahresumsatzes durch Betrug verloren — Spesenmanipulation ist eine der häufigsten Formen. Manuelle Stichproben prüfen 5–10 % aller Belege; der Rest läuft durch. Doppelte Einreichungen oder runde Beträge ohne Beleg fallen erst in Jahresabschlüssen auf.
- KI-Lösung
- KI scannt jeden Speseneintrag auf Anomalie-Signale: doppelte Belege, untypische Händler, systematische Rundbeträge, Einreichungen am Wochenende oder kurz vor Fristablauf. Flagged Entries werden priorisiert zur menschlichen Prüfung weitergeleitet.
- Typischer Nutzen
- Bis zu 80 % Reduktion manueller Prüfzeit bei gleichzeitig höherer Abdeckung als Stichproben. Betrugsquote durch Abschreckungseffekt um 30–50 % senkbar laut Branchenstudien.
- Setup-Zeit
- 8–12 Wochen — Betriebsrat & Policy-Setup blockierend
- Kosteneinschätzung
- 8–12 €/Nutzer/Monat, ab 50 MA meist unter 10.000 €/Jahr
Buchhalterin Anke Siebert, Monatsende.
Auf dem Bildschirm: die Spesenabrechnung von Vertriebsmitarbeiter Jonas Feldmann. Bahnticket München–Frankfurt, Hotelrechnung Marriott (164 Euro, eine Nacht), Mittagsessen mit Kunden 47,80 Euro. Anke gleicht die Belege ab, nickt, genehmigt. Drei Minuten. Weiter zum nächsten der noch 312 Belege auf der heutigen Stichprobenliste.
Was Anke nicht sieht: Dieselbe Hotelrechnung hat Jonas bereits im Vormonat eingereicht — mit einem anderen Datum. Das System hat kein Gedächtnis, Anke schon, aber bei 300 Belegen pro Monat merkt sich kein Mensch alle. Das Konto ist um 164 Euro reicher.
Aus Frust schiebt Anke nach Feierabend den März- und April-Export aus dem Spesentool in einen Claude-Chat und tippt: „Finde gleiche Beträge bei derselben Person mit verschiedenen Daten.” Antwort kommt in zwei Minuten — drei Treffer. Neben Jonas auch zwei weitere Mitarbeiter, an die niemand gedacht hatte: ein Doppel-Bahnticket nach Hamburg, eine zweimal eingereichte Tankquittung. Drei Treffer in zwei Minuten.
Bei 50 Mitarbeitenden mit Reisekostenabrechnungen liegt das, was regelmäßig durch das Stichproben-Sieb fällt, erfahrungsgemäß zwischen 8.000 und 18.000 Euro pro Jahr — mal mehr durch versehentliche Doppelungen, mal mehr durch bewusste. Anke hatte für die monatliche Stichprobenprüfung am dritten des Monats jedes Mal zwei volle Tage geblockt. Die zwei Minuten Claude-Abgleich hatten ihr in dieser einen Sitzung mehr Treffer geliefert als die Stichprobe der letzten sechs Monate zusammen.
Das echte Ausmaß des Problems
Die Association of Certified Fraud Examiners (ACFE) schätzt in ihrem Report to the Nations (2024), dass Unternehmen weltweit 5 Prozent ihres Jahresumsatzes durch Betrug von innen verlieren — also durch eigene Mitarbeitende, nicht durch externe Angreifer. Spesenbetrug ist eine der häufigsten Erscheinungsformen davon: Ein typischer Betrugsfall bleibt im Schnitt 12 bis 18 Monate unentdeckt, bevor er durch Hinweise von Kolleginnen oder Kollegen auffällt — selten durch Prüfung.
Die Dunkelziffer ist hoch, weil manuelle Stichprobenprüfung strukturell blind ist:
- 5–10 % der Spesenpositionen werden in traditionellen Prüfverfahren überhaupt angeschaut
- Der Rest läuft durch — nicht weil die Finanzabteilung schläft, sondern weil das Volumen eine vollständige Prüfung schlicht nicht erlaubt
- Laut Circula-Studie (2024) geben Finanzteams im Schnitt mehr als zwei Arbeitstage pro Woche allein für Spesenprüfung und Betrugsabwehr aus — bei Unternehmen mit 250+ Mitarbeitenden
Und: Die Lage verschärft sich. KI-generierte Fake-Belege machten laut Rydoo-Daten (September 2025) bereits 14 Prozent aller betrügerischen Dokumente aus. Generative Bild-KI erzeugt realistische Quittungen inklusive Steuernummer, Händlerlogo und Unterschrift — Dokumente, die für das bloße Auge nicht von echten zu unterscheiden sind.
Die häufigsten Betrugsmuster in Spesenabrechnungen:
| Muster | Beschreibung | Erkennungsschwierigkeit manuell |
|---|---|---|
| Doppeleinreichung | Derselbe Beleg in zwei Monaten oder zwei Systemen | Hoch — braucht systemisches Gedächtnis |
| Betragsaufblähung | Quittung fotomanipuliert oder frei erfunden | Sehr hoch — ohne Originalvergleich kaum erkennbar |
| Runde Beträge ohne Beleg | 50 oder 100 Euro ohne Quittung — häufig als “Kleinbeträge” | Mittel — auffällig, aber einzeln nicht beweisend |
| Policy-Verstöße | Übernachtung über Richtliniengrenze, nicht-erstattungsfähige Kategorie | Niedrig — aber Prüfer muss Richtlinie kennen |
| Ungewöhnliche Händler oder Zeiten | Sonntagabend, Spielcasino, Alkohol als “Kundenbewirtung” | Mittel — braucht Kontextbewusstsein |
| Split-Einreichungen | Einen großen Betrag auf mehrere kleine aufgeteilt | Hoch — systemische Analyse notwendig |
Mit vs. ohne KI — ein ehrlicher Vergleich
| Kennzahl | Ohne KI | Mit KI-Betrugserkennung |
|---|---|---|
| Geprüfte Spesenpositionen | 5–10 % (Stichprobe) | 100 % automatisch |
| Doppeleinreichungen erkannt | Zufällig oder gar nicht | Systematisch — sofort bei Einreichung |
| Erkennungszeit nach Einreichung | Tage bis Wochen (falls überhaupt) | Echtzeit — vor Genehmigung |
| Manuelle Prüfzeit/Woche | 2+ Arbeitstage (ab 250 MA) | 2–3 Stunden für geflaggte Fälle |
| Abschreckungseffekt | Gering — Mitarbeitende wissen, kaum jemand prüft | Hoch — vollständige Prüfung ist bekannt |
| Falsch-negativ-Rate (Betrug nicht erkannt) | 90–95 % aller Positionen ungeprüft | Abhängig von Modellkalibrierung — aber deutlich geringer |
Die Zahlen zur manuellen Prüfquote basieren auf Branchenberichten; die Effekte der KI-Prüfung auf Zeitersparnis und Abdeckung stammen aus Rydoo-Produktdaten und der Forrester Total Economic Impact™-Studie (commissioned by Navan, 2024).
Einschätzung auf einen Blick
Zeitersparnis — hoch (4/5) Finanzteams sparen 70–80 Prozent der manuellen Prüfzeit ein — nicht durch Abstriche bei der Abdeckung, sondern durch den Wechsel von Stichproben zu 100-Prozent-Prüfung. Das ist einer der wenigen Anwendungsfälle, bei dem KI nicht nur Durchlaufzeit, sondern gleichzeitig Prüfqualität erhöht. Nicht ganz auf 5 bewertet, weil die eingesparte Zeit in Klärungsgespräche bei Fehlalarms reinvestiert werden muss — auch das ist Aufwand, wenn auch produktiverer.
Kosteneinsparung — sehr hoch (5/5) Direkte Verlustreduktion: Jeder erkannte und verhinderte Betrugsfall spart denselben Betrag, der sonst unrechtmäßig erstattet würde. Dazu kommt der Abschreckungseffekt — wenn Mitarbeitende wissen, dass 100 Prozent geprüft werden, sinkt die Versuchung. Laut Branchenstudien reduziert sich die Betrugsquote allein durch den Transparenzeffekt um 30–50 Prozent. Bei einem Unternehmen mit 5 Millionen Euro Jahresumsatz und dem ACFE-Durchschnittswert von 5 Prozent Verlust durch Betrug entspricht das einem Einsparpotenzial von mehreren Zehntausend Euro pro Jahr — auch wenn nicht jeder Euro davon auf Spesenbetrug entfällt.
Schnelle Umsetzung — niedrig (2/5) 8–12 Wochen bis zum produktiven Betrieb, und das nur, wenn der Betriebsrat zügig mitzieht. Die technische Anbindung an das Spesenmanagement-System ist nicht der Flaschenhals — der Flaschenhals ist die Mitbestimmung nach § 87 Abs. 1 Nr. 6 BetrVG: Eine Betriebsvereinbarung ist Pflicht, bevor ein einziger Beleg geprüft wird. Dazu kommen Policy-Finalisierung, Datenschutzfolgenabschätzung und Schwellen-Kalibrierung. Wer kein digitales Spesenmanagement hat und noch auf Excel setzt, muss zuerst die Basis legen. In dieser Branche damit unter dem Durchschnitt — Meeting-Protokolle oder Kundenkorrespondenz sind in Tagen produktiv, nicht in Quartalen.
ROI-Sicherheit — hoch (4/5) Der ROI ist direkter messbar als bei vielen anderen KI-Anwendungen. Du vergleichst Betrugsrate vorher und nachher, zählst verhinderte Fälle, setzt das gegen Lizenzkosten. Kein indirektes Zeitkalkül, keine Korrelationsdiskussion. Die Einschränkung zum vollen Wert: Der Abschreckungseffekt ist real, aber schwer exakt zu beziffern — er tritt auf, ohne einen konkreten Fall zu erzeugen.
Skalierbarkeit — hoch (4/5) Gleichbleibender Systemaufwand bei 100 oder 10.000 Spesenpositionen pro Monat. Rydoo und SAP Concur skalieren ohne Mehrkosten bei wachsender Mitarbeitendenzahl — die Lizenz wächst pro Nutzer, nicht pro geprüftem Beleg. Nicht ganz maximal, weil bei stark wachsenden Unternehmen die Policy-Pflege mitwachsen muss.
Richtwerte — stark abhängig von Unternehmensgröße, Betrugshistorie und gewähltem Toolansatz.
Was das System konkret macht
KI-Betrugserkennung in Spesenabrechnungen arbeitet auf mehreren Ebenen gleichzeitig — keine davon ist für sich allein entscheidend, aber die Kombination macht das System schlagkräftig.
Regel- und Musterabgleich
Die erste Schicht: klassisches Regelwerk. Jede Spesenposition wird gegen eure Unternehmensrichtlinie geprüft — Tagessätze, Kategorien, Beleggrenzen, genehmigte Händler. Das ist keine KI, sondern konfigurierte Compliance-Logik. Aber diese Schicht ist die Grundvoraussetzung für alles Weitere.
ML-Anomalie-Scoring
Die zweite Schicht: Machine Learning-Modelle, die die Normkurve eurer tatsächlichen Abrechnungen lernen. Was ist für diese Person normal? Was ist für diese Rolle, diesen Reisetyp, diesen Monat normal? Einreichungen, die statistisch aus dem Muster fallen, erhalten einen Anomalie-Score — nicht als „Betrug”, sondern als „prüfwürdig”. Das ist der Kern der KI-Erkennung.
Konkrete Anomalie-Signale, die das System lernt:
- Zeitliche Muster: Einreichungen kurz vor Fristablauf oder an Wochenenden, wenn normalerweise keine Geschäftsreisen stattfinden
- Betragsrunden: Systematische Häufung von 49, 50, 99 oder 100 Euro — klassische Phantombeleg-Beträge
- Händler-Kontext: Ausgaben bei Händlern, die keine Verbindung zur Rolle oder zum Reiseziel haben
- Peer-Abweichung: Ein Mitarbeitender rechnet konsistent 30 Prozent mehr ab als Kolleginnen und Kollegen in derselben Rolle auf denselben Reisen
Duplikat-Erkennung
Technisch trivial — aber der Effekt ist enorm. Das System prüft jeden Beleg gegen die gesamte Einreichungshistorie: gleicher Betrag, gleiches Datum, ähnlicher Händler. Auch wenn das Datum leicht verändert wurde oder der Beleg in zwei verschiedenen Monaten eingereicht wurde, schlägt das System an. Ohne systemisches Gedächtnis ist das manuell nicht möglich.
KI-Fake-Erkennung (neuere Schicht)
Rydoo hat 2025 eine dedizierte Funktion eingeführt: Erkennung von KI-generierten Fake-Belegen. Das System analysiert Bildmetadaten, Schriftart-Konsistenz und typische Artefakte aus Bild-KI-Generierung (DALL-E, Midjourney, Stable Diffusion). Die Erkennungsrate liegt laut Rydoo bei über 97 Prozent (Herstellerangabe, keine unabhängige Prüfung) — und es ist ein Wettrüsten, kein gelöstes Problem.
Die andere Seite der KI: Das Wettrüsten mit gefälschten Belegen
Das ist der wichtigste Kontext, den die meisten Anbieter verschweigen: Die KI, die Betrugserkennung ermöglicht, ermöglicht auch besseren Betrug.
Generative Bild-KI erzeugt heute Belege, die für das menschliche Auge nicht von echten zu unterscheiden sind. Vollständige Händlerlogos, korrekte Steuernummern, plausible Beträge mit Mehrwertsteueraufschlüsselung, sogar zerknittertes Papier als Textur. Laut Rydoo machten KI-gefälschte Belege im September 2025 bereits 14 Prozent aller betrügerischen Dokumente aus — Tendenz steigend.
Was das für deine Einführung bedeutet:
- Ein KI-Erkennungssystem ist besser als keine Prüfung — auch wenn es das Wettrüsten nicht beendet
- Regelbasierte Checks (Duplikate, Limits, Policy) sind robuster als reine Fake-Detection, weil sie nicht auf Bildanalyse beruhen
- Das Erkennungssystem muss aktualisiert werden — Anbieter wie Rydoo, die eigene Modelle trainieren, sind hier im Vorteil gegenüber statischen Regelwerken
- Die stärkste Abschreckung ist das Wissen, dass geprüft wird — nicht die perfekte Erkennungsrate
Wer das ausblendet, kauft ein System mit der falschen Erwartungshaltung. Wer es versteht, kauft ein System mit realistischen Erwartungen — und das lohnt sich.
Konkrete Werkzeuge — was wann passt
Die Toollandschaft teilt sich grob in drei Kategorien: deutsche KMU-Lösungen, internationale Plattformen mit KI-Audit-Modul und Enterprise-Systeme.
Circula — Wenn du DATEV nutzt und alle Daten in Deutschland bleiben sollen Die deutscheste Lösung im Vergleich: Server in Deutschland, native DATEV-Integration, GoBD-konform nach IDW PS880. Automatische Policy-Prüfung und Duplikatserkennung bei Einreichung. Die KI-Betrugserkennung ist weniger ausgereift als bei Rydoo oder SAP Concur, dafür ist der Compliance-Stack der vollständigste für deutsche KMU. Preis: ab ca. 8–12 Euro/Nutzer/Monat.
Rydoo — Wenn du 100-%-Belegprüfung mit KI-Fake-Erkennung willst Smart Audit prüft jeden Beleg auf über 20 Compliance-Kriterien und erkennt als einer der ersten Anbieter KI-generierte Fake-Belege (laut Rydoo bei über 97 Prozent Trefferrate — Herstellerangabe, keine unabhängige Prüfung). GoBD-zertifiziert, EU-Hosting, DATEV-Integration. Sinnvoll für Unternehmen ab 50 Mitarbeitenden mit regelmäßigem Reisevolumen. Preis: ab ca. 8 Euro/aktiver Nutzer/Monat.
SAP Concur mit Concur Detect — Wenn du SAP-ERP nutzt und Enterprise-Tiefe brauchst Concur Detect prüft 100 Prozent aller Abrechnungen mit ML-Anomalie-Scoring und ist tief mit SAP FI/CO integriert. Das richtige System für Unternehmen, die SAP S/4HANA bereits betreiben und Reisemanagement und Spesenmanagement aus einer Hand wollen. Für KMU ohne SAP-ERP-Anbindung ist der Aufwand nicht gerechtfertigt. Preis: Enterprise — auf Anfrage.
Claude als monatliche CSV-Prüfung — Wenn du unter 50 Mitarbeitende hast und kein Spesenmanagement-Budget Der pragmatischste Einstieg ohne neues Tool: Spesenabrechnungen einmal im Monat als CSV-Export aus eurem aktuellen System (oder Excel) ziehen, in Claude (Team-Plan mit AVV) hochladen und mit dem Prompt aus dem Abschnitt „Das kannst du heute noch tun” laufen lassen. Claude markiert Doppeleinreichungen, runde Beträge ohne Beleg, zeitliche Anomalien und Häufigkeitsausreißer in einer priorisierten Liste. Aufwand: 30 Minuten Setup für den Prompt, danach 15–30 Minuten pro Monat. Keine Fake-Detection, keine kontinuierliche Echtzeit-Prüfung — aber deutlich besser als rein manuelle Stichproben. Voraussetzung für echte Daten: AVV-fähige Plan-Variante (Claude Team/Enterprise, ChatGPT Business/Enterprise) und Pseudonymisierung der Mitarbeitenden-IDs vor dem Upload.
Zusammenfassung — Wann welcher Ansatz:
- Deutsches KMU, DATEV, Datensouveränität → Circula
- 50–500 MA, EU-Hosting, starke Betrugserkennung → Rydoo
- 500+ MA, SAP-ERP-Anbindung → SAP Concur
- Unter 50 MA, kein Budget → monatlicher CSV-Audit mit Claude Team / ChatGPT Business
Datenschutz und Datenhaltung
Spesenabrechnungen enthalten Bewegungsdaten (Wo war die Person, wann?), Ausgabenprofile und bei gründlicher Analyse Rückschlüsse auf Lebensgewohnheiten — das macht sie unter DSGVO zu personenbezogenen Daten, die einer sorgfältigen Behandlung bedürfen.
Besonderheiten für diesen Anwendungsfall:
Automatisierte Einzelentscheidungen (Art. 22 DSGVO): Wenn das System eine Erstattung verzögert oder verweigert, ohne dass ein Mensch das Ergebnis geprüft hat, greift DSGVO Art. 22. Die meisten modernen Systeme (Rydoo, Concur Detect) sind als Priorisierungssystem ausgelegt — KI flaggt, Mensch entscheidet. Das ist kein Verstoß, aber es muss in der Prozessdokumentation klar sein, dass kein Algorithmus final entscheidet.
Betriebsrat: In Deutschland gilt: Systeme, die das Verhalten von Mitarbeitenden überwachen und auswerten, sind mitbestimmungspflichtig nach § 87 Abs. 1 Nr. 6 BetrVG. Das betrifft ein Betrugserkennung-System explizit. Vor dem Produktivstart muss eine Betriebsvereinbarung vorliegen oder der Betriebsrat die Einführung freigegeben haben. Das ist kein „Nice to have” — es ist eine Pflicht.
AVV und Hosting:
- Circula: Server Deutschland, AVV standardmäßig im Vertrag
- Rydoo: EU-Hosting, AVV verfügbar
- SAP Concur: EU Data Boundary konfigurierbar, AVV im Enterprise-Vertrag
- Claude-/ChatGPT-CSV-Audit: nur in der Team-/Business-Variante mit AVV; Mitarbeitenden-IDs vor dem Upload pseudonymisieren
Was es kostet — realistisch gerechnet
Einmalige Einrichtungskosten
- Circula oder Rydoo: 1–3 Tage Einrichtung + Policy-Konfiguration. Kein externer Aufwand notwendig.
- SAP Concur mit Concur Detect: typisch 4–8 Wochen Implementierung, externe Beraterinnen und Berater 8.000–25.000 Euro einmalig
- Claude-/ChatGPT-CSV-Audit: ca. 1 Tag intern für Prompt-Aufsatz und Pseudonymisierungsschritt, 0 € extern
Laufende Kosten (monatlich)
- Circula: ca. 8–12 Euro/Nutzer/Monat
- Rydoo: ca. 8 Euro/aktiver Nutzer/Monat (Smart Audit inklusive)
- SAP Concur: Enterprise, auf Anfrage — typisch 8–15 Euro/Nutzer/Monat für Expense-Modul; Concur Detect als Add-on
- Claude Team: ca. 25 USD/Nutzer/Monat — bei einem einzigen Buchhaltungsplatz also rund 25 €/Monat. ChatGPT Business analog
Was du dagegenrechnen kannst
ACFE schätzt, dass Unternehmen 5 Prozent ihres Jahresumsatzes durch Betrug von innen verlieren. Nicht jeder Cent davon ist Spesenbetrug — aber Spesenbetrug ist eine der häufigsten Erscheinungsformen.
Konservatives Rechenbeispiel:
- Unternehmen mit 200 Mitarbeitenden, davon 80 mit Reisekostenabrechnungen
- Jahresumsatz 15 Millionen Euro
- ACFE-Wert von 5 Prozent Gesamt-Betrugsschaden = 750.000 €/Jahr — davon entfällt nur ein kleiner Teil auf Spesen. Belastbare Studienlage zum reinen Spesenanteil ist dünn; konservative Praxisschätzungen liegen bei 0,1 bis 0,3 Prozent vom Umsatz. Wir rechnen mit der Mitte: 0,2 Prozent = 30.000 Euro jährlich
- Rydoo-Kosten: 80 Nutzer × 8 Euro × 12 Monate = 7.680 Euro/Jahr
- Wenn das System auch nur 50 Prozent des Schadens verhindert: 15.000 Euro gespart
- Netto-Vorteil im ersten Jahr: 15.000 − 7.680 = 7.320 Euro (Kosten-Nutzen-Verhältnis ca. 1:2)
Der Abschreckungseffekt ist hier noch nicht eingerechnet.
Wie du den ROI wirklich misst Kein Spreadsheet-Kalkül ersetzt echte Messung. Was tatsächlich funktioniert: Baseline aufnehmen (wie viele Policy-Verstöße, Duplikate, unklare Einreichungen pro Monat in den letzten 12 Monaten?), dann nach 6 Monaten KI-Betrieb vergleichen. Der Unterschied ist dein nachweisbarer ROI — kein Modell, keine Schätzung.
Typische Einstiegsfehler
1. Anomalie-Schwellen zu sensibel kalibrieren. Der Reflex: Alles flaggen, was auch nur leicht auffällt. Das Ergebnis ist eine Liste geflaggter Fälle, die jeden Monat 40 Prozent aller Einreichungen enthält — und damit so viel Arbeit produziert wie die manuelle Prüfung vorher, nur mit mehr Frustrationsquelle. Lösung: Mit 5–10 Prozent Flagging-Rate starten, kalibrieren, erst dann anpassen. Ein Fehlalarm (Fehlalarm), der einen ehrlichen Mitarbeitenden zwei Wochen auf seine Erstattung warten lässt, ist ein Vertrauensschaden, der sich nicht schnell repariert.
2. Mitarbeitende nicht vorab informieren. In einer Schweizer Befragung (KMU Magazin, 2024) gaben 40 Prozent der Befragten an, Fehlalarme und falsche Beschuldigungen als größte Sorge bei KI-gestützter Spesenprüfung zu sehen. Wenn das System ohne Vorinformation eingeführt wird und der erste Prüf-Anruf bei einer Mitarbeiterin landet, die zu 100 Prozent korrekt abgerechnet hat — ist das ein Kulturschaden. Lösung: Ankündigung vor dem Produktivstart, klare Kommunikation dass KI flaggt und Menschen entscheiden, und ein einfaches Eskalationsverfahren für jeden, der einen Fehlalarm anfechten will.
3. Die Policy nicht vor dem System konfigurieren. KI-Betrugserkennung ist nur so gut wie die hinterlegten Regeln. Wer das System einführt, ohne klare Unternehmensrichtlinien zu haben (Was ist erstattungsfähig? Bis welcher Betrag? Welche Händler?), bekommt Warnhinweise auf Dinge, die gar keine Verstöße sind — und keine Warnhinweise auf die echten Probleme. Lösung: Zuerst die schriftliche Spesenrichtlinie finalisieren, dann erst das System konfigurieren.
4. Das System läuft, aber niemand kümmert sich um die geflaggten Fälle. Das ist der Wartungsfehler dieses Anwendungsfalls. Das System läuft, erzeugt Warnhinweise — aber niemand ist explizit zuständig für die Klärung. Nach zwei Monaten hat sich ein Rückstand von 200 ungeklärten Fällen aufgebaut, die Buchhaltung zweifelt am System, und Mitarbeitende warten auf Erstattungen. Lösung: Eine namentlich benannte Person mit fester Kapazität (halber Tag pro Woche) ist für die Sichtung der geflaggten Fälle zuständig — vor dem Produktivstart definiert, nicht danach.
Was mit der Einführung wirklich passiert — und was nicht
Die technische Seite dieses Projekts ist überraschend einfach. Rydoo oder Circula sind SaaS-Lösungen, die in einem Tag einsatzbereit sind. Das Schwierige ist das Menschliche.
Widerstandsmuster:
Die “Ich werde verdächtigt”-Reaktion. Wenn ehrliche Mitarbeitende hören, dass jetzt “alle Belege automatisch auf Betrug geprüft” werden, löst das bei einem Teil eine Abwehrreaktion aus — auch wenn sie nie etwas Falsches eingereicht haben. Das ist normal und gut vorhersehbar. Was hilft: Sprache. Nicht “KI-Betrugserkennung einführen”, sondern “automatische Policy-Prüfung einführen, damit Fehler früh auffallen und nicht im Jahresabschluss”. Das ist dieselbe Funktion, dieselbe Technologie — aber ein anderer Ton.
Die “Das System ist falsch”-Koalition. Die ersten Fehlalarms werden zu Präzedenzfällen. Wer zweimal fälschlicherweise kontaktiert wird, ist ein dauerhafter Kritiker. Wichtig: Jeder Fehlalarm muss schnell und ohne Bürokratie eskalierbar sein. Das System hat Unrecht, der Mensch gewinnt — konsequent kommuniziert.
Die “Was ändert sich eigentlich wirklich”-Gleichgültigkeit. Finanzteams sehen manchmal keine große Verbesserung, weil sie vorher schon selektiv genau geprüft haben — nur eben die falschen Fälle. Der Unterschied ist systemisch, nicht in Einzelfällen. Diese Gruppe überzeugt man mit Zahlen: Wie viele Fälle wurden im ersten Monat automatisch erkannt, die vorher durch Stichproben nie aufgefallen wären?
Was konkret hilft:
- Betriebsrat frühzeitig einbinden — nicht als Pflicht, sondern als inhaltlicher Partner
- 30-tägige Testphase mit kleinem Pilotbereich (eine Abteilung) vor dem Gesamtrollout
- Klare Kommunikation an alle Mitarbeitenden: Was prüft das System, was prüft es nicht, wer entscheidet bei Unklarheiten
- Monatliches Reporting der Ergebnisse an Geschäftsführung — sichtbarer Erfolg legitimiert das System
Realistischer Zeitplan mit Risikohinweisen
| Phase | Dauer | Was passiert | Typisches Risiko |
|---|---|---|---|
| Konzept & Betriebsrat | Woche 1–2 | Spesenrichtlinie finalisieren, Betriebsrat konsultieren, Datenschutzfolgenabschätzung starten | Betriebsrat verzögert — plant mindestens 4 Wochen ein wenn Betriebsrat vorhanden |
| Toolauswahl & Setup | Woche 2–4 | Tool evaluieren, Account einrichten, Policy-Konfiguration | Policy-Lücken werden erst bei Konfiguration sichtbar — Budget für Nacharbeit einplanen |
| Pilotphase (1 Abteilung) | Woche 4–6 | 50–100 Spesenpositionen durch System laufen lassen, Qualität der Warnhinweise beurteilen, Schwellenwerte kalibrieren | Zu viele Warnhinweise — Schwellenwert zu früh auf „alles prüfen” gestellt |
| Kommunikation & Rollout | Woche 6–8 | Mitarbeitende informieren, Eskalationsprozess kommunizieren, Gesamtrollout | Erste Fehlalarme vor der Kommunikation — Vertrauen einmal beschädigt, schwer reparierbar |
| Stabilisierung | Woche 8–12 | Kalibrierung nachschärfen, Zuständigkeiten festigen, erste Erfolgsauswertung | Rückstand bei den geflaggten Fällen weil niemand zuständig — vorher Verantwortlichkeit klären |
Häufige Einwände — und was dahintersteckt
“Wir vertrauen unseren Mitarbeitenden.” Das ist richtig — und das Argument verwechselt Vertrauen mit Naivität. Ein Betrugsprüfsystem sagt nicht, dass du Mitarbeitenden nicht vertraust. Es sagt, dass du Fehler früh erkennst — auch versehentliche Fehler, Dopplungen durch unklare Prozesse, Policy-Verstöße aus Unwissenheit. Die meisten Flags, die ein solches System erzeugt, sind keine vorsätzlichen Betrugsfälle, sondern Fehler, die ohne System im Jahresabschluss auftauchen und dann aufwändig korrigiert werden müssen.
“Der Aufwand lohnt sich bei uns nicht.” Das kommt selten mit einer Rechnung. Wenn du weißt, dass monatlich 200 Spesenpositionen eingereicht werden, und du weißt, dass Finanzteams im Schnitt 2+ Tage pro Woche mit manueller Prüfung verbringen — dann ist 8 Euro/Nutzer/Monat für automatische 100-%-Prüfung wahrscheinlich ein Schnäppchen. Die Rechnung lohnt sich in fast jedem Fall ab 30–40 Mitarbeitenden mit regelmäßigen Spesen.
“Was ist mit Datenschutz?” Legitime Frage. Die Antwort ist: Spesenmanagement-Software speichert bereits alle Abrechnungsdaten — die KI-Analyse findet innerhalb derselben Plattform statt, ohne neue Daten zu erzeugen. Der Unterschied ist, dass das System jetzt aktiv auswertet statt passiv zu speichern. Das verändert die DSGVO-Bewertung geringfügig, löst sie aber nicht neu aus — der AVV, den ihr mit eurem Spesenmanagement-Anbieter habt, deckt das in der Regel ab.
“Das System wird gehackt und manipuliert.” Weniger wahrscheinlich als die aktuelle manuelle Prüfung umgangen zu werden. Wer weiß, dass Stichproben bei 5 Prozent liegen, kann mit einfachem Volumenmissbrauch arbeiten. Wer weiß, dass 100 Prozent geprüft werden — mit welchem System auch immer — hat einen anderen Kalkül.
Woran du merkst, dass das zu dir passt
- Dein Finanzteam verbringt mehr als einen halben Tag pro Woche mit Spesenprüfung und trotzdem läuft ein Großteil ungeprüft durch
- Du hast mehr als 30–50 Mitarbeitende mit regelmäßigen Dienstreisen oder Kundenbewirtung
- Ihr habt eine schriftliche Spesenrichtlinie — oder seid bereit, eine zu finalisieren (ohne diese ist KI-Prüfung sinnlos)
- Ihr nutzt bereits ein digitales Spesenmanagement-System oder seid bereit, auf eines zu wechseln
- Dein letzter Jahresabschluss hat Korrekturen bei Spesenpositionen erfordert, die früher hätten auffallen können
Wann es sich (noch) nicht lohnt — drei harte Ausschlusskriterien:
-
Unter 30 Mitarbeitenden mit Spesenabrechnungen. Bei diesem Volumen rentiert sich Setup- und Policy-Konfigurationsaufwand nicht. Zusätzliche Faustregel: Liegt das Belegvolumen unter 50 Spesenpositionen pro Monat, lohnt sich kein dediziertes Tool — ein gut strukturiertes Excel-Template mit manueller Prüfung reicht vollständig aus, oder der monatliche Claude-CSV-Audit als Zwischenstufe.
-
Keine schriftliche Spesenrichtlinie vorhanden. Ein KI-System prüft gegen definierte Regeln. Wenn die Regeln nicht existieren, prüft es gegen nichts — und erzeugt entweder zu viele Alerts oder gar keine aussagekräftigen. Erst die Richtlinie finalisieren, dann die KI einführen.
-
Spesen werden aktuell komplett auf Papier oder in Excel ohne Belegdigitalisierung erfasst. Anomalie-Erkennung braucht strukturierte, maschinenlesbare Daten. Wenn die Grundlage papierne Belege in einem Ordner sind, ist der erste Schritt die Digitalisierung — und das ist ein eigenes Projekt, das vor dem KI-Betrieb abgeschlossen sein muss.
Interaktiver Rechner
Lohnt sich KI-Betrugserkennung für euer Unternehmen?
Gib deine Kennzahlen ein — du bekommst eine Einschätzung des Einsparpotenzials und eine Tool-Empfehlung.
Das kannst du heute noch tun
Der schnellste Anfang ohne jede neue Software: Exportiere die letzten drei Monate Spesenabrechnungen aus eurem aktuellen System (oder aus Excel) in eine CSV-Datei. Dann führ diesen Prompt in ChatGPT aus:
Mitarbeiter:in
KI-Assistent
Quellen & Methodik
- ACFE, “Occupational Fraud 2024: A Report to the Nations” (2024): 5-Prozent-Verlustschätzung durch occupational fraud; Entdeckungsverzug von 12–18 Monaten; 1.921 Fälle aus 138 Ländern. Vollständiger Report unter acfe.com/RTTN. Die 5-Prozent-Zahl bezieht sich auf Jahresumsatz, nicht ausschließlich auf Spesenbetrug.
- Rydoo Smart Audit Produktdokumentation (2025): 97%-Erkennungsrate, über 20 geprüfte Compliance-Kriterien, Fake-Beleg-Detection-Daten. Rydoo.com/expense/smart-audit/. Herstellerangaben — keine unabhängige Prüfung.
- Rydoo-Datenpunkt zu KI-gefälschten Belegen (September 2025): 14 Prozent aller betrügerischen Dokumente sind KI-generiert. Quelle: Rydoo-Produktkommunikation, zitiert in Branchenberichten (bundesweit.digital, pflumm.de, September/Oktober 2025).
- Forrester Total Economic Impact™ Study, commissioned by Navan (2024): 24 Minuten Zeitersparnis je Spesenabrechnung; 40 % Reduktion bei Audit- und Abstimmungszeit. Vendor-beauftragte Studie — Richtwert, kein unabhängiger Benchmark.
- Circula-Studie “Spesenbetrug 2024” (2024): 2+ Arbeitstage/Woche Prüfaufwand ab 250 MA. circula.com/de/blog/spesenbetrug.
- KMU Magazin Schweiz, „Mit KI Spesenbetrug und Compliance besser kontrollieren” (2024): 40 Prozent der Befragten besorgt über Fehlalarm-Beschuldigungen. kmu-magazin.ch.
- § 87 Abs. 1 Nr. 6 BetrVG: Mitbestimmungsrecht des Betriebsrats bei technischen Einrichtungen, die das Verhalten der Mitarbeitenden überwachen. Betriebsverfassungsgesetz in der gültigen Fassung.
- DSGVO Art. 22: Automatisierte Einzelentscheidungen — Einschränkungen bei Entscheidungen ohne menschliche Prüfung. Datenschutz-Grundverordnung in der gültigen Fassung.
Du willst wissen, welcher Toolansatz für eure Unternehmensgröße und euren Buchhaltungs-Stack realistisch ist — und was der erste sinnvolle Schritt wäre? Meld dich — das klären wir in einem kurzen Gespräch.
Diesen Inhalt teilen:
Interesse an diesem Use Case?
Schreib uns, wenn du mehr erfahren oder diesen Use Case für dein Unternehmen umsetzen möchtest. Wir melden uns zeitnah bei dir.
Weitere Use Cases
KI-Assistent für interne Wissensdatenbank
Ein KI-Assistent durchsucht alle internen Dokumente quellengenau und beantwortet Fragen direkt — für schnellere Informationsfindung und besseres Onboarding.
Mehr erfahrenAutomatisierte Meeting-Protokolle und Aufgaben
KI transkribiert Meetings, fasst Ergebnisse zusammen und extrahiert Aufgaben mit Verantwortlichkeiten — für lückenlose Dokumentation und weniger vergessene Maßnahmen.
Mehr erfahrenAutomatisierte Rechnungsverarbeitung
KI erkennt Rechnungsfelder automatisch, prüft auf Plausibilität und leitet zur Freigabe weiter — für schnellere Durchlaufzeiten und weniger manuelle Fehler.
Mehr erfahren