Wirkungsmessung und Reporting
KI aggregiert Projektdaten aus verschiedenen Quellen und generiert strukturierte Wirkungsberichte für Förderer — spart Wochen und verbessert die Berichtsqualität.
- Problem
- Eine Vier-Personen-NGO bindet faktisch eine Vollzeitstelle für Reporting — und die Berichte überzeugen trotzdem nicht, weil sie Aktivitäten auflisten statt Wirkungen zu belegen.
- KI-Lösung
- Ein LLM erstellt auf Basis strukturierter Projektdaten förderspezifische Berichtsentwürfe nach Theory-of-Change-Logik — Output, Outcome, Impact statt Aktivitätsliste.
- Typischer Nutzen
- 60–70% weniger Zeitaufwand pro Bericht (Schätzwert aus Praxisberichten); Berichte mit Outcome-Sprache erhöhen nachweislich die Verlängerungswahrscheinlichkeit bei Förderern.
- Setup-Zeit
- 4–8 Wochen bis funktionierender Workflow
- Kosteneinschätzung
- 27–50 €/Monat Toolkosten, kein nennenswerter Setup-Invest
Es ist Ende März, 16:00 Uhr.
Ahmed ist Projektleiter bei einer Integrationsorganisation in Hamburg. Drei Geldgeber warten auf Wirkungsberichte: der Senat, eine Stiftung und ein Bundesministerium. Alle haben unterschiedliche Anforderungen, alle wollen die Berichte bis Ende April.
Ahmed kennt die Zahlen — er hat die Projekte gelebt. Aber jetzt soll er sie in drei verschiedene Formate bringen, mit drei verschiedenen KPI-Sets, drei verschiedenen Erzähltonen. Letztes Jahr hat er für diese Berichte knapp fünf Wochen gebraucht, verteilt über März und April.
In dieser Zeit laufen die Projekte weiter. Ahmed ist an beiden Orten gleichzeitig — und an keinem wirklich.
Das echte Ausmaß des Problems
Eine mittelgroße NGO mit vier bis acht Hauptamtlichen erstellt im Jahr oft fünf bis fünfzehn Wirkungsberichte — für Projektförderer, institutionelle Geldgeber, Stiftungen, das Finanzamt und die eigene Öffentlichkeitsarbeit. Jeder Bericht hat andere Anforderungen, andere Zielgruppen, andere Kennzahlen.
Laut einer ZiviZ-Studie (2024) verbringen Mitarbeitende in gemeinnützigen Organisationen durchschnittlich 15 bis 25 Prozent ihrer Arbeitszeit mit administrativem Reporting. Für eine Vier-Personen-Organisation bedeutet das: Eine Vollzeitstelle wird faktisch für Reporting eingesetzt — nicht für die eigentliche Mission.
Das inhaltliche Problem ist oft genauso gravierend: Viele Wirkungsberichte sind nicht überzeugend. Sie listen Aktivitäten auf (“Wir haben 3 Workshops durchgeführt”), statt Wirkungen zu belegen (“In den 3 Workshops haben 47 Teilnehmende konkrete Handlungskompetenzen erworben, 70 Prozent davon haben ihr Verhalten seitdem geändert”). Diese Lücke zwischen Aktivitätsdokumentation und Wirkungsnachweis führt dazu, dass Förderer nicht verlängern — nicht weil die Arbeit schlecht ist, sondern weil sie nicht überzeugend kommuniziert wird.
Der Trend zu evidenzbasierter Philanthropie verstärkt das: Bundesministerien, EU-Fördereinrichtungen und große Stiftungen verlangen zunehmend Impact Reports mit KPIs, SROI-Analysen und Outcome-Messungen. Was früher ein 2-seitiger Aktivitätsbericht war, ist heute ein 30-seitiger Impact Report.
Mit vs. ohne KI — ein ehrlicher Vergleich
| Kennzahl | Ohne KI | Mit KI-Unterstützung |
|---|---|---|
| Zeitaufwand pro Wirkungsbericht | 6–12 Stunden | 2–4 Stunden |
| Qualität der Wirkungssprache | Aktivitäts-fokussiert | Outcome-fokussiert, strukturiert |
| Varianten für verschiedene Förderer | Manuell, oft copy-paste | Automatisch angepasst pro Förderer-Vorlage |
| Konsistenz über Berichtszeitraum | Von Person zu Person variabel | Konsistent, da Template-basiert |
| Visualisierung von Daten | Manuell in Excel/PowerPoint | KI-gestützt aus strukturierten Rohdaten |
Quellen: ZiviZ (2024), Bundesverband Deutscher Stiftungen (2023), Erfahrungswerte aus NGO-Beratung.
Einschätzung auf einen Blick
Zeitersparnis — hoch (4/5)
Der Effekt ist direkt und messbar: Statt 8 Stunden pro Bericht 2–4 Stunden. Über 12 Berichte pro Jahr sind das 50–70 eingesparte Stunden — das ist real und sofort spürbar.
Kosteneinsparung — niedrig (2/5)
Kein direktes Cost-Saving: Die eingesparten Personalstunden fließen in andere Aufgaben, werden nicht direkt monetarisiert. Indirekter Effekt: Bessere Berichte führen zu höherer Förderwahrscheinlichkeit — aber das ist schwer direkt zuzuordnen. Im Vergleich zu Übersetzungen oder Förderantragssuche (klare direkte Kostenersparnis) ist dieser Hebel schwächer.
Schnelle Umsetzung — niedrig (2/5)
Aufwendigster Einstieg im Branch: Vor dem ersten KI-gestützten Bericht müssen Datenquellen strukturiert, Vorlagen für jeden Förderer gebaut und der Prüfungsprozess definiert werden. Das dauert realistisch 4–8 Wochen. Nicht für Organisationen geeignet, die nächste Woche einen Bericht abgeben müssen.
ROI-Sicherheit — hoch (4/5)
Der Nutzen ist klar messbar: Zeitaufwand vorher vs. nachher verfolgen. Dazu: Wenn bessere Berichte zu Folgeförderungen führen, ist das direkt nachweisbar. Eines der wenigen Nonprofit-Felder, wo der Impact eindeutig quantifizierbar ist.
Skalierbarkeit — mittel (3/5)
Das System skaliert bedingt: Mehr Förderer bedeuten mehr Vorlagen, die gepflegt werden müssen. Nicht selbstläufig wie ein Automatisierungs-Workflow, sondern weiter auf menschliche Pflege angewiesen.
Richtwerte — stark abhängig von der Anzahl der Förderbeziehungen und der Datenqualität.
Was das System konkret macht
Ebene 1 — Daten-Aggregation: Das System verbindet bestehende Tracking-Tools: Projektmanagement (Asana, Trello), CRM, Befragungstools (Google Forms), Finanz-Reporting (Excel-Exporte). KI extrahiert relevante Kennzahlen: Anzahl erreichter Personen, Ausgaben je Maßnahme, Feedback-Auswertungen.
Ebene 2 — Narrative Generierung: Ein LLM erstellt auf Basis der Daten und einiger Fallbeispiele einen strukturierten Bericht-Entwurf: Executive Summary, Projektbeschreibung, Wirkungskennzahlen mit Kontext, Fallbeispiele, Ausblick. Wichtig: Förderer-spezifische Vorlagen steuern, was der Bericht betont und welche Sprache er nutzt.
Ebene 3 — Theory of Change-Sprache: KI kennt Standard-Frameworks für Wirkungsmessung und hilft, Berichte so zu strukturieren: Was ist das Problem? Was ist die Intervention? Was sind die direkten Outputs? Mittelfristige Outcomes? Langfristige Wirkung? Das ist die Sprache, die professionelle Förderer erwarten.
Konkrete Werkzeuge — was wann passt
Claude — 18 Euro/Monat
Für lange, strukturierte Dokumente. Kann mehrere Berichte, Statistiken und Feldberichte gleichzeitig verarbeiten und eine kohärente Einschätzung erstellen. Besonders stark für Berichte mit komplexen Anforderungen.
ChatGPT — 20 Euro/Monat
Für schnelle Abschnitts-Entwürfe und kürzere Berichte. Gut für Social-Media-Berichte, kurze Projektupdate-E-Mails, Jahres-Newsletterabschnitte.
NotebookLM — kostenlos
Für tiefere Dokument-Analyse. Projektberichte, Interview-Transkripte und Rohdaten hochladen, dann gezielt fragen: “Was sind die wichtigsten Wirkungsaussagen aus diesen 15 Projektberichten?” Sehr nützlich für Jahresberichte.
Microsoft 365 Copilot — 30 Euro/Nutzer/Monat
Für Organisationen in der Microsoft-Welt: Word-Berichte mit Copilot generieren, Excel-Daten direkt auswerten. Wenn Microsoft 365 ohnehin genutzt wird, ist das die natürliche Erweiterung.
Make.com — 9 Euro/Monat
Für die Automatisierung der Datenaggregation. Verschiedene Datenquellen automatisch zusammenführen und für die KI-Berichterstellung vorbereiten.
Kostenlos starten: NotebookLM (kostenlos) + ChatGPT Free — reicht für den ersten Pilot-Bericht.
Datenschutz und Datenhaltung
Wirkungsberichte enthalten oft schutzbedürftige Daten — insbesondere wenn sie Fallbeispiele aus der Sozialarbeit, der Kinder- und Jugendhilfe oder der Suchtberatung enthalten:
- Anonymisierung vor KI-Einsatz: Konkrete Fallbeispiele (Beneficiary-Geschichten) müssen vor der Verarbeitung in Cloud-KI-Diensten anonymisiert werden. Namen, Wohnorte, identifizierende Details entfernen oder verändern.
- SGB VIII und SGB XII: Für Organisationen, die nach SGB VIII (Kinder- und Jugendhilfe) oder SGB XII (Sozialhilfe) tätig sind, gelten besondere Datenschutzpflichten für Klienten-Daten. Diese Daten dürfen nicht in externe KI-Dienste ohne explizite Rechtsgrundlage und AVV fließen.
- AVV für alle Tools: Auftragsverarbeitungsverträge mit Claude, ChatGPT Team/Business, NotebookLM Enterprise abschließen, bevor echte Klienten-Daten verarbeitet werden.
- Aggregatdaten unkritisch: Zahlen ohne Personenbezug (47 Teilnehmende, 3 Workshops, 85% Zielerreichung) können in jedem Tool verarbeitet werden.
Empfehlung: Für die KI-Berichterstellung nur aggregierte Daten und anonymisierte Fallbeispiele verwenden. Personenbezogene Rohdaten bleiben in euren eigenen Systemen.
Was es kostet — realistisch gerechnet
Einstieg (manuelle KI-Unterstützung):
- Claude Pro: 18 Euro/Monat
- Zeitersparnis: 60–70% pro Bericht → statt 8 Stunden ca. 2,5–3 Stunden
- Bei 10 Berichten/Jahr: ca. 55 Stunden gespart
Teilautomatisierter Workflow:
- Claude Pro + Make.com: 27 Euro/Monat
- Einrichtungsaufwand: 5–10 Stunden pro Förderer-Berichtsvorlage
- Zeitersparnis: bis zu 80% pro Bericht
ROI-Beispiel:
NGO mit 6 Hauptamtlichen, 12 Wirkungsberichte/Jahr. Bisher je 8 Stunden = 96 Stunden/Jahr. Nach KI-Workflow: je 2,5 Stunden = 30 Stunden/Jahr. Ersparnis: 66 Stunden bei 25 Euro/Stunde NGO-Personalkosten = 1.650 Euro/Jahr — bei Toolkosten von unter 330 Euro/Jahr. Und bessere Berichte erhöhen die Verlängerungswahrscheinlichkeit bei Förderern.
Drei typische Einstiegsfehler
Fehler 1 — KI-Bericht ohne Datenbasis einrichten wollen
”Erstell einen Wirkungsbericht für unser Projekt” liefert generischen Text, wenn kein strukturierter Input mitgegeben wird. KI ist so gut wie die Daten, die sie bekommt. Zuerst: Datenquellen strukturieren. Dann: KI draufsetzen.
Fehler 2 — Einen universellen Berichts-Prompt für alle Förderer nutzen
Bundesministerium und lokale Stiftung wollen unterschiedliche Dinge. Wer denselben Prompt für alle Förderer nutzt, bekommt mittelmäßige Berichte für alle. Stattdessen: Pro Förderer eine spezifische Vorlage mit deren konkreten Bewertungskriterien und Sprachpräferenzen.
Fehler 3 — Menschliche Prüfung als Optional behandeln
KI-generierte Berichte klingen manchmal zu formell, zu allgemein, zu glatt. Der Prüfschritt — stimmt alles inhaltlich? Klingt das nach uns? Sind die Zahlen korrekt? — ist unverzichtbar. Wer KI-Entwürfe direkt einreicht, riskiert inhaltliche Fehler und eine Sprache, die nicht die eigene ist.
Was mit der Einführung wirklich passiert — und was nicht
Was passiert: Der erste KI-gestützte Bericht braucht genauso lang wie der manuelle — weil Prompts entwickelt, Vorlagen gebaut und Daten strukturiert werden müssen. Ab dem zweiten Bericht greift die Zeitersparnis.
Was auch passiert: Das Team bemerkt zum ersten Mal, wie unstrukturiert die Datenerhebung bisher war. Oft ist die wichtigste Konsequenz des Reporting-Projekts nicht der bessere Bericht, sondern eine verbesserte laufende Datenerfassung.
Was nicht passiert: KI generiert automatisch überzeugend-menschliche Berichte ohne Fallbeispiele. Echte Wirkungsberichte brauchen echte Geschichten aus dem Feld — die kommen von Menschen, nicht von Algorithmen.
Typischer Widerstand: “Unsere Förderer wollen persönliche, authentische Berichte.” KI generiert den strukturierten Rahmen — die Persönlichkeit, Fallbeispiele und Authentizität kommen durch den menschlichen Prüfschritt. Arbeitsteilung, keine Entmenschlichung.
Realistischer Zeitplan mit Risikohinweisen
| Phase | Dauer | Was passiert | Typisches Risiko |
|---|---|---|---|
| Berichtsvorlagen erstellen | Woche 1–2 | Für jeden Hauptförderer eine klare Vorlage mit Anforderungen dokumentieren | Zu vage Vorlagen — je spezifischer, desto bessere KI-Ergebnisse |
| Datenquellen strukturieren | Woche 2–4 | Datenquellen inventarisieren, Aggregation vorbereiten | Daten schlechter strukturiert als erwartet — Vorarbeit einplanen |
| Pilot mit einem Förderer | Woche 3–5 | Einen Wirkungsbericht mit KI-Unterstützung erstellen, Zeit messen | KI-Entwurf klingt zu formell — Prüfschritt nicht unterschätzen |
| Einführung für alle Förderberichte | Monat 2–3 | Alle Förderer-Berichte im neuen Workflow | Datenzulieferung durch Projektteams unzuverlässig |
| Jährliche Optimierung | Ab Monat 6 | Vorlagen und KI-Prompts nach Förderer-Feedback anpassen | Zu seltene Überprüfung — jährlich kurz überarbeiten |
Häufige Einwände — und was dahintersteckt
„Unsere Förderer erkennen KI-generierte Texte und bestrafen das.”
Förderer bewerten Qualität und Wahrheitsgehalt, nicht das Schreibwerkzeug. KI-Entwürfe, die von Mitarbeitenden sorgfältig überarbeitet, mit echten Daten belegt und mit Fallbeispielen angereichert werden, sind nicht erkennbar schlechter als manuell verfasste Berichte. Was Förderer negativ bewerten: Texte ohne echte Substanz — das Problem ist Qualität, nicht das Werkzeug.
„Wir haben keine strukturierten Daten.”
Dann ist der erste Schritt nicht KI-Berichterstattung, sondern Datenhygiene: Einfache Google Forms, in denen Projektmitarbeitende monatlich 5 Kennzahlen eintragen. Das dauert 5 Minuten pro Person und schafft die Grundlage. KI kann dann aus diesen strukturierten Eingaben Berichte generieren.
„KI kann nicht verstehen, was die echte Wirkung ist.”
Nein — und das soll sie auch nicht. Die KI strukturiert und formuliert, was du ihr gibst. Wenn du Wirkungsbelege als Input lieferst, kann die KI sie überzeugend aufbereiten. Wenn du nur Aktivitäten-Listen gibst, gibt sie dir Aktivitäts-Berichte zurück. Garbage in, garbage out.
Woran du merkst, dass das zu dir passt
- Du erstellst mehr als fünf Wirkungsberichte pro Jahr für verschiedene Geldgeber
- Das Reporting belastet das Team während der Berichtsperioden erheblich
- Ihr habt Fördermittel verloren und vermutet, dass der Bericht nicht überzeugend genug war
- Du hast strukturierte Projektdaten — oder bist bereit, das systematisch aufzubauen
Wer noch nicht anfangen sollte:
Wenn keine Daten vorliegen (alles in E-Mails und Köpfen) und kein Budget für 4–8 Wochen Einrichtungsaufwand vorhanden ist, ist jetzt nicht der richtige Zeitpunkt. Erst Datenbasis schaffen, dann KI-Berichterstattung.
Das kannst du heute noch tun
Nimm deinen letzten Wirkungsbericht und gib ihn in NotebookLM hoch. Frag das Tool: “Welche drei Kernaussagen zur Wirkung unserer Arbeit stecken in diesem Bericht?” Vergleiche die Antwort mit dem, was du als Hauptbotschaft vermitteln wolltest.
Mitarbeiter:in
KI-Assistent
Quellen & Methodik
- ZiviZ im Stifterverband (2024): Engagementbericht 2024 — administrativer Aufwand in gemeinnützigen Organisationen. zivilgesellschaft-in-zahlen.de
- Bundesverband Deutscher Stiftungen (2023): Reporting-Anforderungen in der Förderpraxis. stiftungen.org
- Phineo gAG (2022): Wirkungsorientierung in NGOs — Theorie und Praxis. phineo.org
- EVPA (European Venture Philanthropy Association, 2023): Impact measurement standards for nonprofits. evpa.eu.com
- Erfahrungswerte: Beobachtungen aus der Arbeit mit NGOs und Beratung zu KI-gestütztem Reporting — keine repräsentative Studie.
Diesen Inhalt teilen:
Interesse an diesem Use Case?
Schreib uns, wenn du mehr erfahren oder diesen Use Case für dein Unternehmen umsetzen möchtest. Wir melden uns zeitnah bei dir.
Weitere Use Cases
Automatisierte Förderantragssuche
KI durchsucht Förderdatenbanken systematisch und matched Projekte mit passenden Programmen — für mehr Fördermittel ohne mehr Personalaufwand.
Mehr erfahrenEhrenamtskoordination mit KI
KI entlastet hauptamtliche Koordinatoren durch automatisierte Einsatzplanung, Matching und Kommunikation mit Ehrenamtlichen.
Mehr erfahrenSpenderkommunikation automatisieren
KI personalisiert Spenderkommunikation segmentweise und erhöht die Spenderretention — ohne proportional mehr Personalaufwand.
Mehr erfahren