Zeugniserstellung mit KI
KI erstellt rechtskonforme, wohlwollende Arbeitszeugnisse auf Basis von strukturierten Informationen — in Minuten statt Stunden, mit der richtigen Zeugnissprache.
- Problem
- Arbeitszeugnisse zu schreiben ist zeitintensiv und rechtlich heikel — die Zeugnissprache hat ungeschriebene Regeln, die man kennen muss. Fehler können zu Klagen führen.
- KI-Lösung
- Ein Large Language Model (LLM) generiert Zeugnisentwürfe auf Basis von Beurteilungsbogen-Eingaben, kennt die Kodierungen der deutschen Zeugnissprache und erstellt rechtssichere, individuell wirkende Texte.
- Typischer Nutzen
- HR spart pro Zeugnis 1–2,5 Stunden, Mitarbeiter bekommen schnellere Zeugnisse und die Qualität ist konsistent hoch — ohne Rechtsrisiko.
- Setup-Zeit
- Prompt-Setup in 3–6 Std.; erster Entwurf am gleichen Tag
- Kosteneinschätzung
- ab 0 € Einrichtung (Prompt); bis 15.000 € Custom
Es ist Donnerstag, 14:22 Uhr. Sandra, HR-Referentin in einem Produktionsunternehmen in Bielefeld, startet Word und öffnet das letzte Zeugnis, das sie vor neun Monaten geschrieben hat. Sie will es als Vorlage nehmen.
Das Problem: Das Zeugnis war für eine Sachbearbeiterin — jetzt braucht sie eines für einen Teamleiter in der Produktion. Andere Aufgaben, andere Führungsverantwortung, andere Bewertungsebenen. Der Beurteilungsbogen, den der Abteilungsleiter zurückgeschickt hat, enthält drei handschriftliche Stichpunkte.
Sie recherchiert eine Stunde in einem alten Zeugnis-Musterbuch. Sie ist sich nicht sicher, ob „zeigte stets Einsatzbereitschaft” gut oder mittelmäßig klingt. Sie schreibt einen Entwurf. Schickt ihn zur Freigabe. Wartet 10 Tage. Bekommt ihn zurück mit dem Vermerk „bitte freundlicher formulieren” — ohne konkreteren Hinweis.
Der Mitarbeiter, der das Zeugnis dringend für eine Bewerbung braucht, hat inzwischen zweimal nachgefragt.
Das echte Ausmaß des Problems
Das Arbeitszeugnis ist eine deutsche Besonderheit — und eine der komplexesten Routineaufgaben, die HR-Abteilungen regelmäßig zu bewältigen haben. Die Komplexität liegt nicht in der Länge der Texte, sondern in der Sprache dahinter: Der deutsche Zeugniscode ist ein System versteckter Bedeutungen, das sich über Jahrzehnte gewachsener Rechtsprechung entwickelt hat.
Ein Beispiel: „Stets zu unserer vollsten Zufriedenheit” bedeutet sehr gut — Note 1. „Zu unserer vollen Zufriedenheit” klingt ähnlich, bedeutet aber befriedigend — Note 3. „Zu unserer Zufriedenheit” ist ausreichend — Note 4. Im normalen Sprachgebrauch klingt „zu unserer Zufriedenheit” positiv. Im Zeugnis ist es eine Abwertung, die potenziell dazu führt, dass der Empfänger in Bewerbungsgesprächen gefragt wird, was schiefgelaufen ist. Wer diesen Unterschied nicht kennt, kann unbeabsichtigt den beruflichen Ruf eines Mitarbeiters beschädigen — und läuft Gefahr, dass dieser Zeugnis-Korrektur einklagt.
Der schiere Zeitaufwand ist erheblich: Ein sorgfältig formuliertes Zeugnis dauert in der Praxis 1 bis 3 Stunden — Gespräch mit der Führungskraft, Informationen zusammentragen, ersten Entwurf schreiben, Formulierungen recherchieren, Kodierungen prüfen, Freigabe einholen. Bei einem mittelgroßen Unternehmen mit 200 Mitarbeitenden und einer durchschnittlichen Fluktuationsrate von 15 Prozent bedeutet das 30 Zeugnisse pro Jahr. Selbst wenn man nur 1,5 Stunden pro Zeugnis ansetzt: 45 Stunden Zeugnis-Arbeit jährlich — mehr als eine Vollzeit-Arbeitswoche, allein für diesen einen Prozess.
Hinzu kommt das rechtliche Risiko: Laut Bundesarbeitsgerichts-Statistik sind Zeugnisstreitigkeiten eine der häufigsten Ursachen für arbeitsrechtliche Auseinandersetzungen. Ein Mitarbeitender hat nach § 630 BGB und § 109 GewO das Recht auf ein wohlwollendes, wahrheitsgemäßes Zeugnis — und kann Korrektur verlangen oder klagen, wenn das nicht erfüllt wird.
Mit vs. ohne KI — ein ehrlicher Vergleich
| Kennzahl | Ohne KI | Mit KI-Unterstützung |
|---|---|---|
| Zeit pro Zeugnis | 1,5–3 Stunden | 20–40 Minuten |
| Bearbeitungszeit (Anfrage bis Ausstellung) | 5–15 Werktage | 1–3 Werktage |
| Rechtliche Fehlerquote (Formulierungen) | 10–25 % (ohne Fachjurist) (Schätzwert aus Praxisberichten) | 2–5 % (Schätzwert aus Praxisberichten) |
| Konsistenz der Beurteilungssprache | Stark personenabhängig | Einheitlich |
| Nacharbeiten durch Mitarbeiterwünsche | Häufig | Seltener (bei frühem Einbezug) |
Diese Werte basieren auf Erfahrungen aus HR-Projekten sowie Angaben von HR-Software-Anbietern. Die tatsächliche Zeitersparnis hängt stark davon ab, wie gut der Input strukturiert ist.
Einschätzung auf einen Blick
Zeitersparnis — hoch (4/5) Die Reduktion von 1,5–3 Stunden auf 20–40 Minuten pro Zeugnis ist real und direkt messbar. Für HR-Teams mit 20+ Zeugnissen pro Jahr macht das einen spürbaren Unterschied in der Wochenkapazität. Kein 5, weil der Eingabeprozess (Beurteilungsbogen ausfüllen, Freigabe einholen) weiterhin menschlichen Aufwand erfordert. Innerhalb HR aber klar im oberen Bereich.
Kosteneinsparung — hoch (4/5) Direkte Einsparung durch reduzierte Personalkosten für Zeugnis-Routinearbeit ist gut quantifizierbar. Hinzu kommt der schwer messbare, aber real bedeutsame Nutzen: vermiedene Rechtsstreitigkeiten. Ein einziger Zeugnisstreit vor dem Arbeitsgericht kostet mehr als der gesamte Jahresnutzen der KI-Lösung. Dieser Risikominderungseffekt ist in HR einzigartig direkt.
Schnelle Umsetzung — hoch (4/5) Der Prompt-Setup für ein gutes Zeugnissystem dauert 3–6 Stunden, aber den ersten Entwurf bekommst du am gleichen Tag. Kein technisches Setup nötig — ChatGPT genügt als Startpunkt. Kein 5, weil das Regelwerk für die Zeugnissprache sorgfältig eingepflegt werden muss und erste Entwürfe noch Qualitätskontrolle brauchen.
ROI-Sicherheit — sehr hoch (5/5) Der ROI-Nachweis ist im HR-Bereich nirgends so direkt wie hier: Du zählst Zeugnisse, misst Zeit, berechnest Einsparung. Dazu kommt die rechtliche Risikovermeidung als greifbaren Zusatznutzen. Innerhalb der HR-Branche der stärkste Use Case für nachweisbaren, isolierbaren Return.
Skalierbarkeit — niedrig (2/5) Jedes Zeugnis erfordert individuellen Input — Beurteilungsbogen, Führungskraftgespräch, Freigabe. Mit steigender Mitarbeiterzahl wächst der Aufwand nahezu linear. KI beschleunigt den Prozess, automatisiert ihn aber nicht. Der Aufwand skaliert nicht weg. Im Vergleich zu HR-Chatbots oder Reporting, die wirklich mit der Unternehmensgröße skalieren, klarer Nachteil.
Richtwerte — stark abhängig von Unternehmensgröße, Zeugnisvolumen und Konfigurationstiefe des Prompts.
Was KI bei der Zeugniserstellung konkret macht
Der Prozess beginnt mit einem strukturierten Beurteilungsbogen, den HR oder die direkte Führungskraft ausfüllt. Dieser Bogen erfasst: Tätigkeitsbeschreibung (Aufgaben, Verantwortungsbereich, besondere Projekte), Bewertung in Kernbereichen (Arbeitsqualität, Arbeitsquantität, Eigeninitiative, Zuverlässigkeit, Teamverhalten, optional Führungsverhalten) sowie die gewünschte Gesamtnote im Zeugnismaßstab (sehr gut / gut / befriedigend).
Das Sprachmodell (LLM) übersetzt diese Eingaben in korrekten Zeugniscode. Es kennt die gängigen Formulierungen für jede Note, weiß welche Adjektive und Adverbien welche Signalwirkung haben, und baut daraus einen kohärenten Text.
Das Ergebnis ist ein vollständiger Zeugnisentwurf in der klassischen Struktur: Einleitung mit Tätigkeitsbeschreibung, Leistungsbeurteilung, Verhaltensbeurteilung gegenüber Vorgesetzten und Kollegen, optional Führungsbeurteilung, und eine Schlussformel. HR prüft den Entwurf, ergänzt unternehmensspezifische Details und gibt ihn frei.
Für komplizierte Fälle — Trennungen im Streit, Abmahnungen im Vorfeld, laufende arbeitsrechtliche Auseinandersetzungen — ist menschliches Urteilsvermögen und juristischer Rat weiterhin unersetzlich. KI deckt den Routinefall ab, keinen Sonderfall.
Konkrete Werkzeuge — was wann passt
ChatGPT mit Zeugnissprache-Systemkontext — die pragmatischste Einstiegslösung. Du entwickelst einmalig einen Systemprompt, der die Kodierungen der deutschen Zeugnissprache, den gewünschten Stil und dein Corporate Wording enthält. Dann fütterst du ihn mit dem ausgefüllten Beurteilungsbogen und bekommst einen Entwurf. Für HR-Teams, die 10 bis 30 Zeugnisse pro Jahr erstellen, ist das ausreichend und kosteneffizient. Kosten: 20 Euro/Monat (ChatGPT Plus). Einmaliger Setup-Aufwand für den Prompt: 2 bis 4 Stunden.
Personio — die meistgenutzte HR-Plattform für KMU in Deutschland enthält Zeugnis-Vorlagen und Workflow-Funktionen. Wenn Personio ohnehin im Einsatz ist, sind Mitarbeiterdaten bereits hinterlegt, was Doppeleingaben vermeidet. Direkter KI-gestützter Zeugnisgenerator je nach Version verfügbar. Kosten: im Plattformpreis enthalten, ab ca. 6–8 Euro pro Mitarbeitendem/Monat.
rexx Systems — deutsches HR-System mit spezifischem Fokus auf Compliance und Zeugniserstellung. Besonders geeignet für Unternehmen mit höherem Zeugnis-Volumen und strikten internen Freigabe-Workflows. Enthält Zeugnisgeneratoren mit deutschen Zeugniskonventionen und Vier-Augen-Prinzip für die Freigabe.
Custom-Lösung für große HR-Abteilungen — bei mehr als 60 bis 80 Zeugnissen pro Jahr lohnt sich eine eigene Lösung: spezifisches Regelwerk als Systemkontext, direkte HRIS-Integration, automatisierter Beurteilungsbogen, strukturierte Freigabe-Pipeline. Einmalaufwand 5.000 bis 15.000 Euro je nach Tiefe der Integration.
Datenschutz und Datenhaltung
Zeugnisdaten sind Arbeitnehmerdaten und fallen unter § 26 BDSG sowie die DSGVO. Wenn du externe KI-Tools für die Zeugniserstellung nutzt, müssen einige Punkte vor dem ersten Einsatz geklärt sein.
Mit jedem Anbieter, der Mitarbeiterdaten verarbeitet — also auch ChatGPT/OpenAI, wenn du Namen und Tätigkeiten eingibst — ist ein Auftragsverarbeitungsvertrag (AVV) nach Art. 28 DSGVO abzuschließen. OpenAI bietet ein Data Processing Addendum für Business-Nutzer an. Wer mit einem Firmen-Account (ChatGPT Team oder Enterprise) arbeitet, hat bessere Vertragsbedingungen als beim privaten Plus-Account.
Eine praktische Alternative: Anonymisiere die Eingaben. Statt „Maria Schulze, Projektleiterin bei der XY GmbH” gibst du der KI nur die Tätigkeitsbeschreibung und Bewertungsparameter — ohne Namen oder identifizierende Details. Das Ergebnis ist ein Entwurf mit Platzhaltern, den du danach selbst mit den echten Personendaten füllst. So umgehst du das DSGVO-Problem vollständig.
Löschfristen: Zeugnisdaten sind Teil der Personalakte. Sie unterliegen Aufbewahrungsfristen — in der Regel 10 Jahre nach Ausscheiden des Mitarbeitenden. Entwurfs-Versionen und Zwischenprompts sollten nicht unkontrolliert gespeichert bleiben.
Was es kostet — realistisch gerechnet
Einmalige Kosten
Der größte Einrichtungsaufwand ist nicht technisch, sondern inhaltlich: Ein guter Zeugnisprompt muss die deutschen Kodierungen korrekt abbilden, das Unternehmens-Wording kennen und Varianten für verschiedene Rollen berücksichtigen. Das sind 3 bis 6 Stunden interne Entwicklungszeit oder 300 bis 600 Euro externe Unterstützung.
Laufende Kosten
- ChatGPT Plus für gelegentliche Nutzung: 20 Euro/Monat
- Personio mit Zeugnis-Workflow: im Paketpreis enthalten (ab ca. 150–400 Euro/Monat je nach Mitarbeiterzahl)
ROI-Szenario
Angenommen: 25 Zeugnisse pro Jahr, durchschnittliche Ersparnis 1,5 Stunden pro Zeugnis, HR-Stundensatz 45 Euro. Das ergibt 1.687 Euro gesparte Personalkosten — pro Jahr, allein für Zeugnis-Routinearbeit. Hinzu kommt das reale Risikopotenzial: Jedes Zeugnis mit einem rechtlichen Fehler kann zu einer Korrekturpflicht führen, und im Streitfall zu einem Arbeitsgericht. Ein einziger solcher Fall kostet mehr als der gesamte Jahresnutzen der KI-Lösung.
Der Break-even liegt für die meisten Setups bei 5 bis 10 Zeugnissen — danach rechnet sich der Einsatz.
Typische Einstiegsfehler
1. KI-Entwürfe ohne Qualitätsprüfung in Konfliktsituationen verwenden. In Standardfällen — Mitarbeitende das Unternehmen einvernehmlich verlassen nach guter Zusammenarbeit — funktioniert KI-generierter Zeugnistext sehr gut. In Trennungssituationen mit Konfliktpotenzial, bei Abmahnungen im Vorfeld oder wenn arbeitsrechtliche Schritte angedeutet wurden, braucht jeder KI-Entwurf eine menschliche Prüfung — idealerweise durch jemanden mit arbeitsrechtlicher Erfahrung. Die Zeugnisfälle im Vorfeld einteilen: Routine, Sonderfall, Konfliktfall — und für letztere einen Vier-Augen-Prozess vorschreiben.
2. Den Beurteilungsbogen zu knapp ausfüllen. „War gut in seiner Arbeit” als Eingabe ergibt ein generisches Zeugnis, das auf hundert andere Mitarbeitende ebenso gut passen würde. Je detaillierter die Eingabe — konkrete Projekte, spezifische Stärken, besondere Leistungen, Eigenheiten der Rolle — desto individueller und überzeugender das Ergebnis. Entwickle einmalig einen guten Beurteilungsbogen mit 8 bis 10 konkreten Fragen.
3. Den Mitarbeitenden nicht frühzeitig einbeziehen. In Deutschland hat der Arbeitnehmer das Recht, ein wohlwollendes Zeugnis zu verlangen, und bei Unzufriedenheit auf Korrektur zu bestehen (§ 630 BGB, § 109 GewO). Wer Zeugnisse ohne Rücksprache ausstellt und dann Änderungen nacharbeiten muss, verliert die Zeitersparnis durch KI wieder. Den KI-Entwurf dem Mitarbeitenden zur Durchsicht vorlegen, bevor er unterschrieben wird.
4. Den Prompt nie aktualisieren. Wer seinen Zeugnisprompt seit mehr als einem Jahr nicht überarbeitet hat, riskiert, dass neue BAG-Urteile die Signalwirkung bestimmter Formulierungen verschoben haben — z. B. hat die Rechtsprechung zur Schlussformelpraxis mehrfach Formulierungen neu bewertet, die zuvor als neutral galten. Einmal jährlich den Prompt gegen aktuelle Kommentarliteratur (z. B. ArbG-Kommentar § 109 GewO) abgleichen und ein aktuelles Test-Zeugnis zur Qualitätskontrolle erstellen.
Was mit der Einführung wirklich passiert
Das erste überraschende Erlebnis für die meisten HR-Teams: Der KI-Entwurf ist oft besser als der eigene erste Versuch — nicht weil die KI mehr von der Person weiß, sondern weil sie konsistenter in der Zeugnissprache ist und keine Formulierungsunsicherheiten hat.
Das zweite: Führungskräfte, die den Beurteilungsbogen ausfüllen sollen, liefern anfangs zu knappe Eingaben. Hier hilft ein kurzes Briefing: „Die KI braucht konkrete Beispiele und Bewertungen, sonst schreibt sie ein generisches Zeugnis, das eurem Mitarbeitenden nicht gerecht wird.” Das wirkt — weil das Ergebnis unmittelbar sichtbar ist.
Widerstand kommt manchmal aus der Geschäftsführung: „Zeugnisse sind Chefsache.” Die Antwort: Die Geschäftsführung bekommt einen fertigen Entwurf zur Prüfung und Freigabe — wie vorher. Was sich ändert: HR liefert den Entwurf nach einem Tag statt nach einer Woche, und er ist sprachlich bereits auf einem guten Niveau. Das beschleunigt die Runde, reduziert Überarbeitungen.
Realistischer Zeitplan mit Risikohinweisen
| Phase | Dauer | Was passiert | Typisches Risiko |
|---|---|---|---|
| Prompt-Entwicklung & Setup | Woche 1–2 | Zeugnissprache-Regelwerk erarbeiten, Prompt testen, Beurteilungsbogen entwickeln | Kodierungen falsch abgebildet — erstes Test-Zeugnis entspricht nicht dem gewünschten Notenspiegel |
| Erstes Test-Zeugnis | Woche 2–3 | Echtes Zeugnis mit KI-Entwurf erstellen, durch erfahrene HR-Person gegengeprüft | Führungskraft füllt Beurteilungsbogen zu knapp aus |
| Pilotbetrieb (3–5 Zeugnisse) | Woche 3–6 | Prozess stabilisieren, Feedback einholen, Bogen und Prompt anpassen | Qualitätsschwankungen bei unterschiedlichen Rollen — Prompt muss rollenangepasst werden |
| Routine-Betrieb | Ab Woche 7 | KI als Standard im Zeugnis-Workflow, Freigabeprozess dokumentiert | Rechtliche Änderungen (BGH-Urteile) werden nicht ins Regelwerk übernommen |
Dein Aufwand: In der Einführungsphase 4 bis 8 Stunden gesamt. Im Routine-Betrieb unter 30 Minuten pro Zeugnis.
Häufige Einwände — und was dahintersteckt
„KI kennt die Zeugnissprache nicht gut genug.” Das kommt auf die Konfiguration an. Ein einfacher Prompt ohne spezifische Anweisung ergibt ein mittelmäßiges Zeugnis. Ein Prompt, der die wichtigsten Kodierungen explizit enthält, Beispielformulierungen für verschiedene Noten mitgibt und klare Regeln für Schlussformeln definiert, liefert Texte, die mit denen erfahrener HR-Profis vergleichbar sind. Der Unterschied liegt nicht im Modell, sondern in der Vorbereitung.
„Zeugnisse sind bei uns Chefsache.” Das verändert sich durch KI nicht. Die Geschäftsführung bekommt einen Entwurf zur Prüfung und Freigabe — genau wie vorher. Was sich ändert: HR liefert ihn schneller und auf höherem Qualitätsniveau. Das beschleunigt die Freigaberunde.
Woran du merkst, dass das zu dir passt
- Zeugniserstellung dauert bei euch regelmäßig länger als zwei Wochen — und Mitarbeitende fragen nach
- HR-Mitarbeitende sind unsicher, ob ihre Formulierungen den richtigen Notenspiegel abbilden
- Die Qualität der Zeugnisse schwankt je nachdem, wer sie schreibt
- Ihr habt mehr als 15 Zeugnisse pro Jahr zu erstellen
- Ihr musstet Zeugnisse schon mal nach Mitarbeiter-Rückmeldung überarbeiten
Das passt noch nicht zu dir, wenn: Du hauptsächlich schwierige Trennungssituationen zu bewältigen hast — dort ersetzt KI keinen Rechtsanwalt, und der Zeitgewinn ist kleiner als bei Routinezeugnissen. Für Unternehmen mit weniger als 5 Zeugnissen pro Jahr ist der Setup-Aufwand relativ zum Nutzen hoch.
Das kannst du heute noch tun
Entwickle heute einen ersten Zeugnisprompt für deine häufigste Rollenkategorie. Nimm ein altes Zeugnis mit guter Beurteilung (Note gut) und lass die KI prüfen, ob die Formulierungen dem richtigen Notenspiegel entsprechen — das zeigt dir sofort, ob das Setup funktioniert.
Mitarbeiter:in
KI-Assistent
Quellen & Methodik
- Bundesarbeitsgericht, Jahresstatistik 2023 — Zeugnisstreitigkeiten als häufige Ursache arbeitsrechtlicher Klagen
- § 630 BGB / § 109 GewO — Zeugnis-Rechtsgrundlagen, Stand April 2026
- § 26 BDSG — Verarbeitung personenbezogener Daten im Beschäftigungsverhältnis
- Personio, rexx Systems Produktdokumentation 2024 — Funktionsübersicht Zeugnismodule
- Zeitangaben für manuelle Zeugniserstellung basieren auf Schätzungen aus HR-Verbänden und eigenen Erhebungen in Projekten. Kostenschätzungen sind Richtwerte — für verbindliche Einschätzungen im Einzelfall ist ein Fachanwalt für Arbeitsrecht zu konsultieren.
Diesen Inhalt teilen:
Interesse an diesem Use Case?
Schreib uns, wenn du mehr erfahren oder diesen Use Case für dein Unternehmen umsetzen möchtest. Wir melden uns zeitnah bei dir.
Weitere Use Cases
KI bei der Stellenanzeigen-Erstellung und Bewerberauswahl
KI erstellt zielgruppengerechte Stellenanzeigen in Minuten und filtert Bewerbungen nach relevanten Kriterien — damit HR mehr Zeit für echte Gespräche hat.
Mehr erfahrenBewerbersichtung und Vorqualifikation mit KI
KI filtert eingehende Bewerbungen nach definierten Kriterien, erstellt Kandidatenprofile und priorisiert die vielversprechendsten Bewerber — ohne Bias, ohne Zeitverlust.
Mehr erfahrenKI-gestütztes Onboarding neuer Mitarbeiter
KI personalisiert den Onboarding-Prozess, beantwortet häufige Fragen neuer Mitarbeiter und stellt sicher, dass kein Schritt vergessen wird — für schnellere Produktivität und weniger Frühfluktuation.
Mehr erfahren