Forschung & Entwicklung lehrestudiumfeedback

KI-gestütztes Feedback für Studierende im Lehr- und Prüfungsbetrieb

LLM-basiertes Feedback auf studentische Abgaben entlastet Dozierende und gibt Studierenden innerhalb von Stunden statt Wochen konsistente, rubrikgebundene Rückmeldungen, mit klarer rechtlicher Grenze: Noten bleiben Menschensache.

⚡ Auf einen Blick

Problem: Dozierende mit 80+ Studierenden können keine individuellen Feedbacks schreiben. Studierendenabgaben stapeln sich 3 Wochen, kommen dann pauschal zurück, Grundlage für Prüfungsanfechtungen, weil ein zweites Gutachten fehlt oder Bewertungen zwischen Korrektorinnen und Korrektoren stark variieren.
KI-Lösung: KI prüft Abgaben automatisiert gegen eine strukturierte Rubrik und generiert spezifische Feedback-Entwürfe. Lehrende überprüfen und unterschreiben, Zeitersparnis 50–70 %, Konsistenz messbar verbessert. Endnote setzt immer eine menschliche Entscheidung.
Typischer Nutzen: Turnaround von 3 Wochen auf 2–3 Tage, konsistentes Feedback über Korrektorenteams hinweg, Prüfungsanfechtungsrisiko durch vollständige Dokumentation deutlich gesenkt.
Setup-Zeit: 14–20 Wochen inkl. Rubrik, Prüfungsordnung, DSGVO, LMS-Integration
Kosteneinschätzung: Einrichtung 5.000–15.000 €; laufend 300–800 €/Monat je nach Kursvolumen

LLM-Prompt mit Rubrik in ChatGPT/ClaudeLMS-Integration (Moodle/ILIAS) via APIGradescope für Tutor-Teams + Batch-Korrektur

Worum geht's?

Es ist Montag, 23:59 Uhr. Prof. Dr. Anna Hoffmann schließt das Abgabeportal, 82 Reflexionsberichte sind eingegangen, je 8 bis 12 Seiten.

Sie kennt das Prozedere: Bis Donnerstag hält die Begeisterung des ersten Durchlesens; ab Freitag trägt die Korrekturfatigue. Wenn sie Glück hat, sind nach zwei Wochen 30 bewertet, mit echtem Feedback. Die restlichen 52 bekommen die Standardbemerkung: „Guter Ansatz, aber vertiefen Sie die Argumentation in Abschnitt 3.” Stimmt für viele, passt für niemanden.

Drei Wochen später trudeln die Ergebnisse ein. Noch am selben Tag landet eine E-Mail im Postfach: Studierender Mehmet Yılmaz, 5,8 Punkte, Grenze zum Bestehen. Er bittet um Einsicht. Im Gespräch stellt sich heraus: Die zweite Korrektorin, Lehrbeauftragte Dr. Vogel, hatte die Arbeit nicht eigenständig bewertet, sie hatte Annas Begründung digital unterzeichnet, ohne eigene Formulierung. Vier Wochen später liegt der Fall beim Prüfungsausschuss.

Das ist kein Ausnahmefall. Das ist das strukturelle Problem von Hochschulen mit wachsenden Studierendenzahlen und stagnierendem Lehrpersonal.

Für Unternehmen

Nicht nur lesen, umsetzen.

Wir entwickeln KI-Lösungen für genau deinen Anwendungsfall und begleiten dich bei der Einführung.

Für Unternehmen

Das echte Ausmaß des Problems

Laut HFD KI Monitor 2025 (Hochschulforum Digitalisierung/Stifterverband) befassen sich 97 Prozent aller deutschen Hochschulen mit den Auswirkungen von KI auf Prüfungen, aber nur 43 Prozent haben ihre Prüfungsordnungen angepasst. Der Druck ist spürbar, die Antwort noch nicht da.

Das Problem beginnt nicht bei der Bewertung, sondern beim Feedback. In einem durchschnittlichen Seminar mit 80 Studierenden und einer schriftlichen Abgabe rechnen viele Dozierende mit mindestens 15–20 Minuten Bearbeitungszeit pro Arbeit. Das macht über 20 Stunden Korrekturzeit für eine einzelne Aufgabe, bei Lehrdeputaten von 12–18 SWS pro Semester ist das strukturell nicht lösbar. Laut Destatis (Bildung und Kultur 2023) kamen im bundesweiten Schnitt 57 Studierende auf eine Lehrperson im tertiären Bereich; an Fachhochschulen mit Lehrdeputat-Fokus liegt der Wert häufig höher.

Was in der Praxis passiert: Feedback wird pauschaler, später, seltener. Studierendenabbrüche, die auf mangelndes Feedback zurückgehen, sind belegt, das CHE-Studierendenbarometer und der Studienqualitätsmonitor (BMBF/HIS-HE) zeigen, dass zeitnahes, individuelles Feedback zu den am häufigsten genannten Studienzufriedenheitsfaktoren zählt und gleichzeitig zu den am häufigsten kritisierten Mängeln.

Das zweite Problem ist Konsistenz. Wenn zwei Personen dieselbe Arbeit unabhängig voneinander bewerten, sind Abweichungen von einem bis eineinhalb Notenpunkten in Freitext-Prüfungen keine Seltenheit. Eine Untersuchung an der Universität Ljubljana im Wintersemester 2024/25 zeigte, dass LLM-basierte Bewertung mit strukturierten Rubriken konsistentere Ergebnisse liefert als menschliche Korrektorenteams ohne gemeinsame Kalibrierung (Bioinformatics, 2025). Das ist keine Werbung für KI-Noten, es ist ein Argument für bessere Rubriksysteme, bei denen KI helfen kann.

Das dritte Problem ist rechtlich: Prüfungsanfechtungen landen vor dem Prüfungsausschuss, manchmal vor Verwaltungsgerichten. Ein Verwaltungsgerichtsurteil aus Hannover aus dem Jahr 2024 ordnete die Neubewertung einer Masterarbeit an, weil die zweite Prüferin keine eigene Begründung geliefert hatte, sie hatte lediglich die Unterschrift unter die Ausführungen der Erstprüferin gesetzt. Das Gericht sah darin einen grundlegenden Bewertungsmangel.

Mit vs. ohne KI, ein ehrlicher Vergleich

Kennzahl	Ohne KI-Unterstützung	Mit KI-Feedback-System
Turnaround Feedback nach Abgabe	2–4 Wochen	2–5 Arbeitstage
Zeitaufwand Dozierende je Abgabe	15–25 Minuten	5–8 Minuten (Review + Freigabe)
Spezifität des Feedbacks	Variabel, bei Korrekturfatigue abnehmend	Rubrikgebunden, konsistent über alle Abgaben
Konsistenz bei 2+ Korrektoren	Abweichung 1–1,5 Notenpunkte üblich	Gemeinsame Rubrik als Anker; Abweichungen werden sichtbar
Dokumentation für Prüfungsanfechtung	Häufig lückenhaft	Vollständige Bewertungshistorie automatisch
Skalierbarkeit	Linear: mehr Studierende = mehr Stunden	Sublinear: KI-Entwurf für 200 Abgaben kostet kaum mehr als für 50

Die Turnaround-Zeiten und Zeitaufwänder sind Erfahrungswerte aus dem IMPACT-Verbundprojekt (Goethe-Universität Frankfurt, HU Berlin, FernUni Hagen; BMBF-gefördert seit 2021). Konsistenz-Daten: Yavuz (2025), British Journal of Educational Technology, ICC 0,947–0,972 für LLM-basiertes Essay-Grading bei strukturierten Rubriken.

Einschätzung auf einen Blick

Zeitersparnis, sehr hoch (5/5) 50–70 Prozent Zeitersparnis bei Feedback-Aufgaben sind realistisch, das ist der stärkste Effekt im Forschungs- und Hochschulkontext. Der Engpass ist nicht die Bewertungszeit selbst, sondern das Lesen, Einordnen, Formulieren. Wenn ein LLM-Entwurf bereits den spezifischen Rubrikbezug herstellt und die Hauptschwächen benennt, reduziert sich die Arbeit Dozierender auf kritisches Lesen und Freigabe. Für Studierende bedeutet das Rückmeldungen in Tagen statt Wochen, mit messbarem Effekt auf Lernfortschritt.

Kosteneinsparung, mittel (3/5) Die Einrichtungskosten sind real: Rubrikerstellung, LMS-Integration, DSGVO-Prüfung, Pilotkoordination, je nach Aufwand 5.000–15.000 Euro einmalig. Laufend kommen API-Kosten und ggf. Plattformlizenzen hinzu (300–800 Euro/Monat). Dem steht eine messbare Entlastung von Lehrpersonal gegenüber, das in der Regel kein direktes monetäres Äquivalent hat, der ROI rechnet sich in Kapazität, nicht in gesparter Vergütung. Im Vergleich zu Anwendungsfällen, bei denen direkte Kosteneinsparungen buchhalterisch sichtbar werden, liegt dieser Use Case im Mittelfeld.

Schnelle Umsetzung, niedrig (2/5) 14–20 Wochen bis zum produktiven Pilotbetrieb sind die ehrliche Prognose: Rubrikerstellung und Kalibrierung (2–4 Wochen), Freigabe durch Prüfungsausschuss und Datenschutzbeauftragten (4–8 Wochen), LMS-Integration (2–4 Wochen), Pilotbetrieb und Nachsteuerung (2–4 Wochen). Das Nadelöhr sind meistens nicht die Technik, sondern die institutionellen Abstimmungen. Wer ohne Gremienfreigabe startet, riskiert eine Anfechtung, das spart keine Zeit.

ROI-Sicherheit, hoch (4/5) Die Zeitersparnis ist direkt messbar: Minuten pro Abgabe vor und nach der Einführung, Turnaround-Tage, Nutzungsrate des Systems. Auch das Prüfungsanfechtungsrisiko lässt sich vergleichen, Anzahl der Einsprüche und ihres Ausgangs, Vollständigkeit der Dokumentation. Was schwerer messbar bleibt: der Effekt auf Studierendenlernerfolg und -bindung, er ist gut dokumentiert, aber nicht trennscharf zuzuordnen.

Skalierbarkeit, sehr hoch (5/5) Wenn das System eingerichtet und kalibriert ist, skaliert es ohne proportionalen Mehraufwand. 50 Abgaben oder 500, die API-Kosten steigen linear, der menschliche Aufwand je Abgabe bleibt konstant niedrig. Das macht diesen Anwendungsfall besonders wertvoll für Hochschulen mit wachsenden Kohorten, die Lehrdeputate nicht proportional ausweiten können.

Richtwerte, stark abhängig von Fachrichtung, vorhandener LMS-Infrastruktur und institutionellen Genehmigungszyklen.

Was das System konkret macht

Das Prinzip ist einfacher als der Klang vermuten lässt: Nicht KI bewertet, sondern KI liest, und formuliert einen Feedback-Entwurf, den Dozierende prüfen und freigeben.

Technisch läuft das so: Die eingereichte Arbeit (PDF, Word, plaintext) wird zusammen mit der Bewertungsrubrik an ein Sprachmodell übergeben. Der Prompt enthält die Rubrikkriterien, Gewichtungen und ein Beispiel für konstruktives Feedback. Das Modell liest die Abgabe und generiert eine strukturierte Rückmeldung: welche Kriterien erfüllt sind, wo Lücken bestehen, was konkret verbessert werden könnte, alles bezogen auf die spezifische Arbeit, nicht auf vorgefertigte Textbausteine.

Was dabei nicht passiert: Das System vergibt keine Note. Es kennt keinen Namen und keine Matrikelnummer (sofern korrekt anonymisiert). Es trifft keine Endentscheidung.

Was die Lehrperson anschließend tut: Sie liest den Entwurf, prüft ob er korrekt und konstruktiv ist, korrigiert wo nötig, und gibt das Feedback frei. Diese Review dauert, bei funktionierendem System, 5–8 Minuten statt 20–25 Minuten pro Arbeit.

Für Aufgaben mit mehreren Korrektorinnen und Korrektoren kommen Systeme wie Gradescope ins Spiel: Gradescope clustert ähnliche Antworten automatisch, sodass eine Rubrik-Änderung rückwirkend für alle bereits bewerteten Abgaben gilt. Das löst das Konsistenzproblem bei Tutor-Teams ohne aufwendige Nachkorrekturen.

Für mündliche Prüfungen gibt es eine ergänzende Anwendung: Dozierende können während oder nach der Prüfung strukturierte Gesprächsnotizen in eine KI-gestützte Vorlage eingeben, die daraus eine prüfungsrechtlich verwertbare Begründung entwirft. Das entlastet die oft als Formalität behandelte Dokumentationspflicht, und schützt beide Seiten im Anfechtungsfall.

Was KI im Prüfungsbetrieb darf, und was nicht

Das ist die wichtigste Abgrenzung dieses Anwendungsfalls. Sie ist kein Disclaimer, sondern der inhaltliche Kern.

KI darf:

Studentische Texte gegen strukturierte Rubriken prüfen und Abweichungen benennen
Feedback-Entwürfe formulieren, die Dozierende prüfen und freigeben
Ähnliche Antworten in großen Kohorten clustern, um Batch-Bewertung zu ermöglichen
Konsistenz zwischen Korrektorenteams sicherstellen, indem Rubrik-Abweichungen sichtbar gemacht werden
Formative Einschätzungen für Lernfortschrittsgespräche aufbereiten
Prüfungsnotizen in strukturierte Begründungen übersetzen

KI darf nicht:

Abschlussnoten vergeben oder rechtsverbindliche Beurteilungen treffen
Als eigenständige Prüferin oder eigenständiger Prüfer im Sinne der Prüfungsordnung handeln
Anonymisierungsschritte ersetzen, Personendaten dürfen nicht unkontrolliert an externe Dienste übermittelt werden
Die menschliche Entscheidung ersetzen, auch wenn das Feedback lückenhaft oder besonders negativ ist

Das ist keine Frage der Ethik allein. Es ist eine Frage der Rechtslage: In Deutschland liegt die Entscheidungskompetenz über Prüfungsergebnisse ausschließlich bei geprüften und bestellten Prüfungsberechtigten (geregelt in den Landeshochschulgesetzen und entsprechenden Prüfungsordnungen). KI kann dabei assistieren, sie kann nicht entscheiden.

Praktisch bedeutet das: Jede KI-gestützte Feedback-Einheit braucht einen menschlichen Freigabeakt. Das ist kein bürokratischer Umweg, sondern die Voraussetzung für rechtliche Verwertbarkeit im Anfechtungsfall.

Diese Darstellung ist eine fachliche Orientierung, kein Rechtsgutachten. Vor produktiver Einführung ist die Abstimmung mit dem Justiziariat der Hochschule und der Prüfungsausschuss-Vorsitz Pflicht, die Rechtslage variiert zwischen Bundesländern und Prüfungsordnungen.

Prüfungsrechtliche Anforderungen und EU AI Act

Hochschulen, die KI-Systeme im Prüfungsbetrieb einsetzen wollen, stehen vor einem klaren regulatorischen Rahmen, den es lohnt, vor dem ersten Test zu kennen.

EU AI Act, Anhang III (Hochrisikosystem)

Der EU AI Act klassifiziert KI-Systeme, die in der Bildung zur Bewertung von Lernleistungen eingesetzt werden, in Anhang III, Kategorie 3 als Hochrisikosysteme. Das gilt für Systeme, die Lernfortschritte bewerten, Prüfungsergebnisse beeinflussen oder in Bewertungsprozessen assistieren.

Was das praktisch heißt:

Dokumentationspflicht: Risikoabschätzung nach Art. 9 AI Act, Transparenz gegenüber Studierenden (Art. 13), menschliche Überwachung (Art. 14)
Technische Anforderungen: Logging, Nachvollziehbarkeit der Systementscheidungen, Auditierbarkeit
Konformitätsbewertung vor dem Einsatz in Prüfungsprozessen

Die Pflichten für Hochrisikosysteme nach Anhang III treten laut aktuellem EU AI Act ab August 2026 in Kraft; nach einem Kommissionsvorschlag vom November 2025 wird der Termin möglicherweise auf Dezember 2027 verschoben. Die Planungsphase für institutionelle Einführungen ist davon unberührt, wer jetzt startet, sollte die Anforderungen von Anfang an einplanen. Rechtsverbindliche Beratung durch Hochschuljurist:innen oder externe Rechtsberatung ist vor Produktivbetrieb Pflicht, dieser Text ersetzt kein rechtliches Gutachten.

Landeshochschulgesetze und Prüfungsordnungen

Zusätzlich zum EU AI Act gelten die Prüfungsordnungen der jeweiligen Hochschule und die Landeshochschulgesetze. Diese regeln, wer prüfungsberechtigt ist und welche Form Gutachten haben müssen. In den meisten Bundesländern ist eine Änderung der Prüfungsordnung oder zumindest ein Beschluss des Prüfungsausschusses erforderlich, bevor KI-Systeme im Prüfungsbetrieb eingesetzt werden. Das muss vor dem Pilotbetrieb geklärt sein, nicht danach.

DSGVO und Datenschutz-Folgenabschätzung

Da Prüfungsabgaben personenbezogene Daten sind (und bei bestimmten Fachbereichen besonders sensible Daten, z. B. bei Sozialarbeit oder Medizin), löst der Einsatz externer KI-Dienste die Pflicht zur Datenschutz-Folgenabschätzung (DSFA, Art. 35 DSGVO) aus. Diese erfordert eine Koordination mit dem institutionellen Datenschutzbeauftragten, die in der Praxis 6–10 Wochen dauern kann.

Konkrete Werkzeuge, was wann passt

Für die Rubrik-basierte Bewertung und Batch-Korrektur

Gradescope ist das etablierteste Werkzeug für strukturierte Hochschulkorrektur, entwickelt an der UC Berkeley, seit 2021 Teil von Turnitin. Stärken: dynamische Rubriken (Änderungen gelten rückwirkend für alle Abgaben), KI-Gruppierung ähnlicher Antworten, anonyme Bewertung, Collaborative Grading für Tutor-Teams. Schwäche für den deutschen Markt: US-Datenhostung (Turnitin-Konzern), kein ILIAS-Support. Kostenloser Basic-Plan für Einzelpersonen; Institutional Plan (mit KI-Funktionen) auf Anfrage, erfahrungsgemäß vierstellig bis niedrig fünfstellig pro Jahr.

Für LMS-integrierte Feedback-Workflows

Moodle mit dem Quiz- und Assignment-Plugin ist die an deutschen Hochschulen am häufigsten eingesetzte Plattform. Moodle hat keine eigene LLM-Feedback-Funktion, lässt sich aber über externe Plugins oder Webhooks mit API-basierten Feedback-Generatoren verbinden. Vorteil: Open Source, selbst hostbar, DSGVO-konform. Für Hochschulen, die auf ILIAS standardisiert sind: ILIAS bietet über die E-Assessment-Komponente ähnliche Möglichkeiten, die LLM-Anbindung muss extern über die ILIAS-API realisiert werden.

Für die Feedback-Generierung selbst

ChatGPT (via API, nicht Consumer-Interface) oder Claude (via API oder AWS Bedrock EU) sind die realistischen Kandidaten für den Feedback-Kern. Beide können strukturierte Rubriken als System-Prompt erhalten und konsistente Feedback-Entwürfe generieren. Wichtig: Für den Hochschuleinsatz nicht im Consumer-Interface, sondern via API mit klar definiertem Datenverarbeitungsvertrag. Claude via AWS Bedrock in Frankfurt ist die DSGVO-sauberste Option, weil die Verarbeitung in der EU-Region bleibt. ChatGPT via Azure OpenAI Service (EU-Region) ist eine gleichwertige Alternative.

Für formatives Feedback während des Semesters

NotebookLM eignet sich gut für niedrigschwellige formative Feedbackrunden, Studierende können Entwürfe einreichen und sofort auf Basis hochgeladener Kursmaterialien Rückmeldung erhalten. Kein Setup, kostenlos im Basismodus. Einschränkung: US-Datenhosting, nicht für rechtlich relevante Prüfungsleistungen geeignet, aber wertvolles Werkzeug für Übungsaufgaben und Zwischenabgaben, wo das Risikoprofil niedriger ist.

Zusammenfassung: Wann welcher Ansatz

Klausuren und formale Prüfungsleistungen mit Tutor-Teams → Gradescope
LMS-integrierte Hausarbeiten, DSGVO-Pflicht → Moodle + eigene API-Anbindung
Feedback-Generierung mit EU-Datenhaltung → Claude via AWS Bedrock Frankfurt
Formative Übungsaufgaben ohne Prüfungsrelevanz → NotebookLM

Datenschutz und Datenhaltung

Prüfungsabgaben sind personenbezogene Daten, in manchen Fachbereichen sensible nach Art. 9 DSGVO. Das bedeutet: Kein Abgabentext darf unkontrolliert an externe Dienste übermittelt werden.

Die wichtigsten Anforderungen im Überblick:

Anonymisierung vor dem Upload: Studierendennamen, Matrikelnummern und andere direkte Identifikatoren müssen vor der Übergabe an die KI entfernt werden. Das ist kein optionaler Schritt, sondern Pflicht.
Auftragsverarbeitungsvertrag (AVV): Jeder externe KI-Dienst, der personenbezogene Daten verarbeitet, braucht einen AVV nach Art. 28 DSGVO. OpenAI, Anthropic und Microsoft stellen diese bereit, sie müssen aktiv angefordert und unterzeichnet werden.
Datenhaltung in der EU: US-Dienste im Consumer-Modus (ChatGPT-Web, claude.ai) sind für Prüfungsabgaben nicht geeignet. API-Zugang via Azure OpenAI Service (EU-Region) oder Claude via AWS Bedrock (Frankfurt) löst das Problem auf technischer Ebene.
Datenschutz-Folgenabschätzung: Bei systematischem Einsatz für Prüfungsleistungen löst Art. 35 DSGVO eine DSFA aus. Der institutionelle Datenschutzbeauftragte muss eingebunden werden, frühzeitig, nicht nachträglich.
Gradescope/Turnitin: US-Hosting. Für Hochschulen mit strikten DSGVO-Anforderungen (öffentlich-rechtliche Einrichtungen in Bayern, NRW etc.) ist das ein echtes Hindernis. Moodle oder ILIAS selbst gehostet, kombiniert mit EU-API, ist die sichere Alternative.
Nutzungsbedingungen für Trainingsdaten: Stellt sicher, dass der gewählte Dienst Prüfungsabgaben nicht für KI-Training verwendet. OpenAI erlaubt Opt-out für API-Kunden; Anthropic nutzt API-Daten standardmäßig nicht für Training.

Diese Übersicht ersetzt keine rechtliche Beratung. Die DSGVO-Auslegung für KI-Dienste im Hochschulbetrieb ist im Fluss; vor produktiver Einführung ist die Abstimmung mit dem institutionellen Datenschutzbeauftragten und ggf. der Landesdatenschutzbehörde verbindlich. Konkrete AVV-Inhalte und Trainings-Opt-out-Bedingungen können sich kurzfristig ändern, vor Vertragsschluss aktuell prüfen.

Was es kostet, realistisch gerechnet

Einmalige Einrichtungskosten

Rubrikerstellung und Kalibrierung (3–5 Lehrveranstaltungen als Pilot): intern 40–80 Stunden, ggf. Didaktik-Beratung 2.000–4.000 Euro
Technische Integration (API-Anbindung an LMS, Anonymisierungspipeline): 3.000–8.000 Euro bei externer Entwicklung
DSGVO-Prüfung und DSFA: 1.000–3.000 Euro, je nach institutioneller Unterstützung
Gesamter Einrichtungsaufwand: 5.000–15.000 Euro

Laufende Kosten (monatlich)

API-Kosten (ChatGPT/Claude), angenommen 500 Abgaben/Monat, 5–8 Seiten je: ca. 50–150 Euro/Monat
LMS-Hosting (falls extern): bereits vorhanden oder 30–100 Euro/Monat
Gradescope Institutional: auf Anfrage, erfahrungsgemäß 400–1.200 Euro/Monat für mittlere Hochschule
Gesamter laufender Aufwand: 300–800 Euro/Monat ohne Gradescope; 700–2.000 Euro mit

Was du dagegenrechnen kannst Eine Lehrperson spart bei 80 Studierenden und 15 Minuten Zeitersparnis je Abgabe: 20 Stunden pro Korrekturphase. Auf drei Abgaben pro Semester: 60 Stunden pro Person. Bei zwei Korrektorinnen oder Korrektoren: 120 Stunden, das entspricht knapp 6 ECTS an didaktischem Zeitbudget, das für Lehrentwicklung, Sprechstunden oder Forschung genutzt werden kann. Hochschulen, die externe Lehrbeauftragte nach Stunden vergüten, können rechnen: 60 Stunden × 25–40 Euro ≈ 1.500–2.400 Euro gespartes Budget pro Semester.

Konservativer Break-even: bei einem Piloten mit einer Lehrperson und 80 Studierenden amortisieren sich die Einrichtungskosten in 4–6 Semestern. Realistischer, weil der Einsatz nach dem Pilot auf mehrere Lehrveranstaltungen ausgeweitet wird: 1–2 Semester.

Vier typische Einstiegsfehler

1. Die Rubrik fehlt, oder ist zu vage. Ein LLM kann nur gegen eine Rubrik prüfen, die klar und operationalisiert ist. „Argumentation schlüssig” ist kein Rubrikkriterium, „Kernthese in Einleitung benannt, mit min. zwei Belegen aus Pflichtliteratur verknüpft, logisch in Schluss aufgelöst” schon. Viele Hochschullehrende haben diese Ebene der Operationalisierung nie schriftlich gefasst, und das ist der erste Schritt, noch bevor irgendein Tool geöffnet wird.

2. KI-Feedback ohne menschliche Freigabe in den regulären Betrieb überführen. Wer KI-generierte Feedbacks direkt und ohne Review an Studierende zurückspielt, geht ein doppeltes Risiko ein: Inhaltliche Fehler landen ungefiltert, und im Anfechtungsfall kann keine verantwortliche Lehrperson die Begründung vertreten. In einem Pilotprojekt an der Hamburger Fern-Hochschule (HFH, 2024) stellte sich heraus, dass die Review-Qualität entscheidend von der Frage abhängt, ob Dozierende das System verstehen, nicht nur nutzen. Ohne Schulung neigt die menschliche Überprüfung dazu, KI-Entwürfe ungeprüft durchzuwinken.

3. Prüfungsordnung und Prüfungsausschuss nicht einbinden. Das größte institutionelle Risiko ist, mit einem gut gemeinten Piloten die Rechtsgrundlage zu übersehen. Wenn ein Studierender anficht und das System nicht genehmigt war, ist nicht nur das Feedback angreifbar, es ist das gesamte Verfahren. Der Prüfungsausschuss vor dem Pilotstart, nicht danach.

4. Kein Wartungskonzept für die Rubrik. Eine Rubrik, die beim ersten Einsatz kalibriert wurde, veraltet. Prüfungsaufgaben ändern sich, Literatur ändert sich, didaktische Schwerpunkte verschieben sich. Wer nach dem Piloten nie wieder die Rubrik überprüft, bekommt nach zwei Semestern ein System, das Feedback auf Basis veralteter Kriterien gibt. Mindestens semesterlich eine Rubrik-Review einplanen, idealerweise mit einem Abgleich gegen die häufigsten Anfechtungsgründe.

Was mit der Einführung wirklich passiert, und was nicht

KI-Feedback im Hochschulbetrieb stößt auf drei typische Widerstandsmuster, alle drei sind vorhersehbar und überwindbar.

Das „Fairness”-Muster bei Studierenden. Viele Studierende reagieren zunächst skeptisch: „Bewertet jetzt eine Maschine meine Arbeit?” Das Missverständnis ist vorhersehbar und führt zu zwei verschiedenen Reaktionen, manche fühlen sich weniger ernst genommen, andere befürchten, dass KI keine Nuancen erkennt. Beides lässt sich durch transparente Kommunikation auffangen: Klare Aussage vom ersten Tag an, dass KI nur einen Entwurf erstellt, den eine Lehrperson prüft und freigibt. In der Praxis zeigt sich, dass Studierende mit schnellem, spezifischem Feedback meist zufriedener sind als mit verzögertem, aber rein menschlichem Feedback, das Timing schlägt die Quelle.

Das „Kontrollverlust”-Muster bei Lehrenden. Kolleginnen und Kollegen, die eigenständig Rubriken entwickeln und Texte individuell bewerten, empfinden KI-Assistenz manchmal als Einschränkung ihrer Bewertungsfreiheit. Was hilft: KI-Feedback als Vorschlag zu framen, den man jederzeit überstimmen kann, nicht als Vorgabe. Die Entscheidung über das finale Feedback bleibt vollständig bei der Lehrperson.

Das Gremien-Vakuum. Oft startet ein engagiertes Einzelprojekt ohne Kenntnis der Prüfungsordnung, bis jemand aus der Verwaltung nachfragt. Das Projekt wird dann gestoppt, manchmal mitten im Semester. Das ist vermeidbar durch einen frühen, kurzen Informations-Termin beim Prüfungsausschuss, bevor der Pilot beginnt.

Was konkret hilft:

Transparenz gegenüber Studierenden schriftlich, in der ersten Lehrveranstaltung
Eine kurze Demo-Session für Kolleginnen und Kollegen, in der das Review-Interface gezeigt wird
Prüfungsausschuss-Freigabe als formalen Schritt einplanen, nicht als informelle Anfrage, sondern als dokumentierten Beschluss
Pilot auf eine Lehrveranstaltung und eine Aufgabe begrenzen, bevor ausgeweitet wird

Realistischer Zeitplan mit Risikohinweisen

Phase	Dauer	Was passiert	Typisches Risiko
Rubrik-Entwicklung und -Kalibrierung	Woche 1–4	Bewertungskriterien schriftlich operationalisieren, mit Kolleginnen/Kollegen abstimmen, mit Beispiel-Abgaben testen	Rubrik bleibt zu vage, KI-Output unspezifisch
Rechtliche und institutionelle Freigabe	Woche 3–10	DSFA starten, AVV verhandeln, Prüfungsausschuss einbeziehen, IT-Freigabe für API-Zugang	DSFA dauert länger als geplant, Pilotstart verschiebt sich
Technische Integration	Woche 6–12	API-Anbindung an LMS, Anonymisierungspipeline, Testbetrieb mit synthetischen Abgaben	IT-Ressourcen nicht verfügbar, externer Dienstleister erforderlich
Pilotbetrieb (1 Lehrveranstaltung)	Woche 12–18	Erste echte Abgaben durch das System, Dozierende reviewen und geben frei, Feedback zur Qualität einholen	Review-Qualität leidet, wenn Dozierende nicht geschult sind
Evaluation und Ausweitung	Ab Woche 18	Erfahrungen dokumentieren, Rubrik nachkalibrieren, auf weitere Lehrveranstaltungen ausweiten	Skalierung vor vollständiger Evaluation, Fehler breiten sich aus

Ehrlicher Hinweis: Die institutionellen Abstimmungen sind der einzige strukturell unvorhersehbare Faktor. Wer in einem Wintersemester starten will, sollte im Sommer vorher mit der DSFA beginnen, nicht im Oktober.

Häufige Einwände, und was dahintersteckt

„KI kann keine geisteswissenschaftlichen Texte bewerten.” Stimmt für Ästhetik und Originalitätsurteile. Stimmt nicht für das, worum es in 80 Prozent der studentischen Abgaben geht: Argumentationsstruktur, Literaturverwendung, Begriffsschärfe, formale Korrektheit. Eine gut operationalisierte Rubrik macht diese Kriterien explizit, und LLMs sind gut darin, strukturiert gegen explizite Kriterien zu prüfen. Die Trefferquote steigt mit der Rubrik-Qualität, nicht mit dem Fachgebiet.

„Das gefährdet die Prüfungssicherheit, Studierende optimieren auf die Rubrik.” Das ist kein neues Problem. Studierende optimieren immer auf bekannte Bewertungskriterien, das nennt sich Prüfungsvorbereitung. Transparente Rubriken sind didaktisch überlegen, weil sie Lernziele kommunizieren, nicht verstecken. Der Einwand verwechselt Prüfungssicherheit (Plagiate, Betrug) mit Rubrik-Transparenz. Beides sind separate Fragen.

„Wir haben kein Budget für so ein Projekt.” Für die Pilotphase ohne externe Entwicklungskosten reicht ein API-Zugang zu ChatGPT oder Claude (20–30 Euro/Monat) und ein strukturierter System-Prompt. Die echten Kosten entstehen bei der LMS-Integration und der DSFA, beide lassen sich in einer ersten Phase ohne Engagement abschätzen, indem man den Datenschutzbeauftragten und die IT frühzeitig einbezieht.

„Was, wenn die KI einen Fehler macht?” Dann ist die menschliche Freigabe der Sicherheitsanker. Deshalb darf KI-generiertes Feedback nicht ungefiltert an Studierende gehen. Das ist der strukturelle Schutz, und der Grund, warum das System nicht schneller ist als die Dozierenden selbst, die es prüfen. Schneller ist es trotzdem: Einen Entwurf lesen und freigeben ist schneller als von null auf fertig schreiben.

Woran du merkst, dass das zu dir passt

Du findest dich in dieser Situation wieder:

Dein Kurs hat 40 oder mehr Studierende und du hast zwei oder mehr Abgaben pro Semester, der Korrekturaufwand ist bereits ohne KI an der Grenze des Leistbaren
Du hast mehrere Korrektorinnen oder Korrektoren und merkst, dass Feedback-Qualität und Bewertungsstrenge von Person zu Person erheblich variieren
Du bekommst Prüfungsanfechtungen, oder wärst im letzten Jahr nicht froh gewesen, eine vollständigere Begründung vorzulegen
Du gibst Feedback zu Übungsaufgaben, die keine Prüfungsrelevanz haben, hier ist der Einstieg ohne institutionellen Aufwand möglich, und Erfahrungen lassen sich direkt auf prüfungsrelevante Formate übertragen
Du hast bereits eine schriftliche Rubrik oder bist bereit, eine zu entwickeln, ohne das ist der Aufwand doppelt

Wann du noch nicht loslegen solltest, drei harte Ausschlusskriterien:

Unter 30 Studierende pro Kurs oder keine regelmäßigen schriftlichen Abgaben. Der Einrichtungsaufwand (Rubrikerstellung, DSFA, Prüfungsausschuss) ist nicht gerechtfertigt. Direktes Feedback bleibt zeitsparender als ein System, das für wenige Abgaben pro Semester gebaut wurde.
Keine vorhandene oder erstellbare Rubrik. Wenn du nicht schriftlich in drei bis fünf operationalisierten Kriterien beschreiben kannst, was eine sehr gute Arbeit von einer ausreichenden unterscheidet, hilft KI nicht, sie generiert dann beliebiges Feedback ohne Anker. Zuerst die Rubrik, dann das System.
Keine Freigabe durch Prüfungsausschuss und Datenschutzbeauftragten möglich oder erwünscht. An Hochschulen mit restriktiver IT-Politik oder in Fachbereichen, in denen sensible Daten (Medizin, Recht, Sozialarbeit) systematisch in Abgaben auftauchen, kann der regulatorische Weg versperrt oder zu aufwendig sein. In diesem Fall: Informelle Übungsaufgaben (ohne Prüfungsrelevanz) als Einstieg wählen, für diese gelten niedrigere Anforderungen.

Das kannst du heute noch tun

Öffne ChatGPT oder Claude, kostenlos im Browser verfügbar. Nimm eine anonymisierte Studierendenabgabe aus dem letzten Semester (Namen schwärzen reicht für den Test). Schreibe deine Bewertungsrubrik in fünf Stichpunkten auf. Füge beides in den Prompt unten ein.

Was du in 10 Minuten weißt: ob der KI-Feedback-Entwurf für dein Fach funktioniert, bevor du einen Cent ausgibst oder einen Prüfungsausschuss bemühst.

Für den produktiven Einsatz mit Datenschutzfreigabe und LMS-Integration brauchst du einen strukturierten System-Prompt. Hier ist ein Einstieg, den du sofort anpassen kannst:

Rubrik-basierter Feedback-Entwurf

Du bist Feedback-Assistent für Hochschullehrende. Deine Aufgabe ist es, einen konstruktiven Feedback-Entwurf für eine studentische Abgabe zu erstellen. WICHTIG: Du gibst KEINE Note und triffst KEINE abschließende Bewertung. Du erstellst einen Entwurf, den die Lehrperson prüft und freigibt. BEWERTUNGSRUBRIK: [KRITERIUM 1]: [BESCHREIBUNG, was eine gute Erfüllung ausmacht] [KRITERIUM 2]: [BESCHREIBUNG, was eine gute Erfüllung ausmacht] [KRITERIUM 3]: [BESCHREIBUNG, was eine gute Erfüllung ausmacht] [KRITERIUM 4]: [BESCHREIBUNG, was eine gute Erfüllung ausmacht] [KRITERIUM 5]: [BESCHREIBUNG, was eine gute Erfüllung ausmacht] AUFGABENSTELLUNG: [HIER DIE ORIGINALE AUFGABENSTELLUNG EINFÜGEN] STUDENTISCHE ABGABE (ANONYMISIERT): [HIER DEN TEXT DER ABGABE EINFÜGEN, NAME UND MATRIKELNUMMER ENTFERNT] DEINE AUFGABE: 1. Prüfe die Abgabe systematisch gegen jedes Rubrikkriterium. 2. Benenne für jedes Kriterium konkret, was gut gelöst wurde und was fehlt oder verbesserungswürdig ist. 3. Formuliere 2–3 spezifische Verbesserungsvorschläge für die nächste Überarbeitung. 4. Schreibe den Feedback-Entwurf in einem kollegialen, konstruktiven Ton, keine Urteile über die Person, nur über die Arbeit. 5. Kein Notenvorschlag. Kein abschließendes Gesamturteil.

Funktioniert mit ChatGPT, Claude, Gemini

Beispiel-Ausgabe

Mitarbeiter:in

KRITERIUM 1: Forschungsfrage klar und abgegrenzt KRITERIUM 2: Mindestens 5 Quellen aus Pflichtliteratur, korrekt zitiert KRITERIUM 3: Argumentationsstruktur: These → Belege → Schlussfolgerung KRITERIUM 4: Kritische Auseinandersetzung mit Gegenargumenten KRITERIUM 5: Formale Korrektheit (Zitierweise, Quellenverzeichnis, Zeichenzahl) Abgabe: [Anonymisierter Text, ca. 8 Seiten, Thema: Digitalisierung im Gesundheitswesen]

KI-Assistent

Feedback-Entwurf (zur Freigabe durch Lehrperson): **Kriterium 1 – Forschungsfrage:** Die zentrale Frage wird in der Einleitung benannt, bleibt aber relativ weit gefasst. Der Satz "Wie wirkt sich Digitalisierung auf das Gesundheitswesen aus?" deckt ein weites Feld ab, eine schärfere Abgrenzung auf einen Teilaspekt (z. B. Patientenkommunikation oder Diagnostik) hätte den Argumentationsraum der Arbeit gestärkt. **Kriterium 2 – Quellen:** 7 Quellen aus der Pflichtliteratur werden korrekt zitiert, davon 4 in der Argumentation aktiv verwendet. Erfreulich: Die Zitierweise nach APA ist durchgängig korrekt. Empfehlung: Quellen 3 und 6 werden nur im Literaturverzeichnis genannt, aber nicht in der Argumentation, entweder stärker einbinden oder herauslassen. **Kriterium 3 – Argumentationsstruktur:** Der Aufbau folgt der These-Beleg-Struktur in den ersten drei Abschnitten gut. Ab Abschnitt 4 werden neue Argumente eingeführt, ohne sie an die Hauptthese rückzubinden. Das schwächt die Kohärenz des letzten Drittels. **Kriterium 4 – Gegenargumente:** Ein Gegenargument wird in Abschnitt 3 kurz erwähnt, aber nicht systematisch entkräftet. Hier liegt Potenzial für Tiefe: Welche konkreten Einwände gibt es gegen die eigene These, und wie begegnet die Arbeit ihnen? **Kriterium 5 – Formalia:** Zeichenzahl liegt innerhalb der Vorgabe. Quellenverzeichnis vollständig. Ein Fehler in der APA-Formatierung auf S. 6 (Erscheinungsjahr fehlt bei Autor X). **Drei Empfehlungen für die nächste Version:** 1. Forschungsfrage auf einen spezifischen Aspekt eingrenzen, das verbessert die Argumentationsdichte 2. Gegenargumente in einem eigenen Abschnitt systematisch diskutieren 3. Quellen 3 und 6 entweder aktiv einbinden oder aus dem Verzeichnis entfernen *Dies ist ein KI-generierter Entwurf. Finale Freigabe und Verantwortung liegen bei der Lehrperson.*

Quellen & Methodik

HFD KI Monitor 2025: Hochschulforum Digitalisierung / Stifterverband, „KI Monitor 2025: Hochschulen gestalten den KI-Alltag” (September 2025). 97 % der deutschen Hochschulen befassen sich mit KI im Prüfungsbetrieb; 43 % haben Prüfungsordnungen angepasst. hochschulforumdigitalisierung.de
LLM-Grading-Reliabilität: Yavuz, M. (2025). „Utilizing large language models for EFL essay grading: An examination of reliability and validity in rubric-based assessments.” British Journal of Educational Technology. ICC-Werte: Fine-tuned ChatGPT 0,972; Standard ChatGPT 0,947; Bard 0,919. doi.org/10.1111/bjet.13494
LLM-Bewertung im Bioinformatik-Kurs: Automated assignment grading with large language models: insights from a bioinformatics course. Universität Ljubljana, Wintersemester 2024/25. Bioinformatics (Oxford Academic, 2025). doi.org/10.1093/bioinformatics
IMPACT-Verbundprojekt: Implementierung von KI-basiertem Feedback und Assessment mit Trusted Learning Analytics in Hochschulen. Goethe-Universität Frankfurt, HU Berlin, FernUni Hagen, FU Berlin, Uni Bremen. BMBF-gefördert seit 2021. impact.studiumdigitale.uni-frankfurt.de
Prüfungsanfechtung VG Hannover: Verwaltungsgericht Hannover, Urteil zur Neubewertung einer Masterarbeit wegen fehlender eigenständiger Begründung der Zweitprüferin (2024). Zusammenfassung: meine-pruefungsanfechtung.de
EU AI Act Anhang III: Amtsblatt der Europäischen Union, Verordnung (EU) 2024/1689, Anhang III Nr. 3, KI-Systeme in der Bildung als Hochrisikosysteme. Zeitplan: Pflichten ab August 2026, mögliche Verschiebung auf Dezember 2027 per Kommissionsvorschlag November 2025. ai-act-law.eu/de/anhang/3/
Studierendenzahlen und Lehrdeputat: Destatis, Bildung und Kultur 2023, Studierende je Professor:in im Tertiärbereich; Studienqualitätsmonitor BMBF/HIS-HE zu Feedback als Zufriedenheitsfaktor.
Kosten und Implementierungswerte: Erfahrungswerte aus Pilotprojekten im deutschsprachigen Hochschulbereich (HFH Hamburger Fern-Hochschule 2024; Hochschule München Sommersemester 2025); keine repräsentative Studie, aber konsistente Beobachtungen.

Du willst wissen, ob deine Rubrik KI-tauglich ist, oder wie du das institutionelle Genehmigungsverfahren abkürzst? Meld dich, wir klären das gemeinsam in einem kurzen Gespräch.

Diesen Inhalt teilen:

LinkedIn X / Twitter E-Mail WhatsApp

🤝

Du weißt jetzt, was möglich ist. Fehlt noch die Umsetzung?

Viele, die diesen Use Case lesen, versuchen es danach allein. Das kostet Wochen: Datenschutzfragen, Toolauswahl, Prompt-Engineering, interne Überzeugungsarbeit. Wir kennen diese Stolperstellen, weil wir das Setup schon gebaut haben. Schreib uns kurz, das Erstgespräch ist kostenlos und unverbindlich.

Alle KI-Tools für Forschung & Entwicklung vergleichen

Weitere Use Cases

Literaturrecherche automatisieren

KI durchsucht Datenbanken wie PubMed, Scopus und Semantic Scholar und liefert relevante Paper mit Zusammenfassungen. Spart Wochen manueller Recherche.

Mehr erfahren

Grant-Antrag Schreibassistent

KI unterstützt beim Verfassen von Drittmittelanträgen: strukturiert Projektbeschreibungen, passt Sprache an Fördergeber an und prüft Vollständigkeit.

Mehr erfahren

Forschungsdaten-Auswertung mit KI

KI analysiert große Mengen Messdaten, Umfrageergebnisse oder Textkorpora und identifiziert Muster, Ausreißer und Zusammenhänge, die manuell nicht erkennbar wären.

Mehr erfahren

Zurück zu Forschung & Entwicklung

Frieda Funke

Konzeptentwicklerin

Ich frage nicht, was KI kann. Ich frage, was du in deinem Alltag damit anfängst. Erst wenn ich eine ehrliche Antwort habe, entsteht daraus ein konkreter Use Case. Fehlt ein Anwendungsfall, der zu dir passt? Schreib mir kurz.

Fehlt dein Anwendungsfall? Mehr über das Team

KI-gestütztes Feedback für Studierende im Lehr- und Prüfungsbetrieb

Das echte Ausmaß des Problems

Mit vs. ohne KI, ein ehrlicher Vergleich

Einschätzung auf einen Blick

Was das System konkret macht

Was KI im Prüfungsbetrieb darf, und was nicht

Prüfungsrechtliche Anforderungen und EU AI Act

Konkrete Werkzeuge, was wann passt

Datenschutz und Datenhaltung

Solche Praxis-Analysen, regelmäßig in deinem Postfach

Was es kostet, realistisch gerechnet

Vier typische Einstiegsfehler

Was mit der Einführung wirklich passiert, und was nicht

Realistischer Zeitplan mit Risikohinweisen

Häufige Einwände, und was dahintersteckt

Woran du merkst, dass das zu dir passt

Das kannst du heute noch tun

Quellen & Methodik

Du weißt jetzt, was möglich ist. Fehlt noch die Umsetzung?

Weitere Use Cases

Literaturrecherche automatisieren

Grant-Antrag Schreibassistent

Forschungsdaten-Auswertung mit KI

Bleib auf dem neuesten Stand der KI

Bleib auf dem neuesten
Stand der KI