Zum Inhalt springen
Maschinenbau pruefberichtdokumentenverarbeitungqualitaetssicherung

Prüfberichte automatisch auswerten und klassifizieren

KI liest eingehende Prüfberichte, Messberichte und Werkstoffzeugnisse, extrahiert Kerndaten und eskaliert Abweichungen — bevor ein nichtkonformes Teil die Freigabe bekommt.

⚡ Auf einen Blick
Problem
Täglich 10–50 Prüfberichte verschiedener Lieferanten und der eigenen QS landen im Postfach. Manuelle Durchsicht bindet 2–4 Stunden täglich und verzögert Freigaben — mit dem Risiko, dass eine Abweichung auf Seite 3 eines 12-seitigen PDFs einfach übersehen wird.
KI-Lösung
NLP-basierte Dokumenten-KI (Intelligent Document Processing) extrahiert Messwerte, Toleranzen, Normnachweise und Chargeninformationen automatisch aus PDFs. Liegt ein Wert außerhalb der Spezifikation, eskaliert das System sofort — statt die Verantwortung beim müden Prüfer zu lassen.
Typischer Nutzen
Sichtungszeit um 70–80 % reduzieren, nichtkonformer Teileschlupf frühzeitig stoppen, Freigaben beschleunigen und die Chargendokumentation lückenlos ins ERP zurückschreiben.
Setup-Zeit
8–14 Wochen Training auf eigene Lieferantenformate
Kosteneinschätzung
8.000–25.000 € Einrichtung, 300–900 €/Monat laufend
Dokumenten-KI (turian, Azure AI Doc Intel.)+ Validierungslogik gegen Spezifikationen+ ERP/QMS-Anbindung (SAP QM, Rossum)
Worum geht's?

Es ist Donnerstag, 14:47 Uhr.

Prüfingenieurin Sabrina Kellner öffnet das dritte Prüfberichts-PDF dieser Stunde. Der Messbericht von Lieferant Müller Präzision GmbH umfasst zwölf Seiten — Calypso-CMM-Protokoll, Rohmessdaten, Tabelle der Gut/Schlecht-Bewertungen, Konformitätserklärung, Anhang. Sie scrollt durch Seite eins, zwei, drei. Alles grün. Seite vier, fünf. Weiter. Der Montagestart ist auf Freitag 6:00 Uhr geplant, die Teile liegen im Wareneingang, die Produktion wartet.

Was Sabrina nicht sieht — weil sie das Dokument nach dem zweiten Überblick freigegeben hat und im selben Moment die nächste E-Mail reinkam — steht auf Seite acht, Zeile 34: Merkmal 47, Ist-Wert 12,38 mm, Soll-Toleranz 12,00 ± 0,30 mm. Differenz +0,08 mm über dem oberen Grenzwert. Die Lieferantenzeile ist orange hervorgehoben — aber auf dem Bildschirm sieht sie genauso unscheinbar aus wie jede andere Tabellenzeile im zwölfseitigen Dokument.

Am Freitagmorgen um 9:14 läuft die erste Baugruppe durch die Montage. Die Einpresskraft am Gegenstück liegt außerhalb des Prozessfensters. Ursachenanalyse bis Mittag. Lieferantenreklamation bis 16:00. Das Teil ist bereits verbaut.

Das ist kein Szenario aus dem Lehrbuch. Das passiert überall dort, wo 30, 40, 50 Prüfberichte täglich durch ein, zwei Personen laufen — mit voller Aufmerksamkeit für den ersten, halbwegs vorhandener Aufmerksamkeit für den zweiten, und reiner Hoffnung ab dem zehnten.

Das echte Ausmaß des Problems

Laut einer Analyse von Nividous (2024) verbringen Mitarbeitende in produktionsnahen Branchen bis zu 40 % ihrer Zeit mit der manuellen Verarbeitung von Dokumenten — Prüfberichte, Lieferscheine, Zertifikate, Protokolle. Für eine QS-Abteilung mit fünf Mitarbeitenden bedeutet das rein rechnerisch zwei Vollzeitstellen, die ausschließlich mit dem Lesen, Prüfen und Weiterleiten von Papier oder PDFs beschäftigt sind.

Das eigentliche Problem ist nicht die Zeit — es ist die Kombination aus Zeit und Aufmerksamkeit. Ein Prüfingenieur, der täglich 30 Berichte sichtet, ist ab dem siebten Bericht kognitiv nicht mehr auf dem gleichen Niveau wie beim ersten. Machine Learning-Systeme ermüden nicht. Sie übersehen keine Zeile 34.

Besonders kritisch im Maschinenbau-Kontext:

  • Unterschiedliche Lieferantenformate. Jeder Lieferant hat eine eigene PDF-Vorlage. Calypso-CMM-Exporte sehen anders aus als Zeiss PiWeb-Berichte, die sich wiederum von handgefüllten Formularen unterscheiden. Manche Lieferanten schicken Excel-Derivate als PDF, andere XML-Reports, die als PDF gedruckt wurden. Ein menschlicher Prüfer lernt diese Formate implizit — ein KI-System muss auf jedem Format explizit trainiert werden.

  • EN 10204-Zertifikate mit Layout-Chaos. Werkstoffzeugnisse nach EN 10204 3.1 und 3.2 existieren in Hunderten von Lieferanten-Layouts. Zwei Zeugnisse können denselben Norm-Typ referenzieren, aber völlig unterschiedlich aufgebaut sein — der eine Lieferant listet die Legierungswerte zeilenweise, der andere spaltenweise, der dritte als Fließtext mit integrierten Grenzwerten.

  • Mehrseitige Berichte mit versteckten Abweichungen. Eine orange Zeile auf Seite 8 von 12, zwischen grünen Zeilen auf Seite 7 und 9 — das ist die gefährlichste Stelle im gesamten Workflow. Das Auge sucht nach Mustern und findet Konformität, solange keine Ausreißer sichtbar ins Bild drängen.

Laut einer McKinsey-Analyse kann KI-gestützte Automatisierung die Produktivität in qualitätssichernden Prozessen um bis zu 50 % steigern (McKinsey, „Fueling digital operations with analog data”, 2022). Der tatsächliche Nutzen hängt stark von der Dokumentenvielfalt und der vorhandenen ERP-Anbindung ab — diese Zahl ist ein Orientierungswert, kein Versprechen.

Mit vs. ohne KI — ein ehrlicher Vergleich

KennzahlOhne KIMit Dokumenten-KI
Sichtungszeit je Prüfbericht8–15 Min.1–2 Min. (Ausnahmen prüfen)
Tagesaufwand QS-Mitarbeitende2–4 Stunden20–40 Minuten
Abweichungen auf Seite >3 übersehenReales Risiko, nicht quantifizierbarSystem prüft jede Zeile, eskaliert bei Abweichung
Durchlaufzeit Freigabe4–24 Stunden (abhängig von Prüferauslastung)15–45 Minuten (bei vorbereiteten Spezifikationen)
Chargendokumentation im ERPManuell nachtragen oder vergessenAutomatisch zurückgeschrieben
FehlertypKognitive Ermüdung, fehlende KonzentrationExtraktion, fehlerhaftes Tabellenformat (silente Fehler)

Die letzten zwei Zeilen sind das Wichtigste: Ohne KI sind die Fehler menschlich und zufällig — mit KI sind die Fehler systematisch und erkennbar. Das macht sie beherrschbar.

Einschätzung auf einen Blick

Zeitersparnis — sehr hoch (5/5) Dieser Use Case ist in der Maschinenbau-Branche die klare Ausnahme: Die Sichtungszeit wird nicht um 30 oder 50 Prozent reduziert, sondern auf einen Bruchteil komprimiert. Statt 2–4 Stunden täglich prüft das System alle Prüfberichte vollständig und übergibt dem QS-Mitarbeitenden nur noch die Ausnahmen — typischerweise 10–20 % der Berichte, die einen menschlichen Blick brauchen. Die eingesparte Zeit ist messbar, sofort sichtbar und lässt sich auf die Stunde genau beziffern. Unter den 28 Maschinenbau-Anwendungsfällen verdient dieser die 5 — vorausgesetzt, das Setup ist vollständig.

Kosteneinsparung — mittel (3/5) Die Einrichtungskosten liegen realistisch bei 8.000–25.000 €, laufend bei 300–900 € pro Monat. Das ist kein Niedrig-Budget-Einstieg. Der direkte monetäre Nutzen ist die eingesparte Personalzeit. Indirekt verhindert das System Kosten durch nichtkonform verbliebene Teile (Nacharbeit, Reklamationen, Montageunterbrechungen) — diese Kosten sind real, aber schwer präzise zuzuordnen. Verglichen mit Use Cases wie Lieferketten-Risiken überwachen oder Predictive Maintenance ist die direkte Kosteneinsparung nach Einrichtung solide, aber nicht herausragend.

Schnelle Umsetzung — niedrig (2/5) Hier liegt der größte Fallstrick. Ein Dokumenten-KI-System für Prüfberichte muss auf deinen spezifischen Lieferantenmix trainiert werden. Das ist keine Frage der Technologie, sondern der Trainingsarbeit: Wer hat 20 verschiedene Lieferantenformate? Wer hat die Toleranzspezifikationen bereits digital im ERP hinterlegt? Wer kann labeled Beispielberichte liefern? Realistisch sind 8–14 Wochen bis zum produktiven Betrieb mit stabiler Erkennungsrate — und das nur, wenn die Voraussetzungen (strukturierte Spezifikationen, digitale PDFs, IT-Kapazität für ERP-Anbindung) bereits vorhanden sind. Verglichen mit anderen Maschinenbau-Anwendungsfällen zählt dieser zu den aufwendigeren Einstiegen — das spiegelt sich in der Bewertung ehrlich wider.

ROI-Sicherheit — mittel (3/5) Die Zeitersparnis ist objektiv messbar und tritt mit hoher Wahrscheinlichkeit ein. Die Sicherheit kippt, wenn das Extraktionsmodell auf bestimmten Lieferantenformaten schwächelt — dann entstehen Nacharbeit und manuelle Prüfung, die den Nutzen schmälern. In den ersten drei bis sechs Monaten liegt die Touchless-Rate typischerweise noch bei 60–75 %, nicht bei den 85–95 %, die das System langfristig erreicht. Der ROI tritt ein, aber nicht sofort.

Skalierbarkeit — mittel (3/5) Mehr Volumen bei denselben Lieferantenformaten skaliert problemlos. Aber: Jeder neue Lieferant mit einem neuen Format bedeutet Nachtraining. Jedes neue Prüfmerkmal, das nicht in der Spezifikation hinterlegt ist, wird nicht geprüft. Das System kann nicht selbstständig lernen, was konform ist — das muss konfiguriert sein. Wächst das Lieferantenportfolio stark, wächst der Pflegeaufwand mit. Das ist keine Einschränkung der Technologie, sondern der Realität von Dokumentenvielfalt.

Richtwerte — stark abhängig von Lieferantenvielfalt, ERP-Reifegrad und verfügbarem IT-Setup.

Was das System konkret macht

Der technische Kern ist Intelligent Document Processing (IDP) — eine Kombination aus NLP, Tabellenextraktion und Regelverarbeitung. Im Unterschied zu klassischer OCR, die nur Zeichenketten erkennt, versteht ein IDP-System die Struktur eines Dokuments: Wo ist die Tabelle? Welche Spalte enthält den Ist-Wert? Welche Zeile gehört zu welchem Merkmal?

Der Workflow in der Praxis:

  1. Eingang: Prüfbericht (PDF, gescanntes Dokument, CMM-Export) landet per E-Mail oder in einem definierten Ordner.
  2. Klassifikation: Das System erkennt den Dokumenttyp — Calypso-CMM-Bericht, Werkstoffzeugnis nach EN 10204, spektroskopisches Analysezertifikat, Funktionsprüfprotokoll.
  3. Extraktion: Messwerte, Toleranzen, Chargenbezeichnung, Lieferant, Datum, Merkmalsnummern werden automatisch extrahiert. Confidence-Scores markieren unsichere Felder.
  4. Validierung: Extrahierte Werte werden gegen die im System hinterlegten Spezifikationen geprüft. Abweichungen werden sofort gekennzeichnet.
  5. Eskalation oder Freigabe: Bei Konformität landet der Bericht mit Freigabe-Empfehlung im QMS. Bei Abweichungen wird der zuständige Prüfer sofort benachrichtigt — mit Markierung der problematischen Stelle.
  6. ERP-Rückschreibung: Chargenbezeichnung, Lieferant, Prüfstatus und relevante Messwerte werden automatisch ins SAP QM oder das jeweilige QMS zurückgeschrieben.

Was das System nicht macht

Wichtig: Das System bewertet nicht, ob eine Abweichung für die Anwendung tolerierbar ist. Das ist Ingenieurswissen. Es erkennt die Abweichung und eskaliert — die Freigabe mit Abweichung (Disposition) bleibt immer beim Menschen.

Bei EN 10204 3.2-Zeugnissen prüft das System die inhaltlichen Werte. Die Gültigkeit der dritten Gegenzeichnung (z. B. TÜV, DNV, Lloyds) kann KI nicht validieren — das ist physisches Dokumenten-Audit, kein Textextraktionsproblem. Für sicherheitskritische Anwendungen (Druckbehälter, Hebezeuge, Medizintechnik) muss die Zertifikats-Authentizität weiterhin manuell durch einen autorisierten Prüfer bestätigt werden.

Dokumenttypen und ihre Tücken

Nicht alle Prüfberichte sind gleich. Die Herausforderung für KI-Systeme variiert stark nach Dokumenttyp — das beeinflusst die Trainingszeit, die erreichbare Erkennungsrate und den Human-in-the-Loop-Anteil.

CMM-Messberichte (Zeiss Calypso, PiWeb, Renishaw MODUS) Strukturierte tabellarische Dokumente mit definierten Feldern: Merkmalsnummer, Ist-Wert, Toleranz unten/oben, Gut/Schlecht-Status. Die Struktur ist vorhersehbar — aber: Calypso-PDFs von Version 5.6 sehen anders aus als von Version 7.x. Lieferanten, die Calypso nutzen, exportieren nicht immer konsistent. Die kritische Schwachstelle laut Industriepraxis (IIoT World, 2024): Tabellen-Spaltenversatz. Wenn die KI eine Spalte nach rechts verschiebt, vergleicht sie Ist-Werte gegen falsche Toleranzen — und dieser Fehler passiert nach Text-Similarity-Checks unentdeckt. Gegenmaßnahme: Confidence-Schwellwerte streng setzen und bei tabellarischen Dokumenten stets eine Feldanzahl-Validierung einbauen.

Werkstoffzeugnisse nach EN 10204 Vier Zeugnistypen (2.1, 2.2, 3.1, 3.2), aber hunderte verschiedene Layouts — von handausgefüllten Formularen bis zu volldigitalen Tabellen. Die Extraktion von Legierungselementen (C, Mn, Si, S, P, Cr, Ni, Mo…) mit ihren Grenzwerten ist technisch lösbar, erfordert aber Training auf einem breiten Lieferantenmix. Der kritische Unterschied zwischen 3.1 und 3.2: Das 3.2-Zeugnis hat eine zweite Gegenzeichnung eines unabhängigen Dritten — die KI kann diese Zeile lesen, aber nicht validieren, ob der Unterzeichner tatsächlich die notwendige Akkreditierung besitzt. Für 3.1-Zeugnisse ist die KI-Extraktion vollständig; für 3.2 bleibt die formale Prüfung beim Menschen.

Spektroskopische Analysezertifikate (OES, RFA, ICP) Stark strukturiert, sehr präzise — wenn sie als digitale PDFs ankommen. Das Problem: Viele Labore schicken noch immer eingescannte Handformulare oder schlecht gerenderte PDF-Ausdrucke älterer LIMS-Systeme. OCR-Fehler bei Dezimalzahlen (0.082 wird zu 0.082, aber 0,082 vs. 0.082 kann das Dezimaltrennzeichen verwirren) können bei Spurenelementen zu falschen Werten führen. Gegenmaßnahme: immer plausible Wertbereiche im Validierungsschritt hinterlegen (Kohlenstoffgehalt von Baustahl liegt nicht bei 82 % — eine Extraktion von 82,0 statt 0,082 wird so sofort gefangen).

Funktionsprüfprotokolle (Drehmoment, Druck, Durchflussmenge) Häufig unternehmenseigene Vorlagen mit wenig Standardisierung. Hier ist die Erkennungsrate initial am niedrigsten — das System muss für jeden Protokolltyp separat trainiert werden. Dafür sind diese Dokumente oft kürzer und die kritischen Felder weniger in der Menge.

Konkrete Werkzeuge — was wann passt

Das Tooling teilt sich in zwei Klassen: spezialisierte Plattformen mit eingebautem Workflow und Cloud-APIs für Teams mit IT-Kapazität.

turian — Wenn du EN 10204-Zeugnisse und Materialzertifikate automatisieren willst und nicht monatelang Templates pflegen kannst. Die deutsche Software ist layout-unabhängig entwickelt und versteht EN 10204-Typen nativ, ohne dass für jeden neuen Lieferanten ein Template erstellt werden muss. LLM-basierte Extraktion auch bei handschriftlichen Ergänzungen. Deutschsprachiger Support, EU-Datenhaltung, Preis auf Anfrage (Einstieg typisch ab mehreren hundert € pro Monat je nach Volumen). Gut geeignet für Unternehmen mit 10–150 Zertifikaten täglich, die keine eigene IT-Entwicklung stemmen wollen.

Azure AI Document Intelligence — Wenn du Custom-Modelle für spezifische Dokumententypen trainieren willst und Azure-Infrastruktur vorhanden oder akzeptabel ist. Custom Extraction kostet $30/1.000 Seiten (~€28). Stärke: Confidence-Scores für jedes extrahierte Feld, EU-Hosting, direkte Integration in Azure-Workflows. Schwäche: kein eingebauter Validierungs-Workflow — du musst die Vergleichslogik (Messwert gegen Toleranz) selbst entwickeln oder in einem nachgelagerten Dienst umsetzen. Technisches Setup erforderlich.

Rossum — Wenn das Dokumentenvolumen hoch ist (10.000+ Belege/Jahr), SAP oder Oracle NetSuite bereits im Einsatz ist und ein eingebauter Prüf-Workflow wichtig ist. Rossum ist die bewährteste europäische IDP-Plattform und von Bosch, Siemens und Panasonic im Einsatz (laut Anbieterangaben). Der Continuous-Learning-Ansatz (Korrekturen fließen direkt ins Modell zurück) ist ein echter Vorteil bei wachsendem Lieferantenportfolio. Einstieg ab ca. 12.000–20.000 €/Jahr, Enterprise-Preise auf Anfrage. Für kleinere Mittelständler unter 5.000 Belegen/Jahr ist Rossum überdimensioniert.

AWS Textract — Wenn eine AWS-Infrastruktur vorhanden ist und du stark strukturierte, digitale PDFs verarbeitest. Tabellenextraktion ist eine der Kernstärken von Textract. Preis: ca. $15/1.000 Seiten für Tabellenanalyse ($50/1.000 Seiten für Forms). Ähnlich wie Azure Document Intelligence: gutes Extraktions-Fundament, aber keine eingebaute Validierungslogik gegen Spezifikationen.

Google Document AI — Vergleichbar mit AWS Textract in Leistung und Preisstruktur. Stärke bei OCR-Qualität auch bei schlechten Scans. EU-Region verfügbar. Gut, wenn Google Cloud bereits genutzt wird.

Zusammenfassung: Wann welcher Ansatz

  • EN 10204-Zeugnisse, keine IT-Kapazität für Templates → turian
  • Azure-Stack vorhanden, IT-Kapazität für Custom-Modelle und Validierungslogik → Azure AI Document Intelligence
  • Hohes Belegvolumen (>10.000/Jahr), SAP-Integration wichtig → Rossum
  • AWS-Stack vorhanden, starke Tabellenstruktur, IT-Kapazität → AWS Textract
  • Google Cloud Stack vorhanden → Google Document AI

Rückverfolgbarkeit: Wie extrahierte Daten ins ERP fließen

Das ist der Teil, der in den meisten Proof-of-Concepts vergessen wird — und der in ISO 9001 und IATF 16949 nicht vergessen werden darf.

Was ins ERP muss:

  • Charge des Kaufteils oder Rohstoffs
  • Prüfstatus (konform / nicht konform / konditional freigegeben)
  • Prüfbericht-Referenz (Dokumenten-ID, Lieferant, Datum)
  • Schlüsselmerkmale mit Ist-Werten (z. B. für Chargenverfolgung und Rückruf-Management)

In SAP QM läuft das über den Prüflos-Workflow: Das Ergebnis einer Wareneingangsinspektion wird im Prüflos erfasst und entscheidet über den Freigabe- oder Sperrlagerbestand. Eine sauber integrierte Dokumenten-KI schreibt den Prüfbefund automatisch ins Prüflos zurück — ohne manuelle Dateneingabe. Voraussetzung: Die Materialstamm-Daten, Prüfmerkmale und Toleranzspezifikationen müssen bereits strukturiert im SAP QM hinterlegt sein. Das ist die häufigste Lücke, die Projekte zum Stoppen bringt.

In INFOR CloudSuite Industrial und Epicor ist die Logik ähnlich — API-Schnittstellen zum Prüflossystem existieren, sind aber weniger standardisiert als in SAP und erfordern mehr Eigenentwicklung.

Chargendokumentation für Rückruf-Szenarien: Wenn ein mangelhaftes Bauteil drei Monate nach Verbau entdeckt wird, muss der QS-Leiter innerhalb von Stunden beantworten können: Welche Chargen waren in welchen Produkten verbaut? Das ist nur möglich, wenn die Chargeninformation aus dem Werkstoffzeugnis des Lieferanten mit dem Fertigungsauftrag verknüpft ist — und das setzt voraus, dass diese Verknüpfung vom Dokumenten-KI-System hergestellt und ins ERP eingetragen wurde. Ohne diesen Schritt ist der Use Case zwar schneller, aber nicht regulatorisch vollständig.

Datenschutz und Datenhaltung

Prüfberichte enthalten in der Regel keine personenbezogenen Daten im Sinne der DSGVO — Messwerte, Chargenbezeichnungen und Lieferantendaten sind keine personenbezogenen Informationen. Der DSGVO-Aufwand ist damit vergleichsweise überschaubar.

Dennoch gelten folgende Punkte:

  • Werkstoffzeugnisse nach EN 10204 3.2 können Unterschriften natürlicher Personen (z. B. des Prüfingenieurs des unabhängigen Labors) enthalten. Diese Unterschriften gelten als personenbezogene Daten. Werden sie gescannt und an einen Drittanbieter übermittelt, ist ein Auftragsverarbeitungsvertrag (AVV) nach Art. 28 DSGVO erforderlich.
  • Alle genannten Tools (turian, Azure AI Document Intelligence, Rossum, AWS Textract, Google Document AI) stellen AVVs bereit. EU-Hosting ist bei allen verfügbar, muss aber aktiv konfiguriert werden — nicht alle Dienste nutzen standardmäßig EU-Regionen.
  • On-Premises-Optionen: Wer Prüfdaten nicht in die Cloud geben darf (z. B. Rüstungszulieferer, Betriebe mit verschlusssachenähnlichen Fertigungsaufträgen), muss auf lokale LLM-Deployments oder on-premises OCR-Lösungen (z. B. ABBYY FlexiCapture on-prem) ausweichen — das erhöht die Implementierungskosten erheblich.
  • Geheimhaltung gegenüber Lieferanten: Ein Prüfbericht eines Lieferanten enthält möglicherweise Informationen, die dieser als vertraulich betrachtet. Bevor diese Dokumente an einen Cloud-Dienst übermittelt werden, sollte die Vertraulichkeitsklausel im Lieferantenvertrag geprüft werden.

Was es kostet — realistisch gerechnet

Einmalige Einrichtungskosten

  • Plattform-Setup, Modelltraining, Konfiguration: 5.000–15.000 €
  • IT-Integration ins ERP (SAP QM-Anbindung, API-Entwicklung): 3.000–10.000 €
  • Training des Extraktionsmodells auf eigene Lieferantenformate (je nach Vielfalt): 20–60 Arbeitsstunden intern + externe Begleitung
  • Gesamteinrichtung: realistisch 8.000–25.000 €, abhängig von Lieferantenvielfalt und ERP-Komplexität

Laufende Kosten (monatlich)

  • turian: Einstieg ab mehreren hundert €/Monat (volumenabhängig)
  • Azure AI Document Intelligence, Custom Extraction: ca. €28/1.000 Seiten — bei 1.000 Seiten/Monat also ~28 €/Monat, bei 10.000 Seiten ~280 €/Monat
  • Rossum: ab ca. 1.000 €/Monat für Mittelstands-Setups, Enterprise auf Anfrage
  • AWS Textract: ca. $15–50/1.000 Seiten je nach Feature

Konservative ROI-Rechnung

  • 2 QS-Mitarbeitende, je 2 Stunden täglich Sichtung → 4 Stunden/Tag
  • Bruttostundensatz QS-Ingenieur: 35–55 €/Stunde (Destatis-Orientierungswert 2024)
  • Einsparung bei 70 % Zeitreduktion: 2,8 Stunden × 250 Arbeitstage × 45 €/Stunde = 31.500 €/Jahr
  • Nicht enthaltene Kosten: verhinderte Reklamationen, Montageunterbrechungen, NIO-Teile-Nacharbeit
  • Amortisation der Einrichtungskosten: bei konservativ 50 % Einsparungsrealisierung 12–18 Monate

Der wichtigste Maßstab ist nicht die Kostenrechnung. Es ist die Frage, wie viele nichtkonformer Teile pro Jahr in eure Fertigung gelangen, weil ein Prüfbericht nicht vollständig durchgesehen wurde. Wenn die Antwort “mindestens einer pro Quartal” ist — und in den meisten QS-Abteilungen mit hohem Belegvolumen ist sie das — dann übersteigt der Schaden durch Nacharbeit und Reklamation die Toolkosten in aller Regel um ein Vielfaches.

Drei typische Einstiegsfehler

1. Mit allen Lieferanten und allen Dokumenttypen gleichzeitig starten. Der Reflex ist verständlich: Warum nicht sofort alles automatisieren? In der Praxis bedeutet das, dass das Extraktionsmodell auf zwölf verschiedene Layouttypen gleichzeitig trainiert wird — und auf keinem davon eine stabile Erkennungsrate erreicht. Die Touchless-Rate bleibt dauerhaft unter 60 %, der QS-Mitarbeitende prüft fast alles manuell nach, der erhoffte Zeitgewinn bleibt aus. Lösung: Mit dem Lieferanten starten, der das höchste Belegvolumen hat und dessen Format am konsistentesten ist. Dort einen stabilen, validierten Workflow bauen, Touchless-Rate messen, erst dann schrittweise auf weitere Lieferanten ausweiten.

2. Toleranzspezifikationen nicht digital vorliegen haben — und trotzdem mit dem Tool beginnen. Das System kann nur gegen Spezifikationen prüfen, die es kennt. Wer seine Toleranzgrenzwerte noch in Excel-Tabellen oder Zeichnungs-PDFs hat (und nicht strukturiert im ERP), gibt der KI keine Vergleichsbasis. Ergebnis: Extraktion funktioniert, Validierung funktioniert nicht. Das Projekt scheitert nicht an der Technologie, sondern an fehlenden Stammdaten. Vor dem Systemkauf: Spezifikationen in SAP QM oder einen anderen strukturierten Ort überführen.

3. Das Extraktionsmodell läuft und wird nie wieder angefasst. Das ist der gefährlichste Fehler — weil er erst Monate später sichtbar wird. Lieferanten ändern ihre Vorlagen. Calypso wird auf eine neue Version aktualisiert. Ein neuer Lieferant wird qualifiziert. Wenn das Extraktionsmodell nicht mit diesen Änderungen Schritt hält, extrahiert es weiterhin Daten — aber mit sinkender Genauigkeit, die niemand bemerkt, bis ein nichtkonformes Teil die automatische Freigabe passiert und erst in der Montage auffällt. Ein solcher Schaden kostet in der Praxis 2.000–15.000 € pro Vorfall (Reklamation, Nacharbeit, Produktionsunterbrechung). Lösung: Quartalsweise Genauigkeitsprüfung einplanen. Mindestens eine Person benennen, die für die Pflege des Modells zuständig ist — mit Zeit und Mandat.

Besonders: Der stille Tabellenfehler. Eine spezifische Versagenssituation, die in IDP-Projekten für industrielle Prüfberichte dokumentiert ist (Quelle: IIoT World, 2024): Wenn die KI beim Extrahieren einer tabellarischen Darstellung eine Spalte nach rechts verschiebt, wird der Ist-Wert gegen die falsche Toleranz geprüft. Das Ergebnis sieht plausibel aus und passiert Text-Ähnlichkeits-Tests — bis jemand bemerkt, dass die Werte nicht stimmen. Gegenmaßnahme: Konfidenz-Schwellwerte konservativ setzen und bei CMM-Berichten immer eine Plausibilitätsprüfung (z. B. Wertebereich, Einheitencheck) als zweite Validierungsebene einfügen.

Was mit der Einführung wirklich passiert — und was nicht

Die häufigste Enttäuschung in den ersten drei Monaten: Das System funktioniert gut für 70 % der Lieferanten — und schlecht für die restlichen 30 %, die ungewöhnliche Formate haben oder gescannte Dokumente schicken. Diese 30 % sind oft genau die Lieferanten, bei denen manuelle Kontrolle am meisten gebraucht wird. Klar kommunizieren: Das System wird nicht von Tag eins alle Berichte abdecken.

Drei Widerstands-Muster, die in fast jeder Einführung auftauchen:

Die erfahrenen Prüfer, die den Mehrwert bezweifeln. “Ich brauche für einen Bericht drei Minuten, wozu soll ich das System pflegen?” Das Argument ist ehrlich — und für einen einzelnen, einfachen Bericht stimmt es. Es gilt nicht für den siebzehnten Bericht an einem Freitagnachmittag oder für den Bericht, der um 23:00 Uhr für die Nachtschicht freizugeben ist. Diese Fälle sind die eigentlichen Zielszenarien.

Die IT-Abteilung, die die ERP-Anbindung nach hinten verschiebt. Das Dokumenten-KI-System steht, aber die SAP-QM-Anbindung wird auf das nächste Quartal verschoben. Ergebnis: Extrahierte Daten müssen manuell ins ERP eingetragen werden. Das halbiert den Nutzen sofort. Lösung: ERP-Anbindung als nicht verhandelbare Voraussetzung vor der Einführung definieren.

Die Qualitätsleitung, die 100 % Automatisierung erwartet. Ein gut eingerichtetes System erreicht nach sechs Monaten 80–90 % Touchless-Rate — das heißt, 10–20 % der Berichte benötigen weiterhin menschliche Überprüfung. Das ist ein enormer Fortschritt gegenüber 100 % manueller Arbeit, aber es ist nicht die vollständige Eliminierung manueller Aufgaben. Wer mit falschen Erwartungen startet, ist nach drei Monaten unzufrieden — trotz objektivem Erfolg.

Was konkret hilft:

  • Pilotstart mit einem Lieferanten, vorzugsweise dem mit dem höchsten Volumen und konsistentestem Format
  • Touchless-Rate-Ziel für den Pilot kommunizieren (z. B. 75 % nach 8 Wochen)
  • QS-Mitarbeitende in die Konfiguration einbinden — sie kennen die Fallstricke bei bestimmten Lieferantenformaten am besten
  • Eine 90-Tage-Prüfung einplanen, bevor Aussagen zur Wirtschaftlichkeit gemacht werden

Realistischer Zeitplan mit Risikohinweisen

PhaseDauerWas passiertTypisches Risiko
Vorarbeit & BestandsaufnahmeWoche 1–2Lieferantenformate inventarisieren, Spezifikationen im ERP prüfen, Use-Case-Scope festlegenSpezifikationen nicht digital vorhanden — Vorarbeit verlängert sich erheblich
Tool-Auswahl & PilotdokumenteWoche 2–3Tool-Evaluation mit echten Dokumenten, Datenschutz-Assessment, IT-FreigabeIT-Sicherheitscheck dauert länger als geplant; Azure/AWS vs. on-premises Entscheidung offen
Modelltraining & KonfigurationWoche 3–8Training auf Lieferantenformaten, Validierungslogik konfigurieren, ERP-Anbindung entwickelnZu wenige gelabelte Trainingsbeispiele; ERP-Schnittstelle komplex
Pilotbetrieb (1 Lieferant)Woche 8–12Produktiver Test mit echtem Belegfluss, Touchless-Rate messen, Confidence-Schwellwerte kalibrierenErkennungsrate unter Ziel — mehr Trainingsbeispiele und Modellanpassung nötig
Erweiterung auf weitere LieferantenWoche 12–18Schrittweise Erweiterung, Monitoring, Eskalationsworkflow schärfenNeue Lieferantenformate erfordern erneutes Training; Kapazität fehlt

Häufige Einwände — und was dahintersteckt

„Unsere Lieferanten haben alle unterschiedliche Formate — das kann kein System lernen.” Stimmt — klassische regelbasierte Extraktionssysteme (mit festen Templates pro Lieferant) funktionieren tatsächlich schlecht bei 50 verschiedenen Layouts. Moderne LLM-basierte Extraktion (wie bei turian) funktioniert layout-unabhängig — das Modell versteht den Inhalt, nicht nur die Position. Das bedeutet nicht, dass null Training erforderlich ist, aber das Training ist deutlich robuster als bei Template-basierten Ansätzen.

„Was ist, wenn das System etwas Falsches extrahiert?” Das wird passieren — besonders in der Einlernphase. Deshalb gibt es Confidence-Scores: Felder, bei denen das Modell unsicher ist, werden zur menschlichen Prüfung markiert. Das System ersetzt nicht den Prüfer — es filtert die unkritischen Fälle heraus, damit der Prüfer seine Aufmerksamkeit auf die schwierigen konzentrieren kann. Die Frage ist nicht “Macht das System Fehler?” sondern “Macht das System weniger Fehler als ein erschöpfter Mensch, der seinen siebzehnten Bericht des Tages durchsieht?”

„Das ist zu aufwendig für unsere Größe.” Wenn täglich weniger als fünf Prüfberichte ankommen, ist das Argument berechtigt — dann lohnt sich weder der Setup-Aufwand noch die laufenden Toolkosten. Ab ca. zehn Berichten pro Tag entsteht eine echte Zeitbelastung, die sich rechnet. Ab 30 pro Tag ist die Einführung betriebswirtschaftlich nicht mehr optional.

„Wir können keine KI-Entscheidungen für Freigaben verwenden — das erfordert einen Ingenieur.” Das ist richtig — und kein Widerspruch. Das System trifft keine Freigabeentscheidungen. Es bereitet die Entscheidung vor: Es extrahiert die Daten, prüft gegen Spezifikationen und markiert entweder als konform oder als Ausnahme. Den Freigabe-Klick macht immer ein autorisierter Prüfer. Das ist Human in the Loop — genau die Struktur, die in ISO 9001 und IATF 16949 Auditoren sehen wollen.

Woran du merkst, dass das zu dir passt

Das sind Signale, dass der Use Case jetzt sinnvoll ist:

  • Du hast täglich mehr als zehn Prüfberichte im Eingang, die manuell gesichtet werden müssen
  • Deine Sichtungszeit bindet täglich 1–3 Stunden einer qualifizierten Fachkraft
  • Es gab in den letzten 12 Monaten mindestens einen Fall, in dem ein nichtkonformes Teil die Sichtung passiert hat
  • Deine Spezifikationen sind bereits strukturiert im ERP hinterlegt (oder könnten es innerhalb von 4–8 Wochen sein)
  • Dein Lieferantenportfolio hat 5–50 aktive Lieferanten mit regelmäßigem Belegfluss

Wann es sich (noch) nicht lohnt — drei harte Ausschlusskriterien:

  1. Unter fünf Prüfberichte pro Tag. Bei diesem Volumen übersteigt der Einrichtungsaufwand den jährlichen Nutzen um ein Vielfaches. Hier ist eine gut strukturierte E-Mail-Ablage mit Checkliste effizienter als jedes KI-System.

  2. Toleranzspezifikationen nicht digital vorhanden. Wenn die Grenzwerte noch in Zeichnungs-PDFs oder Excel-Tabellen stecken und nicht im ERP hinterlegt sind, kann das System nicht validieren. Das ist keine Technikfrage — das ist fehlende Datenbasis. Zuerst die Stammdaten aufräumen, dann die Automatisierung.

  3. Kein IT-Setup für ERP-Anbindung in den nächsten 12 Monaten. Ein Dokumenten-KI-System ohne Rückschreibung ins ERP beschleunigt die Sichtung, aber schließt keine der Dokumentationslücken, die in ISO 9001-Audits relevant werden. Wer die ERP-Anbindung nicht in absehbarer Zeit umsetzen kann, bekommt nur die halbe Lösung.

Das kannst du heute noch tun

Lade ein typisches Prüfberichts-PDF aus deinem letzten Belegeingang in Claude oder ChatGPT hoch. Stelle die folgende Frage — nicht als Produkt-Test, sondern als Denkübung:

„Welche Messwerte in diesem Dokument liegen außerhalb welcher Toleranz? Erstelle eine Liste mit Merkmalsnummer, Ist-Wert, Toleranzgrenzen und Abweichung.”

Das dauert zwei Minuten. Das Ergebnis zeigt dir zwei Dinge: Wie gut ein generischer LLM mit deinem spezifischen Dokumentformat umgeht — und wie viel Strukturarbeit ein spezialisiertes System leisten muss, um von einem generischen Ergebnis zu einem produktionstauglichen zu kommen.

Für den strukturierten Einstieg: Hier ist ein Prompt, den du heute direkt einsetzen kannst.

Prompt für Prüfbericht-Analyse
Du bist ein Qualitätsprüfsystem für eingehende Prüfberichte bei [FIRMENNAME]. Analysiere den folgenden Prüfbericht und extrahiere alle geprüften Merkmale. Erstelle eine strukturierte Tabelle mit diesen Spalten: - Merkmalsnummer / Bezeichnung - Ist-Wert (mit Einheit) - Toleranzuntergrenze - Toleranzobergrenze - Status: KONFORM / NICHT KONFORM / UNLESBAR Wenn ein Ist-Wert außerhalb der Toleranz liegt, markiere ihn mit: ⚠️ ABWEICHUNG — [Ist-Wert] liegt [Betrag] [Einheit] außer der Toleranz [oben/unten]. Wenn ein Feld nicht sicher extrahiert werden kann, markiere es mit: ❓ UNSICHER — manuell prüfen. Erstelle am Ende eine Zusammenfassung: - Anzahl Merkmale gesamt - Anzahl konform - Anzahl nicht konform (mit Markierung) - Empfehlung: FREIGABE MÖGLICH / MANUELLE PRÜFUNG ERFORDERLICH / GESPERRT [PRÜFBERICHT ALS PDF ODER TEXT HIER EINFÜGEN]
Funktioniert mit ChatGPT, Claude, Gemini
Beispiel-Ausgabe

Mitarbeiter:in

Messbericht Lieferant Müller Präzision, Auftrag MP-2024-0847, Material: C45E, 12 Merkmale. Merkmal 47: Durchmesser D1, Ist: 12.38mm, Soll: 12.00 +0.30/-0.10mm. Merkmal 48: Länge L1, Ist: 45.01mm, Soll: 45.00 ±0.05mm.

KI-Assistent

| Merkmal | Ist-Wert | Tol. min | Tol. max | Status | |---------|----------|----------|----------|--------| | 47 — Durchmesser D1 | 12,38 mm | 11,90 mm | 12,30 mm | ⚠️ ABWEICHUNG — 12,38 mm liegt 0,08 mm über dem oberen Grenzwert | | 48 — Länge L1 | 45,01 mm | 44,95 mm | 45,05 mm | KONFORM | **Zusammenfassung:** - Merkmale gesamt: 12 - Konform: 11 - Nicht konform: 1 (Merkmal 47) - Empfehlung: MANUELLE PRÜFUNG ERFORDERLICH Hinweis: Merkmal 47 überschreitet den oberen Grenzwert. Disposition durch autorisierten Prüfer erforderlich, bevor Freigabe erteilt wird.

Quellen & Methodik

  • Dokumentenverarbeitung und Zeitaufwand: Nividous, „35+ Intriguing Statistics On Intelligent Document Processing” (2024) — nividous.com/blogs/intelligent-document-processing-statistics
  • Produktivitätssteigerung durch Automatisierung: McKinsey Global Institute, „Fueling digital operations with analog data” (2022) — Orientierungswert 50 % Produktivitätssteigerung bei QS-Prozessen
  • Tabellen-Extraktion Failure Mode: IIoT World, „AI Document Processing Accuracy: Why 80% Is Failure” und „Industrial Document AI Readiness Checklist” (2024) — iiot-world.com
  • EN 10204 Zertifikatstypen: DIN EN 10204:2005 (Metallische Erzeugnisse — Arten von Prüfbescheinigungen); erläutert auf vorest-ag.com/Qualitaetssicherung-Methoden/Wissen/pruefbescheinigungen
  • Azure AI Document Intelligence Preise: Microsoft Azure Pricing Page, Custom Extraction $30/1.000 Seiten (Stand Mai 2026) — azure.microsoft.com/en-us/pricing/details/document-intelligence/
  • Rossum Enterprise-Preise und Kundenangaben (Bosch, Siemens, Panasonic): Rossum QA-Lösungsseite (Stand Mai 2026) — rossum.ai/solutions/quality-assurance/
  • turian DIN EN 10204 Spezifikation: turian.ai/blog/din-en-10204 und Tool-Stub ki-syndikat.de (verifiziert Mai 2026)
  • Bruttostundensatz Referenz: Destatis, Verdienste und Arbeitskosten 2024 — Orientierungswert für QS-Ingenieure im Fertigungsbereich
  • CMM-Software: Zeiss CALYPSO Release Notes und ZEISS CMMobserver-Produktseite (Stand Mai 2026) — zeiss.com/metrology

Willst du wissen, ob dein Lieferantenmix für den Einstieg mit turian oder einem Hyperscaler-Dienst besser geeignet ist? Meld dich — das klärt sich in einem kurzen Gespräch.

Diesen Inhalt teilen:

🤝

Interesse an diesem Use Case?

Schreib uns, wenn du mehr erfahren oder diesen Use Case für dein Unternehmen umsetzen möchtest. Wir melden uns zeitnah bei dir.

Deine Daten werden ausschließlich zur Bearbeitung deiner Anfrage verwendet (Art. 6 Abs. 1 lit. b DSGVO). Mehr in unserer Datenschutzerklärung.

Kostenloser Newsletter

Bleib auf dem neuesten
Stand der KI

Wähle deine Themen und erhalte relevante KI-News, Praxistipps und exklusive Inhalte direkt in dein Postfach – kein Spam, jederzeit abmeldbar.

Was interessiert dich? Wähle 1–3 Themen — du bekommst nur Inhalte dazu.

Mit der Anmeldung stimmst du unserer Datenschutzerklärung zu. Jederzeit abmeldbar.

Kostenlos
Kein Spam
Jederzeit abmeldbar