Zum Inhalt springen
Schiffbau & Maritime ultraschallpruefungzfpschweissnaht

Schweißnahtprüfung im Megablock: KI-gestützte UT-Analyse

Kilometerlange Strukturschweißnähte auf Kreuzfahrtschiff-Sektionen müssen per Ultraschall geprüft werden. KI klassifiziert Defekte automatisch und reduziert manuelle Auswertungszeit drastisch.

⚡ Auf einen Blick
Problem
Ein erfahrener ZfP-Prüfer wertete bisher jeden Millimeter UT-Scan manuell aus — mehrere Wochen Vollzeiteinsatz je Megablock, mit hoher Fehlerrate bei Ermüdung gegen Ende langer Schichten.
KI-Lösung
Trainiertes CNN auf UT-A-Scan-Bildern klassifiziert Anzeigen (Pore, Bindefehler, Riss) und priorisiert verdächtige Stellen für Prüfer — Prüfer bestätigt nur noch Auffälligkeiten statt alles selbst zu scannen.
Typischer Nutzen
Auswertezeit um bis zu 70% reduzierbar. Befundrate konsistenter — ermüdungsbedingte Fehlklassifikationen sinken nachweislich. Klassifikationsgesellschaft-Berichte schneller fertig.
Setup-Zeit
8–14 Monate: Trainingsdaten annotieren + Klassifikationsgesellschaft-Validierung
Kosteneinschätzung
Prüferkapazität effizienter — kein Stellenabbau, aber deutlich weniger Überstunden
Convolutional Neural Net auf UT-Rohdaten + Visualisierungs-Dashboard + Export für Lloyd's / DNV-Dokumentation
Worum geht's?

Es ist 14:37 Uhr, ein Donnerstag im Oktober.

Henrik Sörensen ist seit sechs Stunden an diesem Megablock. ZfP-Level-III, 14 Jahre Erfahrung, Spezialgebiet Ultraschallprüfung Strukturstahl. Vor ihm: der Bildschirm mit dem laufenden A-Scan, dahinter eine Schweißnaht, die durch eine 18-Meter-Sektion eines Kreuzfahrtschiff-Rumpfes läuft. Noch etwa anderthalb Kilometer Naht vor ihm — heute. Sein Stundensatz als externer Prüfdienstleister liegt bei 95 Euro.

Er weiß, dass er um diese Zeit nicht mehr so scharf ist wie morgens. Die Echos von Porenanhäufungen sehen anders aus als Bindefehler, aber nach 300 Metern Naht am Stück fangen die Bilder an, sich zu ähneln. Eine kurze Zacke im A-Scan, die um 10 Uhr noch klar als „Grenzecho, keine Anzeige” eingeordnet wurde — um 14:37 Uhr wird aus ihr manchmal ein Flag, manchmal nicht.

Das ist kein Versagen von Henrik. Es ist Physiologie.

Auf diesem Megablock allein werden am Ende 22 Prüfertage stecken — zwischen 17.000 und 21.000 Euro nur für die UT-Auswertungszeit. Und das ist das kleinste Problem: Die Kreuzfahrtwerft ist an ihren Baudokumentationstermin gebunden. Jede Verzögerung in der Prüfphase schiebt die Sektionsübergabe, und dann den Andocktermin, und dann die Lieferung. Der Tagessatz für eine Lieferverzögerung steht im Bauvertrag.

Das echte Ausmaß des Problems

Ein Megablock — eine der typischerweise 60 bis 80 vorgefertigten Sektionen eines Kreuzfahrtschiffs — enthält je nach Größe zwischen 8 und 25 Kilometer strukturrelevanter Schweißnähte. Jede davon ist prüfpflichtig. Die Normen sind klar: EN ISO 17636 und die jeweiligen Klassenvorschriften von DNV, Lloyd’s Register oder Bureau Veritas schreiben vor, welche Nähte mit welchem Verfahren geprüft werden müssen — und auf welchem Dokumentationsniveau.

Was das bedeutet:

  • Ein mittelgroßer Megablock (ca. 500 Tonnen Stahl, Sektionsnummer 44 auf einem 330-Meter-Schiff) braucht erfahrungsgemäß 15–25 Prüfertage UT-Auswertung
  • Externes ZfP-Level-II- und Level-III-Personal kostet 80–120 Euro pro Stunde (Marktrate für zertifizierte Prüfdienstleister in Deutschland, Stand 2025)
  • Ein vollständiges Kreuzfahrtschiff besteht aus 60–80 solchen Blöcken — der Gesamtaufwand für UT-Prüfung liegt damit in einer Größenordnung von 1.000–2.000 Prüfertagen pro Schiff
  • Jede Ermüdungsanzeige, die abends übersehen wird und beim Folge-Survey der Klassifikationsgesellschaft auffällt, löst eine Nachprüfung aus — und je nach Bauzustand eine teure Reparatur unter schlechterem Zugang

Hinzu kommt ein struktureller Engpass: Qualifizierte ZfP-Level-III-Prüfer für Schiffbaustahl sind knapp. Die Ausbildung dauert Jahre, die Zertifizierung nach EN ISO 9712 ist aufwendig, und die demografische Kurve arbeitet gegen die Industrie. Meyer Werft arbeitet seit 2010 mit VOGT Ultrasonics an der Automatisierung des PAUT-Scanvorgangs selbst — aber die Auswertung blieb manuell.

Das DNV-Forschungsprojekt NDT.ai (veröffentlicht 2019) hat gezeigt, dass Machine Learning-Verfahren bei Radiografieprüfungen von Schiffbauwernähten „hit-and-miss”-Fehler menschlicher Analyse eliminieren können: Defekte wie Poren, Schlacke und Risse werden durch trainierte Netze konsistenter erkannt als durch Prüfer nach langen Schichten. Die analoge Logik gilt für Ultraschall-A-Scan-Daten — das Potenzial ist real, die Umsetzung komplexer.

Mit vs. ohne KI — ein ehrlicher Vergleich

KennzahlOhne KIMit KI-gestützter UT-Analyse
Auswertezeit je Megablock15–25 Prüfertage5–8 Prüfertage (Prüfer bestätigt nur Flags)
Auswertungskosten je Megablock12.000–24.000 €4.000–8.000 € + Systemkosten
Abendschicht-FehlerrateMessbar erhöht bei >6h SchichtKonstant durch Modell — unabhängig von Tageszeit
Konsistenz zwischen PrüfernVariiert je nach Level und ErfahrungDefiniert durch Schwellenwert des Modells
Dokumentationszeit für Klassenbericht1–2 Tage manuellExport in Stunden, strukturiert für DNV/Lloyd’s
Time-to-Pilot8–14 Monate

Die Zeitersparnis-Zahlen sind Orientierungswerte auf Basis der Angaben von Evident Scientific und publizierten ML-NDT-Studien (MDPI 2024, OSTI); eigene Implementierungsergebnisse in deutschen Werften liegen nicht öffentlich dokumentiert vor.

Einschätzung auf einen Blick

Zeitersparnis — sehr hoch (5/5) Die Einsparung tritt genau dort ein, wo sie am teuersten ist: beim Hochpreispersonal. Ein trainiertes CNN bewertet 100 A-Scans in Sekunden, die ein Level-III-Prüfer in Stunden auswertet. Der Faktor ist nicht 10–20 Prozent, sondern 3–4×. Unter allen Schiffbau-Anwendungsfällen ist der Zeithebeleffekt hier am direktesten — die Prüfphase ist messbar der einzige Engpass, der mit mehr ZfP-Zeit einfach verlängert wird.

Kosteneinsparung — mittel (3/5) Die Einsparung kommt aus effizienterem Einsatz von ZfP-Kapazität — nicht aus Stellenabbau. Level-III-Prüfer werden nicht entlassen, sie prüfen mehr Sektionen in weniger Zeit oder werden für andere Aufgaben frei. Das ist real, aber schwerer als direkte Kosten-Senkungs-Effekte (z.B. verhinderte Liegezeit-Strafe beim Klassifikations-Compliance-Management). Hinzu kommt: Initialkostenblock (Trainingsdaten, Modellentwicklung, Validierung) von 150.000–350.000 Euro.

Schnelle Umsetzung — niedrig (2/5) Das ist kein Zwei-Wochen-Pilotprojekt. Zwischen Projektstart und erstem produktiven Einsatz an einem realen Megablock liegen 8–14 Monate — dominiert von der Annotationsarbeit (2.000–5.000 gelabelte A-Scans) und dem Validierungsprozess mit der Klassifikationsgesellschaft. Vergleichbar mit dem Zeitrahmen anderer datengetriebener Großprojekte im Schiffbau, aber kein schneller Einstieg.

ROI-Sicherheit — hoch (4/5) Die Prüfzeit ist direkt messbar — vor und nach der Einführung. Die Formel ist einfach: Prüfertage × Stundensatz. Was den ROI unsicherer macht: Die Klassifikationsgesellschaft muss das Verfahren formal akzeptieren, bevor es prüfrelevant eingesetzt werden darf. Bis dahin läuft das KI-System nur begleitend und erzeugt keine Einsparung. Dieser Genehmigungsschritt kann den ROI-Beginn um 3–6 Monate verschieben.

Skalierbarkeit — hoch (4/5) Ein trainiertes Modell für Stumpfnähte an 15-mm-Schiffbaustahl lässt sich auf Kehlnähte oder andere Stahlgüten erweitern — aber nicht ohne Nachtraining auf neuen annotierten Daten. Die Infrastruktur (Datenpipeline, Auswertungs-Dashboard, Klassenbericht-Export) skaliert gut; die Modellerweiterung erfordert wiederkehrenden Annotierungsaufwand.

Richtwerte — stark abhängig von Werftgröße, Schiffstyp, Zugänglichkeit der ZfP-Level-III-Kapazität und Klassifikationsgesellschaft.

Was das System konkret macht

Der technische Kern ist ein Convolutional Neural Net (CNN), trainiert auf annotierten A-Scan-Datensätzen aus realen PAUT-Messungen. So läuft es in der Praxis ab:

Schritt 1 — Datenerfassung: Der PAUT-Scanner (typisch Evident OmniScan X3 oder X4) fährt die Naht ab. Pro Zentimeter Naht entstehen Dutzende A-Scans — zeitabhängige Echamplituden-Kurven, die anzeigen, wo und wie stark Schall an Grenzflächen reflektiert wurde. Diese Rohdaten werden gespeichert (Exportformat .opd, typisch 4–6 TB je Megablock).

Schritt 2 — CNN-Inferenz: Das trainierte Modell klassifiziert jeden A-Scan in Millisekunden in eine von vier Klassen: o.B. (ohne Befund), Pore/Porenanhäufung, Bindefehler (Lack of Fusion), Riss/rissartige Anzeige. Darüber hinaus berechnet es einen Konfidenzwert — niedrige Konfidenz bedeutet: Der Prüfer muss selbst entscheiden.

Schritt 3 — Priorisierungsliste: Ein Dashboard zeigt dem Level-III-Prüfer ausschließlich die Positionen mit Flags — und sortiert sie nach Konfidenz und Anzeigengröße. Statt 5.000 A-Scans manuell zu prüfen, schaut er sich 400–800 an.

Schritt 4 — Manuelle Verifikation: Für zertifizierungsrelevante Prüfungen gilt: Der Level-III-Prüfer trifft die abschließende Freigabeentscheidung. Das CNN ist ein Vorfilter, kein Ersetzer. Diese Rollentrennung ist nicht optional — sie ist die Voraussetzung für die Akzeptanz durch die Klassifikationsgesellschaft.

Schritt 5 — Dokumentationsexport: Befunde, Koordinaten, Defektklassen, Prüferfreigabe — strukturiert ins Format für den DNV- oder Lloyd’s-Survey-Bericht exportiert.

Defekttaxonomie: Was das CNN tatsächlich klassifiziert

Das ist der Punkt, den Einkäufer und Projektleiter am häufigsten unterschätzen: Ein „KI-System für Schweißnahtprüfung” ist nicht ein System — es ist eine modellspezifische Klassifikationsleistung für exakt die Defekttypen, auf denen es trainiert wurde. Wer Äpfel und Orangen verkauft, dem reicht ein CNN. Wer Schweißnähte prüft, muss vier spezifisch verschiedene Fehlerbilder unterscheiden:

Pore (Poreneinschluss): Eine eingeschlossene Gasblase im Schweißgut. Im A-Scan: ein kurzer, scharf begrenzter Echo-Peak mit hoher Amplitude aus dem Nahtinneren. Das CNN erkennt Poren zuverlässig — sie erzeugen ein charakteristisches Echomuster. Das Problem: Porenanhäufungen sehen wie mehrere Einzel-Peaks aus, die sich im A-Scan überlagern.

Bindefehler (Lack of Fusion): Die Schweißlage hat sich nicht vollständig mit dem Grundwerkstoff oder der vorherigen Lage verbunden. Resultat: Eine ebene, parallele Grenzfläche — und genau das macht sie gefährlich. Im A-Scan: lange, flache Echo-Sequenzen. Das CNN braucht diese charakteristische Länge und Gleichmäßigkeit als Merkmal; kurze Bindefehler sind schwerer zu erkennen als lange.

Riss (rissartige Anzeige): Die sicherheitskritischste Klasse. Risse erzeugen diffuse, komplexe Echomuster — die Form hängt von Risstiefe, -breite und -orientierung zur Schallrichtung ab. Das CNN hat hier die höchste Falsch-Negativ-Rate. Das ist der Hauptgrund, warum keine Klassifikationsgesellschaft derzeit erlaubt, das CNN ohne Level-III-Verifikation für Rissklassifikation freizugeben.

Lunker (Schwindungshohlraum): Entstehen beim Erstarren des Schweißgutes. Im A-Scan strukturell ähnlich wie große Poren, aber mit anderem räumlichen Verteilungsmuster. Können CNN-Modelle verwirren, die auf Poren trainiert sind.

Die praktische Konsequenz: Ein CNN, das auf Porenerkennung optimiert ist, ist nicht automatisch gut bei Rissen. Trainingsdaten müssen alle vier Klassen abdecken — und zwar mit ausreichend Beispielen jeder Klasse, besonders der seltenen (Risse sind glücklicherweise selten, weshalb Trainingsdaten für sie besonders knapp sind).

Trainingsdaten: Der echte Flaschenhals

Das ist das Problem, das jede seriöse Diskussion über KI in der ZfP dominieren sollte — und das von Beratungsunternehmen oft unter den Tisch fällt:

Du brauchst annotierte Defektdaten. Echte. Viele. Gelabelt von ZfP-Level-III-Experten.

Grobe Richtgröße für ein belastbares Klassifikationsmodell: 2.000–5.000 annotierte A-Scans je Defektklasse. Bei vier Klassen also 8.000–20.000 Datenpunkte — alle mit dokumentierter Ground-Truth-Klassifikation durch einen zertifizierten Level-III-Prüfer.

Warum das schwierig ist:

Problem 1 — Annotierungsaufwand: Ein Level-III-Prüfer kann je nach Übungsgrad 50–80 A-Scans pro Stunde zuverlässig annotieren. Bei 10.000 Scans: 125–200 Stunden qualifizierte Prüferzeit nur für die Annotation. Bei €95/Stunde: 12.000–19.000 Euro für die Labeling-Arbeit allein.

Problem 2 — Defektseltenheit: Risse sind ein seltenes Ereignis (was gut ist für die Werft, aber schlecht fürs Training). Wenn in einer Saison 3% der Nähte echte Rissanzeigen zeigen, brauchst du enorme Datenmengen, um auf ausreichend positive Beispiele zu kommen. Lösung: Synthetische Daten durch Simulation (mit CIVA NDT oder ähnlichem) oder gezielt produzierte Referenzproben mit eingebrachten Defekten.

Problem 3 — Konfigurationsabhängigkeit: Ein CNN, das auf OmniScan-X3-Daten mit einer bestimmten Sondenkonfiguration und Verstärkungseinstellung trainiert wurde, kann auf OmniScan-X4-Daten mit einer anderen Konfiguration deutlich schlechter abschneiden. Dieser Effekt ist durch Publikationen aus der NDT-ML-Forschung belegt: Modelle, die auf Thermal-Fatigue-Crack-Daten trainiert wurden, zeigten laut OSTI-Studie (2022) bei Sägeschnitt-Defekten katastrophalen Performanceabfall und umgekehrt. Das bedeutet: Die Scanning-Konfiguration muss vor dem Trainingsstart eingefroren und dann konsequent beibehalten werden.

Was das praktisch heißt: Plane vor Projektstart 3–4 Monate für die Datengenerierung und Annotation ein — bevor das erste Modell überhaupt trainiert wird. Wer das unterschätzt, steht nach 6 Monaten mit einem gut gemeinten Modell da, das auf echten Produktionsdaten nicht funktioniert.

Für die Annotation kannst du Roboflow als Annotations-Plattform verwenden (auch wenn sie für klassische Bilder entwickelt wurde, funktioniert sie für exportierte A-Scan-Bilder gut). Die Ground-Truth-Urteile kommen aber zwingend von deinem Level-III-Team — da gibt es keine Abkürzung.

Klassifikationsgesellschaft: Der Zulassungsweg

Das ist die Frage, die kein Anbieter von KI-NDT-Systemen gerne konkret beantwortet: Was muss ich tun, damit Lloyd’s Register, DNV oder Bureau Veritas mein KI-gestütztes UT-Verfahren für prüfrelevante Inspektionen akzeptiert?

Die ehrliche Antwort: Es gibt noch keinen etablierten „KI-in-NDT”-Zulassungsweg wie für klassische Prüfverfahren. Was es gibt:

Was die Klassifikationsgesellschaften verlangen:

Die Anforderungen lehnen sich an das an, was DNV in seiner NDT-Richtlinie CG-0051 für neue automatisierte Prüfverfahren formuliert. Für ein KI-gestütztes Auswertesystem bedeutet das erfahrungsgemäß:

  1. Gleichwertigkeitsnachweis: Das KI-System muss eine Erkennungsleistung erreichen, die dem manuellen Verfahren nach EN ISO 17636 gleichwertig oder besser ist — dokumentiert durch Parallelprüfungen an einer repräsentativen Stichprobe von realen Schweißnähten.

  2. Modell-Einfrierung: Nach der Validierung darf das Modell nicht verändert werden. Jede Modelländerung (neue Trainingsrunde, andere Hyperparameter) erfordert eine neue Validierungsrunde. DNV nennt das in anderen Kontexten „model freeze” nach Zertifizierung.

  3. Prüferverantwortung bleibt: Das KI-System ist als „Assistenzsystem”, nicht als eigenständiger Prüfer eingestuft. Die abschließende Freigabe verbleibt beim namentlich eingetragenen Level-III-Prüfer. Diese Bedingung ist nicht verhandelbar.

  4. Dokumentierter Validierungsprozess: Mindestens 200–500 Prüfstellen mit bekanntem Befund (Referenzproben oder validierte Produktionsdaten), verglichen Modell vs. Prüfer-Ground-Truth. Falsch-Negativ-Rate für Risse darf eine Grenze nicht überschreiten (typisch <5%, aber werksspezifisch zu vereinbaren).

Was das kostet: Die Survey-Begleitung durch DNV oder Lloyd’s für einen neuen Prüfprozess liegt erfahrungsgemäß bei 20.000–60.000 Euro für Beratung, Begleitung und formale Prozessabnahme.

Realistisches Timing: Zwischen erstem Gespräch mit der Klassifikationsgesellschaft und formaler Prozessfreigabe: 6–12 Monate — parallel zur Trainingsphase, nicht danach. Wer erst nach Modellfertigstellung die Klassifikationsgesellschaft einbindet, verliert 6 Monate.

Wichtig: DNV hat in seinem Forschungsprojekt NDT.ai selbst an KI-gestützter Schweißnahtprüfung gearbeitet. Das schafft keine automatische Akzeptanz fremder KI-Systeme, aber es zeigt, dass die technische Grundlage anerkannt ist.

Konkrete Werkzeuge — was wann passt

Die Architektur eines KI-UT-Systems besteht aus drei Schichten: Hardware (Scanner), Datenpipeline (Annotation und Training) und Inferenz (Auswertungs-Dashboard).

Hardware-Schicht:

Evident OmniScan X3 / X4 — Der Industriestandard für portable PAUT in der Schweißnahtprüfung. Weltweite Anerkennung durch alle Klassifikationsgesellschaften. OmniPC 5 (Freeware) erlaubt Desktop-Nachauswertung ohne Gerät — wichtig für das ML-Team. Wenn euer Betrieb bereits mit OmniScan arbeitet: Weiternutzen und KI-Pipeline draufbauen. Gerätewechsel kurz vor KI-Einführung ist ein häufiger Fehler (erzwingt vollständiges Retraining).

Waygate Technologies — Baker-Hughes-Tochter, ebenfalls Marktführer im NDT-Hardware-Segment. Für bestehende Waygate-Installationen gilt das Gleiche wie für Evident: Konfiguration einfrieren, nicht wechseln.

Annotierungs- und Training-Schicht:

CIVA NDT — Simulationssoftware, die synthetische A-Scan-Daten generiert. Der wichtigste Hebel gegen den Trainingsdaten-Engpass: CIVA kann defektspezifische Scans für Risse, Poren und Bindefehler in verschiedenen Tiefen, Winkeln und Blechdicken simulieren. Mit synthetischen Daten lässt sich die Trainingsbasis von 500 auf 5.000 Scans erweitern, ohne 5.000 echte Defekte in Produktionsnähten suchen zu müssen. Entwickelt vom CEA-List (Frankreich), EU-gehostet.

Roboflow — Annotations-Plattform für Computer-Vision-Datensätze. Funktioniert auch für exportierte A-Scan-Bilder. Automatische Labelvorschläge sparen 60–80% der Annotierungszeit — aber die finale Klassifikation muss vom Level-III-Prüfer kommen, nicht vom Auto-Label-Algorithmus. Einschränkung: US-gehostet; für sensible Schiffbaukunden DSGVO-Prüfung vorab.

Azure Machine Learning — EU-Rechenzentren (Frankfurt), DSGVO-konform. Geeignet für das CNN-Training und die Modellversionierung. Der Vorteil gegenüber eigenem GPU-Server: Flexibel skalierbar für den Training-Sprint, danach wieder runterfahrbar. Für die Inferenz (Produktionseinsatz) bietet sich ein lokaler Edge-Server in der Werft an — die Datenmengen (4–6 TB je Megablock) sprechen gegen Cloud-Transfer in der Produktion.

Zusammenfassung: Wann welcher Ansatz

  • Bestehende OmniScan-Installation → Evident OmniScan weiternutzen, Konfiguration einfrieren
  • Trainingsdaten-Engpass bei seltenen Defekten → CIVA NDT für synthetische Daten
  • Annotations-Workflow strukturieren → Roboflow (mit Level-III-Freigabe)
  • CNN-Training DSGVO-konform in der Cloud → Azure Machine Learning

Datenschutz und Datenhaltung

UT-Scandaten aus der Schweißnahtprüfung enthalten keine personenbezogenen Daten im Sinne der DSGVO — es sind Messsignale, keine Personendaten. Das macht die Datenschutzanforderungen überschaubar. Was aber gilt:

Vertraulichkeit von Baudokumenten: Prüfberichte für neue Schiffe enthalten Informationen über Baufortschritt, Defektraten und Qualitätsspiegel — das sind Betriebsgeheimnisse. Für Rüstungsauftragnehmer (TKMS, German Naval Yards) gelten zusätzlich Geheimhaltungsanforderungen, die Cloud-Verarbeitung auf deutschen Servern oder On-Premise erzwingen.

Anforderungen für militärischen Schiffbau: Bei TKMS-Projekten (U-Boote, Fregatten) gilt VS-NfD oder höhere Einstufung. Kein Hyperscaler-Cloud-Upload. KI-Training und Inferenz muss auf eigenen oder zertifizierten Systemen stattfinden. Auch Azure Machine Learning in Frankfurt reicht hier nicht aus — der Verarbeitungsort muss physisch kontrolliert werden. Custom-Setups auf TKMS-eigener Infrastruktur oder einem BSI-zugelassenen Rechenzentrum sind die einzig gangbare Option.

Für zivilen Schiffbau (Meyer Werft, Lloyd Werft): EU-Cloud-Verarbeitung (Azure EU, Hetzner) ist ausreichend. AVV-Vereinbarungen mit den Cloud-Anbietern sind Standard. Klassifikationsgesellschafts-Berichte müssen nicht verschlüsselt gespeichert werden, aber Zugriffsprotokollierung ist bei externen Prüfern sinnvoll.

CIVA NDT ist EU-gehostet (CEA-List, Frankreich) und für EU-Nutzung unkritisch. Roboflow hostet US-seitig — für Annotation von nicht-klassifizierten Produktionsdaten in der Regel vertretbar, aber mit dem Datenschutzbeauftragten abstimmen. Azure Machine Learning bietet EU-Data-Residency in Frankfurt, geeignet für zivilen Schiffbau.

Was es kostet — realistisch gerechnet

Initialkostenblock (einmalig):

  • Datenaufbereitung und Annotation (Level-III-Expert, 150–200 Std.): 15.000–20.000 €
  • Synthetische Datengenerierung mit CIVA: 8.000–15.000 € (Lizenz + Ingenieurzeit)
  • CNN-Entwicklung und Training (ML-Engineer, 3–5 Monate): 45.000–90.000 €
  • Dashboard-Entwicklung (Visualisierung, Klassenbericht-Export): 20.000–40.000 €
  • Validierungsphase mit Klassifikationsgesellschaft: 20.000–60.000 €
  • Gesamtinitiative: 108.000–225.000 € (abhängig von interner vs. externer Entwicklung)

Laufende Kosten (jährlich):

  • ML-Engineer für Modellpflege und Retraining: 15.000–30.000 € (ca. 0,5 FTE)
  • Infrastruktur (Inferenz-Server oder Edge-Hardware): 5.000–12.000 €/Jahr
  • Survey-Begleitung Klassifikationsgesellschaft: 5.000–15.000 €/Jahr
  • Laufend gesamt: 25.000–57.000 €/Jahr

Gegenrechnung: Ein Kreuzfahrtschiff-Megablock kostet bei manueller Prüfung ca. 17.000–24.000 € an ZfP-Prüferzeit. Bei Einsparung von ~60% der Prüfzeit: 10.000–14.000 € gespart je Megablock. Bei 60 Megablöcken pro Schiff: 600.000–840.000 € Einsparung je Schiff (gerechnet über die gesamte Schiffsmontage). Ab dem zweiten Schiff ist der Investitionsaufwand amortisiert. Selbst wenn nur 30% der theoretischen Einsparung eintreten (Modell läuft nicht auf allen Nahttypen, Klassifikationsgesellschaft verzögert die Freigabe): Amortisation nach 1,5–2 Schiffen.

Woran du den ROI tatsächlich misst: Nicht die Berechnung, sondern die gemessene Prüfertage-Differenz vor und nach dem Rollout. Führe für die ersten drei Megablöcke nach KI-Einführung exakt Buch: Wie viele Prüferstunden wurden für die manuelle Verifikation benötigt, verglichen mit dem historischen Durchschnitt? Das ist der einzige belastbare Beleg — alles andere ist Projektion.

Vier typische Einstiegsfehler

1. Mit dem Modell starten, bevor die Scan-Konfiguration eingefroren ist. Das ist der häufigste und kostspieligste Fehler. Wenn während der Trainingsdaten-Erfassung die Gerätekonfiguration (Verstärkung, Sondenfrequenz, Schrittweite) auch nur einmal angepasst wird, ist ein Teil der Trainingsdaten inkonsistent. Das Modell lernt dann nicht nur Defektmuster, sondern auch Konfigurationsunterschiede — und versagt an Produktionsdaten, sobald die Konfiguration vom Trainingsstandard abweicht. Wissenschaftlich belegt durch OSTI-NDT-Studien (2022): Modelle, die auf einer Prüfaufbau-Variante trainiert wurden, zeigten bei leicht abweichenden Aufbauten drastischen Performanceabfall. Lösung: Schreib die exakte Gerätekonfiguration in ein Dokument, unterschreibe es, und behandle jede spätere Abweichung wie eine Modellversion-Änderung.

2. Die Klassifikationsgesellschaft erst nach Modellfertigstellung einbinden. Typisches Projektmanagement-Muster: erst entwickeln, dann genehmigen. In regulierten Prüfumgebungen ist das rückwärts. Wenn Lloyd’s oder DNV in Monat 12 sagen, sie brauchen andere Validierungsparameter oder eine Mindest-Stichprobengröße, die ihr nicht habt, musst du Monate zurückgehen. Bring die Klassifikationsgesellschaft in Monat 2 ins Boot — nicht als Genehmigungsbehörde, sondern als technischen Gesprächspartner. Sie wissen, was sie für eine Prozessfreigabe brauchen, und das sollte euer Validierungsdesign von Anfang an formen.

3. Den Trainingsdaten-Aufwand auf Basis öffentlicher Studien unterschätzen. Akademische ML-NDT-Studien arbeiten mit bereinigten Laborproben — 200 reale Defekte, annotiert durch ein kleines Team in kontrollierten Bedingungen. Produktionsdaten aus einer aktiven Werft sind rauschiger, variabler und schwieriger zu annotieren. Plane das 3–5-fache der in Studien genannten Annotierungszeit ein, wenn du erstmals auf echten Werftnähten arbeitest.

4. Das KI-System als eigenständigen Prüfer verkaufen — intern oder extern. Das richtige Framing ist „KI als Vorfilter, Prüfer als Entscheider”. Sobald intern oder in Gesprächen mit der Klassifikationsgesellschaft der Eindruck entsteht, das System solle autonom Prüfentscheidungen treffen, stoßen alle Türen zu. Die Wertschöpfung liegt nicht im Autonom-Entscheiden, sondern darin, dass der Level-III-Prüfer nur noch 10–20% der Scans manuell ansehen muss statt 100%. Das ist enormer Wert — und kein Kompromiss an Sicherheit.

Was mit der Einführung wirklich passiert — und was nicht

Die technische Entwicklung ist der übersichtliche Teil. Das Schwierige ist die Überzeugungsarbeit in drei Richtungen:

Die ZfP-Prüfer selbst. Erfahrene Level-III-Prüfer haben ihr Fachurteil über 15 Jahre entwickelt. Ein System, das 90% ihrer täglichen Arbeit als „kein Befund” markiert, bevor sie selbst hingeschaut haben, kann sich anfühlen wie ein Eingriff in ihre Fachkompetenz. Die Akzeptanz hängt fast vollständig daran, ob die Prüfer das System selbst testen durften und ihre Erfahrung in die Fehlerkategorisierung eingeflossen ist. Konkret: Lass die Level-III-Prüfer die Grenzfälle im Trainingsdatensatz kuratieren — nicht nur annotieren, sondern mitentscheiden, was ein Grenzfall-Riss versus ein sicherer Bindefehler ist. Wer das System mitgebaut hat, vertraut ihm.

Die Projektleitung. Der Zeitplan für die Werft orientiert sich an Sektionsfertigstellung, nicht an Modell-Validierungsrunden. Wenn das ML-Projekt in Monat 9 mitteilt, es brauche noch 3 Monate für die Klassifikationsgesellschaft, droht Budgetkürzung. Das gegenüber der Projektleitung zu managen, erfordert frühe Einbindung und realistische Meilensteinplanung — nicht von Anfang an das beste Szenario kommunizieren.

Die Klassifikationsgesellschaft. DNV und Lloyd’s Register sind keine Innovationsbremsen — DNV hat selbst mit NDT.ai an KI-gestützter Nahtprüfung gearbeitet. Aber sie denken in Sicherheitsnachweisen, nicht in ML-Metriken. Was du ihnen zeigen musst: nicht „unser Modell hat 94% Accuracy”, sondern „unser Modell hat bei Rissanzeigen über einem kritischen Schwellenwert 0% False-Negative-Rate, dokumentiert an 300 Referenzproben unter Überwachung eures Surveyors”.

Realistischer Zeitplan mit Risikohinweisen

PhaseDauerWas passiertTypisches Risiko
Anforderungsdefinition + KGS-ErstkontaktMonat 1–2Nahttypen definieren, Konfiguration einfrieren, Gespräch mit DNV/Lloyd’s startenKGS stellt höhere Anforderungen als erwartet — Validierungsplan muss überarbeitet werden
Datengenerierung & AnnotationMonat 2–6Echte Scans aus laufender Produktion sammeln; CIVA für synthetische Riss-Daten; Level-III-AnnotationAnnotierungskapazität als Engpass — Level-III-Prüfer kaum für mehrhundert Stunden freistellbar
CNN-Training & interne ValidierungMonat 5–9Erstes Modell, Iteration, Schwellenwert-KalibrierungModell auf Porenklasse stark, auf Rissen schwach — Nachtraining mit mehr Rissbeispielen nötig
KGS-ValidierungsphaseMonat 8–13Parallelprüfung an Referenznaht-Stichprobe, Dokumentation für SurveyKGS braucht mehr Parallelprüfungen als geplant — Timeline verschiebt sich
Pilotbetrieb (begleitend)Monat 12–14Erstmaliger Einsatz an realem Megablock, Prüfer überprüft alle FlagsKI flaggt zu viele Grenzfälle → Prüfer-Overhead noch nicht optimal
ProduktivbetriebAb Monat 14KI läuft als Vorfilter, Prüfer bestätigt nur FlagsKonfigurationsänderung am Scanner invalidiert Modell — Retraining nötig

Häufige Einwände — und was dahintersteckt

„Wir vertrauen dem KI-System nicht genug für sicherheitskritische Prüfungen.” Das ist kein Einwand gegen KI, sondern ein Argument für das richtige Systemdesign: Das CNN entscheidet nichts alleine. Es filtert vor, der Level-III-Prüfer entscheidet. Die Frage ist nicht „vertraue ich der KI”, sondern „vertraue ich der KI dabei, mir die 80% unproblematischen Scans herauszusortieren, damit ich mich auf die 20% kritischen konzentrieren kann?” Das ist eine vollständig andere Frage — und sie ist beantwortbar durch Parallelprüfungen mit messbaren Ergebnissen.

„Wir haben keine Trainingsdaten.” Das ist der ehrlichste Einwand. Die Antwort: Du hast mehr als du denkst. Jede Werft mit mehrjähriger PAUT-Geschichte hat Archiv-Scandaten mit Prüfer-Befundprotokollen. Das Problem ist die Struktur: Die alten Befunde liegen in PDF-Protokollen, nicht als annotierten A-Scan-Datensätzen. Die erste Aufgabe ist Retrodigitalisierung — historische Befunde auf archivierte Scandaten rückzuprojizieren. Das kostet Zeit und Level-III-Aufwand, aber es ist kein Neustart bei null.

„Die Klassifikationsgesellschaft wird das nie akzeptieren.” Falsch. DNV hat 2019 selbst AI-gestützte Radiografieprüfung entwickelt. Das Thema ist in den Klassen-Organisationen aktiv in Diskussion — die IACS (International Association of Classification Societies) arbeitet an ML-Guidance-Dokumenten. Wer früh in Dialog tritt, kann das Verfahren mitgestalten — statt auf einen fertigen Standard zu warten, der vielleicht nicht zu seiner Implementierung passt.

Woran du merkst, dass das zu dir passt

Positive Signale:

  • Deine Werft baut mindestens 3–4 Megablöcke oder Schiffe pro Jahr — genug Datenvolumen für belastbare Trainingsdaten
  • Du hast Level-III-Prüfer in der eigenen Organisation oder einem festen Prüfdienstleister, die bereit sind, 150–200 Stunden Annotierungsarbeit beizutragen
  • Deine PAUT-Scanner-Konfiguration ist seit mindestens 2 Jahren stabil (gleiche Gerätegeneration, gleiche Sonden, gleiche Protokolle)
  • Du hast bereits eine digitale Archivierung der historischen Scandaten (nicht nur PDF-Befundprotokolle)
  • Du baust Schiffe mit Klassifikationsgesellschaft-Abnahme durch DNV, Lloyd’s Register oder Bureau Veritas — und hast ein etabliertes Survey-Verhältnis

Wann es sich noch nicht lohnt — drei harte Ausschlusskriterien:

  1. Weniger als 3 Megablock-Projekte pro Jahr. Weder die Trainingsdatenmenge noch der Amortisationszeitraum funktionieren. Ein einzelner Megablock pro Jahr rechtfertigt den Initialaufwand von 100.000–200.000 € nicht. Hier ist eine externe NDT-Digitalisierungsdienstleistung (fertige CNN-Plattform eines Spezialanbieters) die sinnvollere Alternative.

  2. Keine ZfP-Level-III-Kapazität für Annotation. Du kannst Datenerfassung und CNN-Entwicklung outsourcen — aber das Ground-Truth-Labeling der Defektklassen kann nicht von einem externen Datenlabeler ohne ZfP-Zertifizierung gemacht werden. Wer keine Level-III-Experten hat oder zeitlich freihalten kann, hat kein Trainingsdaten-Fundament. Das ist nicht lösbar durch mehr Budget.

  3. Kein standardisiertes PAUT-Protokoll im Einsatz. Wenn euer ZfP-Prozess noch von Prüfer zu Prüfer variiert — jeder kalibriert ein bisschen anders, jeder nutzt leicht unterschiedliche Verstärkungseinstellungen — dann ist der erste Schritt Prozessstandardisierung, nicht KI. Ein CNN auf inkonsistenten Daten zu trainieren ist sinnlos. Dieser Schritt kostet 3–6 Monate und lohnt sich unabhängig von KI: Standardisierte PAUT-Protokolle verbessern sofort die manuelle Prüfkonsistenz.

Das kannst du heute noch tun

Der sinnvollste erste Schritt ist eine interne Daten-Bestandsaufnahme — bevor irgendjemand über CNN-Architekturen oder Klassifikationsgesellschaften spricht. Beantworte diese drei Fragen mit deinem ZfP-Team:

  1. Wie viele archivierte PAUT-Scandaten haben wir, und in welchem Format?
  2. Wie viele historische Befundprotokolle haben wir mit klar klassifizierten Defekttypen?
  3. Wie stabil ist unsere Scanning-Konfiguration in den letzten 24 Monaten gewesen?

Die Antworten bestimmen, ob ihr in 12 Monaten oder in 24 Monaten produktiv sein könnt. Für den parallelen Einstieg in die Anforderungsdiskussion mit der Klassifikationsgesellschaft eignet sich folgender Prompt — gerichtet an dein internes Projektteam oder an ein KI-Beratungsunternehmen, das den ersten DNV/Lloyd’s-Kontakt vorbereitet:

Projekt-Kickoff-Analyse: KI-gestützte UT-Prüfung
Du unterstützt mich bei der Vorbereitung eines KI-gestützten UT-Schweißnahtprüfungs-Projekts für [WERFT/UNTERNEHMEN]. Mein Kontext: - Schiffstypen: [z.B. Kreuzfahrtschiff, Containerschiff, U-Boot] - Klassifikationsgesellschaft(en): [z.B. DNV, Lloyd's Register, Bureau Veritas] - Jährliches Prüfvolumen: [ca. X Megablöcke oder Y Prüfertage] - Aktueller Scan-Standard: [z.B. OmniScan X3, Phased Array, Frequenz X MHz] - Verfügbare Level-III-Kapazität: [X Stunden/Monat für Annotation] - Archivdaten: [Format, Umfang, Befundprotokolle ja/nein] Erstelle mir: 1. Eine Liste der 5 wichtigsten Fragen, die ich im Erstgespräch mit DNV/Lloyd's Register klären muss 2. Einen realistischen Meilensteinplan mit den größten Risiken je Phase 3. Eine Einschätzung, ob unser Archivdatenbestand als Trainingsbasis ausreicht oder ob synthetische Daten über CIVA nötig sind 4. Die minimal notwendige Annotierungsstichprobe je Defektklasse für ein für die Klassifikationsgesellschaft vorzeigbares Modell Sei konkret und geh von einem skeptischen aber kooperativen Surveyor bei der Klassifikationsgesellschaft aus.
Funktioniert mit ChatGPT, Claude, Gemini
Beispiel-Ausgabe

Mitarbeiter:in

Schiffstyp: Kreuzfahrtschiff (AIDA-Klasse). KGS: DNV. Volumen: 4 Schiffe/Jahr, je 70 Megablöcke. Scanner: OmniScan X3, 5 MHz, stabile Konfiguration seit 2021. Level-III: 2 Prüfer intern, je 20h/Monat verfügbar. Archiv: 3 Jahre OmniScan-.opd-Dateien, Befundprotokolle als PDF.

KI-Assistent

## Fragen für DNV-Erstgespräch 1. Welches Validierungsformat akzeptiert DNV für AI-unterstützte UT-Auswertesysteme aktuell — Parallelprüfung an Referenzproben, an Produktionsnähten, oder beides? 2. Gibt es eine Mindestgröße für die Validierungsstichprobe und eine maximale akzeptable False-Negative-Rate für Rissanzeigen? 3. Wie wird der "Model-Freeze"-Zeitpunkt formal dokumentiert, und was löst eine Neu-Validierungspflicht aus? 4. Kann das KI-System als "Vorfilter" mit Level-III-Entscheidungsverantwortung unter dem bestehenden PAUT-Verfahrensblatt operieren, oder braucht es ein eigenes Verfahrensblatt? 5. Besteht Interesse an einem Pilot-Survey an einem Testmegablock begleitend zur Validierungsphase? ## Meilensteinplan (realistisch) - Monat 1–2: DNV-Kontakt, Anforderungsklärung, Scan-Konfiguration formal einfrieren - Monat 2–6: Retrodigitalisierung der PDF-Befundprotokolle auf .opd-Daten (schätze 600h Level-III-Aufwand), CIVA für synthetische Rissbeispiele - Monat 5–9: CNN-Training (extern), interne Validierung auf Archivdaten - Monat 8–13: DNV-Parallelprüfung, Validierungsprotokoll - Ab Monat 14: Pilotbetrieb erstes Schiff ## Trainingsdaten-Einschätzung 3 Jahre .opd-Archiv mit 70 Megablöcken/Jahr = ausreichend Rohdaten. Problem: PDF-Befundprotokolle können den Defektort nicht pixelgenau auf .opd-Daten rückprojizieren. Erste Aufgabe: Script entwickeln, das PDF-Koordinaten auf .opd-Scan-Positionen mappt. CIVA für Rissklasse ergänzend zwingend — zu wenige echte Risse in Archiv. ## Minimale Stichprobe Je Defektklasse: 800–1.200 annotierte A-Scans; für Rissklasse mindestens 600 echte + 1.500 synthetische (CIVA). Gesamtannotierungsaufwand: ca. 160 Stunden Level-III-Zeit. Quelle: MDPI Machine Learning in PAUT Review (2024)

Quellen & Methodik

  • DNV NDT.ai-Projekt: DNV, „Improving on human analysis with AI”, DNV Research Review 2019 — KI-gestützte Radiografieprüfung von Schiffbauwernähten; Defektklassen Pore, Schlacke, Riss; URL: dnv.com/research/review2019/featured-projects/non-destructive-testing-using-artificial-intelligence/
  • EPRI AI-Assisted UT Inspections: EPRI Journal, „From Hours to Minutes: How AI is Transforming Nuclear Reactor Head Inspections” (2024/2025) — AI reduzierte Auswertungszeit je Inspektion von 4 Tagen auf 3–4 Stunden; Praxiseinsatz bei Vattenfall Ringhals, Constellation Energy und Tennessee Valley Authority (Field Trials 2022–2023). URL: eprijournal.com/from-hours-to-minutes-how-ai-is-transforming-nuclear-reactor-head-inspections/
  • Meyer Werft + VOGT Ultrasonics: Pressebox/ndt.net, Pressemitteilung 2010 — Einführung PAUT für Stumpfnahtprüfung an Stützstrukturen, 25.000 Tonnen Stahl je Kreuzfahrtschiff, Ablösung der Radiografieprüfung. URL: ndt.net/search/docs.php3?id=10963
  • Trainingsdaten-Konfigurationsabhängigkeit: OSTI, „Classification of Ultrasonic B-Scan Images from Welding Defects Using A [ML approach]” (2022) — Modelle auf Thermal-Fatigue-Crack-Daten trainiert, drastischer Performanceabfall bei Sägeschnitt-Daten. URL: osti.gov/servlets/purl/1995691
  • PAUT ML Review 2024: MDPI, „Advances of Machine Learning in Phased Array Ultrasonic Non-Destructive Testing: A Review” (2024) — Übersichtsarbeit zu CNN-, U-Net- und YOLO-Architekturen für PAUT-Defekterkennung. URL: mdpi.com/2673-2688/6/6/124
  • OmniScan X4 (Oktober 2024): Evident Scientific, Produktankündigung OmniScan X4, Oktober 2024. URL: ims.evidentscientific.com/en/products/phased-array/omniscan-x4
  • ZfP-Prüfer-Stundensatz: Marktrate für extern beauftragte ZfP-Level-II/III-Prüfer in Deutschland, Stand 2025 (80–120 €/Std.); interne Vergleichsgehälter: StepStone-Gehaltsreport Werkstoffprüfer Deutschland 2025 (Ø ca. €3.247 brutto/Monat).
  • Kisss-Projekt Schiffbau KI: Bundesministerium für Wirtschaft und Klimaschutz (BMWK), Förderprojekt „Kisss” — KI-gestützte Laserschweißprozesse unter Federführung Meyer Werft bis 2025. Bericht: umformtechnik.net/blech/Inhalte/Aus-der-Forschung/KI-soll-Schweissprozesse-im-Schiffbau-optimieren

Du willst einschätzen, ob dein Archivdatenbestand für einen KI-Piloten ausreicht, oder suchst einen ZfP-Level-III-Partner für die Annotierungsarbeit? Meld dich — wir klären das konkret anhand eurer Situation.

Diesen Inhalt teilen:

🤝

Interesse an diesem Use Case?

Schreib uns, wenn du mehr erfahren oder diesen Use Case für dein Unternehmen umsetzen möchtest. Wir melden uns zeitnah bei dir.

Deine Daten werden ausschließlich zur Bearbeitung deiner Anfrage verwendet (Art. 6 Abs. 1 lit. b DSGVO). Mehr in unserer Datenschutzerklärung.

Kostenloser Newsletter

Bleib auf dem neuesten
Stand der KI

Wähle deine Themen und erhalte relevante KI-News, Praxistipps und exklusive Inhalte direkt in dein Postfach – kein Spam, jederzeit abmeldbar.

Was interessiert dich? Wähle 1–3 Themen — du bekommst nur Inhalte dazu.

Mit der Anmeldung stimmst du unserer Datenschutzerklärung zu. Jederzeit abmeldbar.

Kostenlos
Kein Spam
Jederzeit abmeldbar