fine-tuning llm ki-praxis unternehmen machine-learning

Fine-tuning: Wann lohnt es sich, ein KI-Modell anzupassen?

Prompt Engineering, RAG oder Fine-tuning — wann ist welcher Ansatz richtig? Eine ehrliche Einschätzung, wer Fine-tuning wirklich braucht und wer nicht.

Daniel Sonnet · 1. März 2026 · 5 Min. Lesezeit

Fine-tuning: Wann lohnt es sich, ein KI-Modell anzupassen?

Eine Kanzlei in München hat monatelang darauf gewartet, ein KI-Modell auf ihre Vertragsklauseln zu trainieren. Kosten: rund 40.000 Euro. Ergebnis: Das Modell extrahiert Klauseln zuverlässig — aber ein guter Systemprompt hätte 80 % der Ergebnisse zu einem Zehntel des Preises geliefert.

Das ist keine Ausnahme. Es ist das häufigste Muster, wenn Unternehmen über Fine-tuning nachdenken: Sie unterschätzen, was Prompts allein können — und überschätzen, was Fine-tuning löst.

Drei Werkzeuge, drei verschiedene Probleme

Bevor wir über Fine-tuning sprechen, lohnt sich ein klarer Blick auf die drei wichtigsten Anpassungsstrategien für LLMs:

Prompt Engineering bedeutet, dem Modell durch sorgfältig formulierte Anweisungen, Beispiele und Kontext zu sagen, was es tun soll. Kein Training, keine Kosten, sofort iterierbar. Klingt simpel — ist aber für die meisten Anwendungsfälle der richtige erste Schritt.

RAG (Retrieval-Augmented Generation) erweitert das Modell um eine Wissensbasis. Du speicherst Dokumente, Handbücher oder interne Daten extern in einer Vektordatenbank (z. B. Pinecone oder Weaviate), und das Modell ruft relevante Passagen bei Bedarf ab. Das Modell selbst wird nicht verändert. RAG ist ideal, wenn du viele spezifische Informationen hast, die sich regelmäßig ändern — etwa Produktdokumentationen, Gerichtsurteile oder interne Richtlinien. Wie das in der Praxis aussieht, zeigt unser Use Case Interne Wissensdatenbank.

Fine-tuning verändert das Modell selbst. Es lernt auf einem neuen Datensatz und passt seine Gewichte an. Das Ergebnis ist ein Modell, das auf bestimmte Aufgabentypen spezialisiert ist — konsistenter im Stil, schneller bei bekannten Formaten, effizienter im Umgang mit domänenspezifischer Sprache.

Der Fehler vieler Unternehmen: Sie springen direkt zu Fine-tuning, ohne die einfacheren Varianten wirklich ausgereizt zu haben.

Wann Fine-tuning tatsächlich sinnvoll ist

Fine-tuning lohnt sich unter drei spezifischen Bedingungen — und meist braucht man mindestens zwei davon gleichzeitig.

Erstens: konsistenter Stil oder Ton in hohem Volumen. Wenn du täglich Hunderte von Texten generierst, die alle denselben spezifischen Tonfall haben sollen — etwa den unverwechselbaren Stil einer Marke, medizinische Berichte in exakter Struktur oder juristische Korrespondenz im Hausstil der Kanzlei — dann kann Fine-tuning Konsistenz liefern, die selbst detaillierte Prompts nicht vollständig erreichen.

Zweitens: hochspezialisierte Fachterminologie. Ein allgemeines Modell kennt “Sachmängelanspruch” — aber kennt es die spezifische Auslegung in euren internen Vertragsvorlagen? Wenn euer Fachgebiet so spezialisiert ist, dass Standardmodelle regelmäßig falsch liegen, kann Fine-tuning helfen. Das betrifft Nischenbranchen, proprietäre Begriffssysteme oder stark regulierte Bereiche.

Drittens: massive Kostenoptimierung bei repetitiven Aufgaben. Fine-tuning eines kleineren Modells für eine klar definierte Aufgabe kann günstiger sein als täglich tausende Anfragen an ein großes Modell zu schicken. Ein für Rechnungsextraktion trainiertes kleines Modell kostet pro Inference einen Bruchteil von GPT-4o.

Das Beispiel: Vertragsklausel-Extraktion in einer Kanzlei

Eine mittelgroße Wirtschaftskanzlei hatte folgendes Problem: Anwälte verbrachten täglich Stunden damit, in Lieferverträgen nach bestimmten Klauseltypen zu suchen — Haftungsbegrenzungen, Kündigungsfristen, Gerichtsstandsvereinbarungen. Wie eine KI-gestützte Vertragsanalyse grundsätzlich aufgebaut wird, zeigt unser gleichnamiger Use Case. Für Kanzleien, die keine eigene Fine-tuning-Infrastruktur aufbauen wollen, existieren inzwischen spezialisierte Tools wie Harvey AI oder Luminance, die bereits auf rechtliche Dokumente trainiert sind.

Nach einer ersten Testphase mit einem guten RAG-System und detaillierten Prompts erreichten sie eine Trefferquote von etwa 78 %. Für einfache Vorprüfungen gut genug — für die Hauptlast jedoch nicht ausreichend.

Erst hier kam Fine-tuning ins Spiel. Sie erstellten einen Trainingsdatensatz aus 1.200 annotierten Verträgen — von Anwälten manuell gelabelt, welche Textstellen welche Klauseltypen enthielten. Das Fine-tuning auf einem mittelgroßen Modell dauerte rund drei Wochen Datenvorbereitung und zwei Tage Training.

Das Ergebnis: 94 % Trefferquote, deutlich reduzierte Fehlerquote bei den kritischsten Klauseltypen, und ein Modell, das die spezifische Sprache der Kanzlei und ihrer typischen Vertragspartner kannte.

Aber: Die drei Wochen Datenvorbereitung waren der eigentliche Aufwand. Und dieser Datensatz muss gepflegt werden.

Was du brauchst — und was es kostet

Fine-tuning ist kein Selbstläufer. Du brauchst drei Dinge:

Daten. Mindestens einige hundert, besser einige tausend Beispiele. Gut gelabelt, repräsentativ für das, was das Modell später tun soll. Die Qualität der Trainingsdaten bestimmt die Qualität des Ergebnisses — “garbage in, garbage out” gilt hier besonders hart.

Budget. Je nach Modell und Datenmenge: Fine-tuning über OpenAI API kostet je nach Umfang zwischen einigen Hundert und mehreren Tausend Euro. Dazu kommen Kosten für die Datenvorbereitung — die oft der teuerste Teil sind, weil sie Fachexperten-Zeit erfordern.

Technische Kapazität. Jemand, der das Projekt aufsetzt, die Qualität bewertet und das Modell bei Bedarf nachtrainiert. Das kann ein gut eingearbeiteter interner Mitarbeiter sein oder ein externer Dienstleister — aber es ist kein Ein-Klick-Prozess. Wer eine verwaltete Infrastruktur bevorzugt, findet in Plattformen wie AWS SageMaker oder Azure ML einen soliden Ausgangspunkt.

Für viele kleine und mittlere Unternehmen ist das eine ehrliche Hürde. Nicht unüberwindbar — aber auch nicht nebenbei zu erledigen.

Die ehrliche Einschätzung

Die meisten Unternehmen brauchen kein Fine-tuning. Sie brauchen bessere Prompts.

Das klingt ernüchternd — ist aber eigentlich eine gute Nachricht. Prompt Engineering ist kostenlos, sofort iterierbar und liefert bei sauber strukturierten Aufgaben erstaunlich gute Ergebnisse. Wenn du noch kein strukturiertes Prompt-Engineering-System hast, fang dort an.

Wenn dein Use Case diese Eigenschaften hat, kannst du Fine-tuning ernsthafter in Betracht ziehen:

Du hast eine klar definierte, repetitive Aufgabe — keine allgemeine “KI-Unterstützung”.

Du hast genug Qualitätsdaten, um ein Modell zu trainieren, und die Kapazität, diese Daten zu pflegen.

Du hast den ROI durchgerechnet: Lohnt sich das Training gegenüber einem besseren Prompt und einem günstigeren Modell?

Du hast RAG bereits getestet — und bist an die Grenze gestoßen.

Wer Fine-tuning als “KI richtig machen” oder als Status-Symbol betrachtet, verbrennt Geld. Wer es als letztes Werkzeug für einen spezifischen Engpass einsetzt, kann damit echte Effizienzgewinne erzielen.

Was als nächstes?

Wenn du gerade dabei bist, KI-Anwendungsfälle in deinem Unternehmen zu evaluieren, schau dir auch unsere Übersicht zu KI in der Praxis an. Und für einen schnellen Überblick über die gängigen Modelle lohnt sich der Claude, ChatGPT und Gemini Vergleich.

Fine-tuning ist ein mächtiges Werkzeug — aber eben nur eines im Werkzeugkasten. Den meisten Unternehmen empfehle ich: Beherrsch erst Prompt Engineering und RAG. Dann schau, was noch fehlt.

Du willst auf dem Laufenden bleiben, wenn es neue Entwicklungen bei KI-Modellen und Anpassungsstrategien gibt? Der KI-Syndikat-Newsletter liefert dir regelmäßig praxisnahe Updates — ohne Hype, mit konkretem Nutzwert.

Weiterführende Links

KI-Glossar KI-Quiz machen Lernpfade entdecken

Diesen Artikel teilen:

LinkedIn X / Twitter E-Mail WhatsApp

Fine-tuning: Wann lohnt es sich, ein KI-Modell anzupassen?

Drei Werkzeuge, drei verschiedene Probleme

Wann Fine-tuning tatsächlich sinnvoll ist

Das Beispiel: Vertragsklausel-Extraktion in einer Kanzlei

Was du brauchst — und was es kostet

Die ehrliche Einschätzung

Was als nächstes?

Das könnte dich auch interessieren

Open Source vs. Closed Source KI: Was passt zu deinem Unternehmen?

Prompt Engineering vertiefen: Fortgeschrittene Techniken für Profis

Multi-Agenten-Systeme: Wenn KIs miteinander arbeiten

Kommentare

Fine-tuning: Wann lohnt es sich, ein KI-Modell anzupassen?

Drei Werkzeuge, drei verschiedene Probleme

Wann Fine-tuning tatsächlich sinnvoll ist

Das Beispiel: Vertragsklausel-Extraktion in einer Kanzlei

Was du brauchst — und was es kostet

Die ehrliche Einschätzung

Was als nächstes?

Das könnte dich auch interessieren

Open Source vs. Closed Source KI: Was passt zu deinem Unternehmen?

Prompt Engineering vertiefen: Fortgeschrittene Techniken für Profis

Multi-Agenten-Systeme: Wenn KIs miteinander arbeiten

Kommentare

Bleib auf dem neuesten Stand der KI

Bleib auf dem neuesten
Stand der KI