🇩🇪 Deutschsprachig ⚠️ Hybrid Zuletzt geprüft: Juni 2026

spaCy

Explosion AI

4/5

Industrieerprobte Open-Source-NLP-Bibliothek für Python, entwickelt von Explosion AI (Berlin). spaCy ist der De-facto-Standard für Named Entity Recognition (NER), Relation Extraction und linguistische Annotation in Produktionsumgebungen. Deutsche Sprachmodelle ab Werk verfügbar (de_core_news_sm bis de_dep_news_trf), eigene Entitätstypen trainierbar, vollständig on-premise lauffähig. Mit spacy-llm seit 2023 zusätzlich nahtlose LLM-Integration für hybride Pipelines.

Kosten: Kernbibliothek vollständig kostenlos (MIT-Lizenz). spacy-llm-Erweiterung ebenfalls Open Source. Annotation-Tool Prodigy von Explosion kostenpflichtig (persönliche Lifetime-Lizenz 390 USD zzgl. Steuer). Im Produktionsbetrieb: Infrastrukturkosten je nach Deployment (CPU für klassische Modelle, GPU für Transformer).

Kategorien

Open-Source

Stärken

Deutsche Sprachmodelle für NER, POS-Tagging und Dependency Parsing direkt enthalten
Vollständig on-premise betreibbar, keine Daten verlassen das eigene System
Industriell erprobt: stabil, performant (Cython-Kern), gut dokumentiert, aktive Community
Eigene Entitätstypen trainierbar (z. B. DRITTPARTEI, HAFTUNGSINDIZ, PRODUKTFEHLER)
spacy-llm-Integration für hybride Pipelines aus klassischem NLP und LLM-Prompting
Anbieter Explosion AI sitzt in Berlin, europäisches Open-Source-Projekt mit DSGVO-Verständnis

Einschränkungen

Erfordert Python-Kenntnisse und ML-Grundverständnis, kein No-Code-Tool
Fine-Tuning auf domänenspezifischen Daten erfordert annotiertes Trainingskorpus (200–400 Beispiele pro Entitätstyp)
Transformer-basierte Modelle brauchen GPU für akzeptable Inferenzgeschwindigkeit im Produktionsbetrieb
Englische Community und Dokumentation dominieren, deutschsprachige Ressourcen knapper
Kein managed Service, Betrieb, Monitoring, Modell-Lifecycle sind Eigenleistung
Für generative Aufgaben (Zusammenfassung, Übersetzung) nicht geeignet, dafür LLMs

Passt gut zu

NER-Pipelines für domänenspezifische Texte (Schadensberichte, Gutachten, Verträge) Haftungsindiz-Extraktion aus Versicherungsschadensberichten On-Premise-NLP ohne Cloud-Abhängigkeit oder Datenweitergabe Teams mit Python-Entwicklungskapazität, die eigene Entitätstypen definieren wollen Hybride Architekturen: schnelles, deterministisches NER + LLM für komplexe Klassifikation

Wann ja, wann nein

Wann ja

Du brauchst NER oder strukturierte Extraktion aus deutschen Texten in Produktion
Daten müssen lokal bleiben (Versicherung, Gesundheit, Recht, KRITIS)
Du hast Python-Entwickler im Team und ML-Erfahrung
Du willst hybride Pipelines aus klassischem NLP und LLMs aufbauen

Wann nein

Du suchst ein No-Code-Tool oder reine Cloud-Lösung
Du brauchst generative Funktionen (Texte schreiben, übersetzen, zusammenfassen)
Du hast keine Trainingsdaten und keinen Aufbau-Plan für ein Annotationskorpus
Dein Use-Case ist einmalige Ad-hoc-Analyse, nicht produktive Pipeline

Kurzfazit

spaCy ist die industrielle Werkbank für NLP in Python, kein Spielzeug, kein Chatbot-Generator, sondern eine schnelle, deterministische Bibliothek für strukturierte Sprachverarbeitung in Produktionsumgebungen. Wer Named Entity Recognition, Relation Extraction oder klassische linguistische Annotation auf deutschen Texten braucht, kommt an spaCy nicht vorbei. Deutsche Sprachmodelle ab Werk, vollständig on-premise lauffähig, MIT-Lizenz, für DSGVO-sensible Branchen wie Versicherung, Gesundheit oder Recht ein riesiger Vorteil gegenüber Cloud-LLMs. Mit der spacy-llm-Erweiterung lässt sich seit 2023 auch ein LLM ins Pipeline-Modell einbinden, was hybride Architekturen ermöglicht: schnelles deterministisches NER für 80 % der Aufgaben, LLM-Fallback für die schwierigen 20 %. Schwächen: kein No-Code-Tool, kein managed Service, Python, Engineering-Kapazität und Annotation-Aufwand sind Pflicht. Für die richtige Zielgruppe (NLP-Teams, Data Engineering, ML-Plattformen) eines der wertvollsten Open-Source-Werkzeuge überhaupt.

Für wen ist spaCy?

NLP- und Data-Science-Teams in Unternehmen: Die Kernzielgruppe. Wer Pipelines für strukturierte Textverarbeitung in Produktion betreibt (Schadensberichte klassifizieren, Verträge analysieren, Kundenanfragen kategorisieren), bekommt mit spaCy industrielle Reife, Performance und Wartbarkeit. Die Bibliothek ist in tausenden produktiven Pipelines im Einsatz.

Versicherungen, Banken, Gesundheitswesen: Branchen mit hohem Datenschutzbedarf und vielen unstrukturierten deutschen Texten profitieren besonders. NER für Drittparteien, Haftungsindizien, ICD-Codes oder Risikoklassifikationen, alles on-premise, ohne Cloud-Abhängigkeit. Für regulierte Bereiche oft der einzige gangbare Weg zur Textautomatisierung.

Juristische und Compliance-Anwendungen: Vertragsanalyse, Klauselextraktion, Anonymisierung von Schriftsätzen, spaCy ermöglicht eigene Entitätstypen (z. B. KAUTELE, GERICHTSSTAND, MANDANT), die mit annotiertem Trainingskorpus auf Kanzlei- oder Branchenspezifika fein-getunt werden können.

E-Commerce und Customer Support: Klassifikation und Routing von Support-Tickets, Produktattribut-Extraktion aus Beschreibungen, Suchindex-Anreicherung, Aufgaben, bei denen Geschwindigkeit und Konsistenz wichtiger sind als Kreativität. spaCy verarbeitet Tausende Dokumente pro Sekunde (klassische Pipelines) oder hunderte (Transformer) auf einer einzelnen Maschine.

Forschung und akademische Anwendung: Linguistische Annotation, Korpusstudien, Vergleichbarkeit von NLP-Methoden, spaCy hat sich in der deutschsprachigen NLP-Community als Standard etabliert. Universitäten wie LMU München, HU Berlin und die TU Darmstadt nutzen es in Lehre und Forschung.

ML-Engineers, die hybride Pipelines bauen: spaCy ist heute kein “entweder klassisch oder LLM”-Tool mehr. Mit spacy-llm lassen sich beide Welten kombinieren, deterministische, schnelle, kontrollierbare NLP-Komponenten plus LLM-Komponenten für komplexe Aufgaben. Das ist die Antwort auf die Frage “wie integriere ich GPT in eine ernsthafte NLP-Pipeline?”.

Weniger geeignet für: Marketing-Teams, die mal kurz einen Text generieren wollen (ChatGPT reicht), Nicht-Entwickler ohne Python-Hintergrund (kein No-Code), Use Cases mit minimalem Volumen (ein paar Dokumente im Monat, dafür ist der Aufwand nicht gerechtfertigt) und alle, die generative Aufgaben (Übersetzung, Zusammenfassung, kreatives Schreiben) automatisieren wollen, dafür sind LLMs das richtige Werkzeug.

Preise im Detail

Komponente	Preis	Was du bekommst
spaCy Kernbibliothek	0 EUR (MIT-Lizenz)	Vollständige NLP-Pipeline, 75+ Sprachen, deutsche Modelle, Trainings-CLI
spaCy-Sprachmodelle	0 EUR	de_core_news_sm/md/lg (statistisch) und de_dep_news_trf (Transformer) für Deutsch
spacy-llm	0 EUR	Open-Source-Erweiterung für LLM-Integration in spaCy-Pipelines
Prodigy (Annotation)	390 USD Lifetime-Lizenz (persönlich)	Kommerzielles Annotation-Tool von Explosion, Pflicht für effiziente Datenerstellung
Hosting/Compute	je nach Setup	On-premise oder eigene Cloud, Infrastrukturkosten variieren stark

Einordnung: Die Lizenzkosten sind minimal, die echten Kosten liegen in Engineering-Aufwand, Annotation-Arbeit und Compute. Eine Custom-NER-Pipeline für eine Versicherung erfordert typisch 2–4 Personenmonate Entwicklung, einen annotierten Trainingskorpus (200–800 Beispiele pro Entitätstyp), Trainings-Infrastruktur (GPU für Transformer-Modelle, ein Hours-Bereich auf modernen Karten) und laufenden Betrieb. Prodigy ist faktisch Pflicht, sobald die Annotation-Arbeit über ein paar Dutzend Beispiele hinausgeht, die 390 USD für eine persönliche Lifetime-Lizenz sind die wahrscheinlich beste Investition, die man im Projekt macht. Sweet Spot: Teams mit eigenem Python-Engineering bauen mit spaCy NER-Pipelines, die in der Cloud (z. B. AWS Bedrock + Claude) deutlich teurer wären und Daten ans Drittland-Hosting senden würden.

Stärken im Detail

Industrielle Performance durch Cython-Kern. spaCy ist nicht in Python geschrieben, sondern in Cython, kompiliert, speicher-effizient, schnell. Klassische Modelle verarbeiten zehntausende Tokens pro Sekunde auf einer Single-Core-CPU. Im Vergleich zu reinem Python (NLTK, einfache Tokenizer) ist das ein Faktor 10–100 schneller. Für produktive Pipelines macht das den Unterschied zwischen “läuft” und “skaliert”.

Deutsche Sprachmodelle ohne Aufpreis. Vier Größenstufen für Deutsch: de_core_news_sm (12 MB, schnell), de_core_news_md (50 MB, mit Wortvektoren), de_core_news_lg (550 MB, beste klassische Performance), de_dep_news_trf (Transformer-basiert, höchste Genauigkeit, GPU empfohlen). Alle decken NER, POS-Tagging, Lemmatisierung und Dependency Parsing ab. Out-of-the-box für viele Standard-Use-Cases produktionstauglich.

Custom-NER-Training auf eigene Entitätstypen. Das wichtigste Feature für Unternehmen: Mit einem Annotationskorpus von 200–800 Beispielen pro Entitätstyp lässt sich spaCy auf domänenspezifische Entitäten trainieren, z. B. DRITTPARTEI (Werkstätten, Lieferanten), HAFTUNGSINDIZ (juristische Formulierungen), MEDIKAMENT_DOSIS (in Arztbriefen). Typische F1-Scores nach ausreichend Training: 75–90 %.

spacy-llm für hybride Pipelines. 2023 eingeführt, mittlerweile produktionsreif: spacy-llm integriert OpenAI, Anthropic, lokale Modelle (über Hugging Face oder llama.cpp) als Pipeline-Komponenten in spaCy. Use-Case: 95 % der Dokumente werden vom klassischen NER bearbeitet (schnell, deterministisch, lokal), die schwierigen 5 % gehen an ein LLM (z. B. Claude über AWS Bedrock in Frankfurt). Das ist die pragmatische Brücke zwischen deterministischer Verarbeitung und generativer KI.

On-premise und DSGVO-konform. Die Bibliothek läuft komplett im eigenen Rechenzentrum oder in der eigenen Cloud, keine Daten verlassen das System. Anbieter Explosion AI sitzt in Berlin, das Open-Source-Projekt hat europäisches DSGVO-Verständnis. Für Versicherungen, Banken, Gesundheit oder KRITIS-Betreiber ist das oft der einzige akzeptable Pfad zur Textautomatisierung.

Aktive Community und Ökosystem. spaCy hat über 30.000 GitHub-Stars, eine breite Plugin-Landschaft (Wörterbücher, Annotatoren, Visualisierer wie displaCy), enge Integration mit Hugging Face Transformers und LangChain. Die Dokumentation ist außerordentlich gut, die Github-Issues sind responsive, für ein Open-Source-Projekt vorbildlich.

Reife Tool-Suite drumherum. Prodigy als professionelles Annotation-Tool, Thinc als ML-Framework darunter, Weasel für Projektmanagement, displaCy für Visualisierung. Explosion AI hat ein konsistentes, durchdachtes Ökosystem geschaffen, das echte Produktionseinsätze unterstützt, nicht nur ein Proof-of-Concept.

Schwächen ehrlich betrachtet

Python-Pflicht. spaCy gibt es nur für Python. Wer in Java-, Go- oder .NET-Stacks lebt, muss entweder ein Python-Microservice betreiben oder zu Alternativen wie Stanford CoreNLP (Java) oder ML.NET greifen. Für die meisten ML-Teams ist Python ohnehin Standard, für klassische Backend-Teams kann es Reibung erzeugen.

Annotation-Aufwand ist real. Custom-NER klingt einfach, ist aber arbeitsintensiv: 200–800 manuell annotierte Beispiele pro Entitätstyp, klare Annotation-Richtlinien, Qualitätssicherung (inter-annotator agreement), Iteration. Bei mehreren Entitätstypen reden wir über mehrere Wochen Annotation-Arbeit für ein erstes brauchbares Modell. Wer das unterschätzt, erlebt böse Überraschungen.

Transformer-Modelle brauchen GPU. Das beste deutsche Modell (de_dep_news_trf) ist Transformer-basiert und braucht für akzeptable Inferenzgeschwindigkeit eine GPU. CPU-Inferenz ist möglich, aber langsam (sekundenweise pro Dokument). Für produktive Pipelines bedeutet das GPU-Hardware oder Cloud-GPU-Instanzen, kein Showstopper, aber Kostenfaktor.

Englische Dominanz in Community und Tooling. Die Dokumentation ist auf Englisch, die meisten Tutorials und Stack-Overflow-Antworten auch. Deutschsprachige Ressourcen sind knapper. Für Teams ohne starkes Englisch ein realer Reibungspunkt, auch wenn Explosion AI als deutsches Unternehmen mehr deutsche Inhalte produziert als die meisten Open-Source-Projekte.

Kein managed Service. spaCy ist eine Bibliothek, kein SaaS. Betrieb, Monitoring, Modell-Versionierung, A/B-Testing, alles ist Eigenleistung. Wer einen reinen SaaS-Ansatz will (Daten rein, Ergebnisse raus, kein Ops), ist hier falsch. Für Unternehmen mit eigenem MLOps-Team ein Vorteil (volle Kontrolle), für andere eine Hürde.

LLMs sind in vielen Use-Cases ehrlich gesagt bequemer. Wer einfach mal Text extrahieren will und kein produktionskritisches Volumen hat, ist mit einem LLM-Prompt (ChatGPT, Claude, Gemini) oft schneller am Ziel. spaCy lohnt sich, wenn Volumen, Latenz, Determinismus, Datenschutz oder Kosten gegen LLM-Cloud-Services sprechen. Für einmalige Analysen ist es Overkill.

Wartung erfordert Disziplin. Trainierte Modelle veralten, neue Begriffe, neue Schreibweisen, neue Entitätstypen. Wer einmal ein Modell trainiert und dann nicht weiter pflegt, hat in 12–24 Monaten ein degradiertes Modell. Modell-Monitoring (Daten-Drift, Konzept-Drift) und regelmäßiges Re-Training sind Teil des Betriebs.

Alternativen im Vergleich

Wenn du…	…nimm stattdessen
Pretrainierte Modelle für viele Sprachen und Aufgaben nutzen willst	Hugging Face
Agentische Workflows mit LLMs orchestrieren willst	LangChain
Einfach mal Text klassifizieren oder extrahieren willst (ohne Engineering)	ChatGPT oder Claude

Erwähnenswert ohne eigene Tool-Seite: NLTK ist die akademisch geprägte ältere Python-NLP-Bibliothek, gut für Lehre und Forschung, aber für Produktion langsamer und unkomfortabler. Stanford CoreNLP ist Java-basiert, sprachreich, in produktiven Java-Stacks weiterhin relevant. Flair (vom Zalando Research Team) ist eine performante Alternative mit Fokus auf Embeddings, gute deutsche Modelle, kleinere Community. Stanza (Stanford) hat starke linguistische Tiefe (besonders für Morphologie), aber weniger industriell. Transformers von Hugging Face ist die natürliche Komplementärbibliothek: Pretrained-Modelle (BERT, RoBERTa, deutsche BERT-Varianten von deepset.ai) für die schwere Arbeit, spaCy für die Pipeline-Orchestrierung. OpenAI GPT-4o-mini oder Claude Haiku als LLM-Alternative für strukturierte Extraktion: viel teurer pro Dokument, aber ohne Training-Aufwand sofort einsetzbar.

So steigst du ein

Schritt 1: Installiere spaCy und lade das deutsche Sprachmodell:

pip install spacy
python -m spacy download de_dep_news_trf  # Transformer, beste Genauigkeit
# oder de_core_news_md für schnellere CPU-Inferenz

Teste das Basismodell mit einem realen Dokument aus deinem Use-Case, nlp("Müller GmbH lieferte am 15.03. defekte Bauteile an die Versicherung.") zeigt dir, was Out-of-the-Box bereits funktioniert (Organisationen, Datum, Personen) und wo eigene Entitätstypen nötig sind.

Schritt 2: Definiere deine Entitätstypen für den Use-Case, beispielsweise DRITTPARTEI, HAFTUNGSINDIZ, PRODUKTFEHLER oder VERKEHRSUNFALL, und annotiere einen Trainingskorpus. Das kommerzielle Annotation-Tool Prodigy von Explosion (persönliche Lifetime-Lizenz 390 USD) ist faktisch Pflicht; das kostenlose Label Studio funktioniert auch, ist aber weniger spaCy-nativ. Mindestens 200–400 annotierte Beispiele pro Entitätstyp für akzeptable Modellgüte, besser 500–800.

Schritt 3: Trainiere das Custom-NER-Modell mit spacy train config.cfg --paths.train train.spacy --paths.dev dev.spacy und evaluiere auf einem Testkorpus, der nicht Teil des Trainings war. Typische F1-Scores für domänenspezifisches NER in Versicherungstexten nach ausreichend Trainingsdaten: 75–90 %. Wenn der F1 deutlich darunter liegt, hilft mehr Trainingsdaten, klarere Annotation-Richtlinien oder ein Transformer-Modell als Basis.

Schritt 4: Operationalisiere die Pipeline. Modell-Versionierung mit MLflow oder Weasel (von Explosion AI), Containerisierung, Monitoring (Latenz, Throughput, Output-Verteilung als Drift-Indikator), automatisches Re-Training-Setup. Plan für die schwierigen Fälle: spacy-llm-Fallback an ein lokales oder Cloud-LLM, das die Edge Cases übernimmt.

Ein konkretes Beispiel

Ein Versicherungsunternehmen mit 50.000+ Schadensfällen jährlich trainiert ein Custom-spaCy-Modell auf 600 annotierten Schadensberichten. Das Modell erkennt Entitätstypen wie DRITTPARTEI (Werkstatt, Lieferant, Subunternehmer), HAFTUNGSINDIZ (Formulierungen wie “fehlerhaft montiert”, “entgegen den Anweisungen”, “ohne Genehmigung”) und VERKEHRSUNFALL_DRITTER (Hinweise auf unfallverursachende Dritte). In der Produktionspipeline analysiert das System täglich 300+ Schadensberichte und flaggt 12–18 % als mögliche Regressfälle zur manuellen Prüfung, statt bisher 3–5 % durch reine manuelle Sichtung. Das Modell läuft vollständig on-premise auf einem einzelnen GPU-Server, ergänzt um eine spacy-llm-Komponente, die ambivalente Fälle (Klassifikator-Konfidenz unter 70 %) an ein lokales Llama-3-Modell zur zweiten Einschätzung weitergibt. Wirtschaftlicher Effekt: Identifizierte Regressfälle entsprechend mehr eingenommenen Regressforderungen, bei 50.000 Fällen jährlich und konservativ 500 EUR durchschnittlicher Regressforderung pro zusätzlich erkanntem Fall ergibt das einen Wert im niedrigen siebenstelligen Bereich. Implementierungsaufwand: ca. 6 Monate mit einem dreiköpfigen Team (ML-Engineer, Data Engineer, Annotation-Spezialist). Laufende Kosten: GPU-Server (eigene Infrastruktur), Prodigy-Lizenzen, gelegentliche Cloud-LLM-API-Kosten für Fallback (im niedrigen vierstelligen EUR/Monat-Bereich).

DSGVO & Datenschutz

Datenhosting: Vollständig on-premise oder in eigener Cloud, spaCy ist eine Bibliothek, kein Service. Daten verlassen das System nicht.
Anbieter Explosion AI: Sitz in Berlin, deutsches GmbH-Recht, DSGVO-Geltungsbereich. Einer der wenigen NLP-Anbieter mit echtem EU-Bezug.
Lizenz: MIT-Lizenz, sehr permissiv, kommerzielle Nutzung erlaubt, keine Copyleft-Verpflichtungen, kein Vendor-Lock-in.
spaCy-Modelle: Die offiziellen Sprachmodelle sind ebenfalls Open Source (MIT) und lassen sich ohne Beschränkung nutzen.
spacy-llm Vorsicht: Wenn die LLM-Integration mit Cloud-Anbietern (OpenAI, Anthropic) genutzt wird, gelten deren Datenschutzbedingungen, die Daten verlassen dann das eigene System. Lokale LLMs (Llama, Mistral via llama.cpp) halten die Daten lokal.
Auftragsverarbeitung (AVV): Nicht erforderlich für die Bibliothek selbst (keine Datenverarbeitung durch Dritte). Bei Cloud-LLM-Nutzung über spacy-llm: AVV des LLM-Anbieters erforderlich.
Empfehlung für Unternehmen: spaCy ist datenschutzrechtlich eines der unkompliziertesten NLP-Werkzeuge überhaupt. Für DSGVO-sensible Branchen (Versicherung, Gesundheit, Recht, KRITIS, Behörden) erste Wahl. Bei hybriden spacy-llm-Pipelines mit Cloud-LLMs den Datenfluss bewusst gestalten, was geht ins lokale Modell, was ans Cloud-Modell?

Gut kombiniert mit

Hugging Face, die natürliche Komplementärbibliothek. Pretrained-Transformer (deutsche BERT-Varianten von deepset.ai, mGPT, Llama) liefern den Modell-Unterbau, spaCy orchestriert die Pipeline, definiert Custom-Komponenten und macht die Produktionalisierung.
LangChain, für agentische Workflows, die spaCy-NER mit LLM-Reasoning kombinieren. spaCy liefert deterministische Strukturextraktion, LangChain orchestriert mehrstufige LLM-Calls drumherum.
Claude (über AWS Bedrock in Frankfurt), als hybride LLM-Komponente in spacy-llm-Pipelines, wenn lokale Modelle nicht ausreichen und DSGVO-konformes EU-Hosting gewünscht ist.

Unser Testurteil

spaCy verdient 4 von 5 Sternen. Es ist die solideste Open-Source-NLP-Bibliothek für Produktionsumgebungen, schnell, gut dokumentiert, mit deutschen Sprachmodellen ab Werk, vollständig on-premise lauffähig und unter MIT-Lizenz nutzbar. Für DSGVO-sensible Branchen oft die einzige akzeptable Wahl zur Textautomatisierung. Den fünften Stern verliert es aus drei Gründen: Erstens Engineering-Pflicht, ohne Python-Team und Annotation-Disziplin geht nichts. Zweitens keine managed Cloud-Variante von Explosion AI, wer SaaS will, muss selbst hosten oder zu Hugging Face Inference Endpoints greifen. Drittens englisch dominierte Community, deutsche Tutorials und Stack-Overflow-Antworten sind knapp. Für die Zielgruppe (NLP-Teams, Data Engineering, ML-Plattformen in Unternehmen mit Python-Stack) ist spaCy weiterhin der pragmatische Industriestandard. Die spacy-llm-Erweiterung sorgt dafür, dass das Tool auch in der LLM-Ära relevant bleibt, als hybride Brücke zwischen klassischem NLP und generativen Modellen.

Was wir bemerkt haben

2023, Explosion AI hat spacy-llm als Erweiterung veröffentlicht: LLMs (OpenAI, Anthropic, lokale Modelle) können als Pipeline-Komponenten in spaCy eingebunden werden. Das war strategisch wichtig, ohne LLM-Brücke wäre spaCy in der GPT-Welt schnell als “alt” abgestempelt worden. Mit spacy-llm wird die Bibliothek zur Orchestrierungsschicht für hybride Pipelines.
2024, Die deutschen Transformer-Modelle (de_dep_news_trf) wurden mit neueren Transformer-Architekturen aktualisiert. Genauigkeit auf deutschen NER-Benchmarks ist auf Augenhöhe mit kommerziellen Cloud-APIs (Azure Text Analytics, Google Natural Language), bei vollständig lokaler Verarbeitung.
2025, Hugging Face und Explosion AI haben die Interoperabilität weiter ausgebaut. Hugging-Face-Modelle lassen sich nahezu ohne Reibung in spaCy-Pipelines einbinden, was die Modellauswahl massiv erweitert (deepset/gbert, Mistral, Llama 3, deutsche LLM-Varianten).
Juni 2026, Die Kernbibliothek bleibt unter MIT-Lizenz (33.700+ GitHub-Stars), kein Versuch von Explosion, in ein Open-Core- oder kommerzielles Lizenzmodell zu wechseln. In Zeiten, in denen viele Open-Source-Projekte den Schritt machen (Elastic, MongoDB, Redis), ist das bemerkenswert verlässlich.
Juni 2026, Faktenkorrektur: Die persönliche Prodigy-Lizenz kostet 390 USD als Lifetime-Lizenz, nicht 490 USD, wie zuvor auf dieser Seite stand. Auch das transformerbasierte deutsche Modell heißt korrekt de_dep_news_trf, ein de_core_news_trf gibt es nicht.
2025–2026, LLMs (insbesondere die Mid-Range-Modelle GPT-4o-mini und Claude Haiku) haben in vielen einfachen NER- und Klassifikationsfällen die Latte gesenkt: Für Ad-hoc-Analysen oder kleine Volumen ist ein LLM-Prompt oft schneller am Ziel als ein spaCy-Custom-Training. spaCy bleibt die richtige Wahl, wenn Volumen, Determinismus, Latenz oder Datenschutz im Vordergrund stehen, bei reinen Komfort-Use-Cases verliert es Marktanteil an LLMs.
2026, Prodigy bleibt das beste Annotation-Tool für spaCy-Workflows, aber die Konkurrenz wird ernster: Label Studio (kostenlos, breite Annotation-Modalitäten) und Argilla (zunehmend LLM-gestützt) sind Alternativen, die in vielen Teams Prodigy ersetzen, vor allem in Projekten, die ohnehin LLM-Annotation-as-a-Service nutzen.

Quellen

spaCy – Deutsche Sprachmodelle. https://spacy.io/models/de (abgerufen am 2026-06-14). Verfügbare deutsche Modelle: de_core_news_sm, de_core_news_md, de_core_news_lg (statistisch) sowie de_dep_news_trf (Transformer-basiert). Ein Modell de_core_news_trf existiert nicht..
Prodigy – Preise. https://prodi.gy/buy (abgerufen am 2026-06-14). Persönliche Prodigy-Lizenz 390 USD als Lifetime-Lizenz (zzgl. Steuer); Hersteller ist Explosion mit Sitz in Berlin..
spaCy – GitHub-Repository. https://github.com/explosion/spaCy (abgerufen am 2026-06-14). spaCy ist Open Source unter MIT-Lizenz, rund 33.700 GitHub-Stars, Kern teilweise in Cython geschrieben, LLM-Integration in spaCy-Pipelines unterstützt..

Diesen Inhalt teilen:

LinkedIn X / Twitter E-Mail WhatsApp

Empfohlen für diese Branchen

Automotive Bildung & Weiterbildung Versicherungen

Arthur Atlas

KI-Analyst

So entsteht diese Bewertung

Diese Seite bewerten wir redaktionell, mit kräftiger Unterstützung von Arthur Atlas, unserem KI-Analysten. Er prüft Bewertungen nach und markiert veraltete Angaben, sobald sich der Markt dreht. Unsere Angaben stammen überwiegend aus öffentlich zugänglichen Quellen wie Anbieter-Website, Doku und Preislisten. Preise und Funktionen können sich ändern.

Hinweis: Diese Angaben können veraltet oder fehlerhaft sein. Prüfe im Zweifel immer direkt auf der Website des Anbieters.

Preise geändert, Feature veraltet oder etwas fehlt?

Wir freuen uns über Hinweise und Ergänzungen.

Feedback geben

Du arbeitest bei Explosion AI?

Gib uns einen Testzugang, dann schauen wir tiefer rein und ergänzen die Bewertung aus erster Hand.

Testzugang anbieten

Nicht sicher, ob spaCy zu euch passt?

Wir helfen bei der Tool-Auswahl und begleiten die Einführung in euren Arbeitsalltag, unverbindlich und kostenlos im Erstgespräch.

Erstgespräch anfragen

KI-Tools und Trends

KI-Wochenbriefing: jeden Freitag KI-News, Praxistipps und Tools

Kostenlos abonnieren, jederzeit abmeldbar, kein Spam.

Newsletter abonnieren

Zurück zur Tool-Übersicht