Zum Inhalt springen
Bezahlt 🇪🇺 EU-Server Geprüft: Mai 2026

AWS Textract

Amazon Web Services

4/5
Tool öffnen

Cloud-API von Amazon Web Services für OCR und strukturierte Datenextraktion aus PDFs, Scans und Bildern. Liefert Text, Tabellen, Formulare, Unterschriften und Spezial-Parser für Rechnungen und Ausweise. In der EU-Region Frankfurt (eu-central-1) verfügbar, mit AWS-AVV und ISO/SOC-Zertifizierungen. Pay-per-page, keine Grundgebühr.

Kosten: Detect Document Text (OCR) 1,50 USD/1.000 Seiten, Tables/Queries 15 USD/1.000 Seiten, Forms 50 USD/1.000 Seiten, Analyze Expense (Rechnungen) 10 USD/1.000 Seiten, Analyze ID 25 USD/1.000 Seiten — Volumenrabatte ab 1 Mio. Seiten, 3 Monate AWS Free Tier

Stärken

  • Sehr hohe OCR-Qualität, auch bei schlechten Scans, Tabellen und Formularen
  • EU-Region Frankfurt (eu-central-1) inklusive AWS-AVV und C5-Testat verfügbar
  • Tabellen-Extraktion gehört zu den besten am Markt — strukturierte Zeilen/Spalten als JSON
  • Queries API erlaubt natürlichsprachige Fragen an Dokumente ohne eigenes Training
  • Integration in AWS-Ökosystem (S3, Lambda, Step Functions, Bedrock) ist nahtlos
  • Granulare Pay-per-Page-Abrechnung, keine Grundgebühr, 3 Monate Free Tier für neue Accounts

Einschränkungen

  • Keine deutsche Oberfläche, englischsprachige Doku und Support
  • Setup verlangt AWS-Account, IAM, Berechtigungen — nichts für Laien ohne Cloud-Erfahrung
  • Forms-API mit 50 USD/1.000 Seiten überraschend teuer — schnell vierstellig bei Volumen
  • Analyze ID ist auf US-Pässe und US-Führerscheine optimiert, deutsche Ausweise teils unzuverlässig
  • Kein End-to-End-Workflow (Genehmigungen, Buchung) — nur Extraktion, Rest selbst bauen
  • Custom-Modelle für eigene Dokumenttypen sind nur über AWS Custom Queries oder externes Comprehend-Setup möglich

Passt gut zu

AWS-zentrierte Unternehmen mit eigener IT und Cloud-Erfahrung Hochvolumige Verarbeitung von Rechnungen, Verträgen, Formularen (1.000+ Seiten/Tag) KYC- und Onboarding-Prozesse mit Ausweis- und Dokumentenerkennung RAG-Pipelines und Bedrock-Agenten, die Dokumenttext strukturiert benötigen

Kurzfazit

AWS Textract ist die OCR- und Dokumenten-API von Amazon Web Services — technisch ausgereift, in EU-Region Frankfurt verfügbar und mit dem kompletten AWS-Compliance-Stack (C5, ISO 27001, SOC 2) ausgestattet. Stärken: hervorragende Tabellen- und Formularerkennung, Queries API für natürlichsprachige Abfragen, nahtlose Integration in S3, Lambda und Bedrock. Schwächen: Du brauchst Entwickler, der reine Forms-Parser ist mit 50 USD/1.000 Seiten teuer, und die deutschen Ausweise erkennt der Analyze-ID-Parser nur eingeschränkt. Für AWS-Kunden mit echten Volumen-Use-Cases ist Textract eine der besten Optionen am Markt — für Teams ohne Cloud-Know-how oder mit DATEV-nahem Anspruch sind Rossum oder Klippa die bessere Wahl.

Für wen ist AWS Textract?

IT-Teams in AWS-zentrierten Unternehmen: Wenn dein Backend bereits in AWS lebt (S3 für Eingangsdokumente, Lambda für Verarbeitung, DynamoDB oder RDS für Daten), passt Textract direkt in deine Pipeline. SDKs in Python (boto3), Node, Java, .NET sind ausgereift, Beispielcode reichlich.

Buchhaltungs- und Finanzautomatisierung: Die Analyze-Expense-API extrahiert aus Rechnungen und Quittungen direkt strukturierte Felder (Lieferant, USt-ID, Netto/Brutto, Positionen) — ideal für Eingangsrechnungs-Workflows mit Volumen ab 500 Belegen pro Monat.

KYC und Compliance-Teams: Der Analyze-ID-Parser unterstützt grundsätzlich auch deutsche Personalausweise und Reisepässe — wenn auch nicht so präzise wie für US-Dokumente. In Kombination mit eigener Risiko-Logik entsteht ein automatisierter Identitäts-Check.

Teams, die RAG-Pipelines und Bedrock-Agenten bauen: Textract liefert sauberen, strukturierten Text aus PDFs als Vorstufe für Vektorsuche und Foundation-Models. Wer mit Amazon Bedrock arbeitet, hat hier die natürliche Pre-Processing-Schicht.

Weniger geeignet für: Einzelnutzer und kleine Volumina unter 100 Seiten/Monat (Setup-Aufwand lohnt sich nicht), Teams ohne Cloud-Entwickler (keine No-Code-Oberfläche), DATEV-zentrierte Buchhaltungs-Workflows mit Genehmigungen und Freigaben (dafür sind Rossum oder Klippa besser), und Unternehmen, die AWS aus strategischen Gründen meiden.

Preise im Detail

AWS Textract rechnet pro verarbeiteter Seite ab, abhängig von der API. Keine Grundgebühr, kein Mindestumsatz — aber auch kein dauerhaft kostenloser Plan. Neue AWS-Accounts erhalten 3 Monate Free Tier (1.000 OCR-Seiten/Monat, 100 Seiten/Monat für Forms/Tables/Queries/Expense/ID).

APIPreis (bis 1 Mio. Seiten/Monat)Preis (> 1 Mio.)
Detect Document Text (OCR)1,50 USD / 1.000 Seiten0,60 USD / 1.000 Seiten
Analyze Document — Forms50,00 USD / 1.000 Seiten40,00 USD / 1.000 Seiten
Analyze Document — Tables15,00 USD / 1.000 Seiten10,00 USD / 1.000 Seiten
Analyze Document — Queries15,00 USD / 1.000 Seiten12,00 USD / 1.000 Seiten
Analyze Document — Signatures3,50 USD / 1.000 Seiten1,40 USD / 1.000 Seiten
Analyze Expense (Rechnungen)10,00 USD / 1.000 Seiten8,00 USD / 1.000 Seiten
Analyze ID (Pass/Ausweis)25,00 USD / 1.000 Seiten10,00 USD ab 100K

Einordnung: Reine Texterkennung ist mit 1,50 USD/1.000 Seiten genauso günstig wie bei Google Document AI und damit Marktstandard. Wer nur OCR braucht, fährt sehr preiswert. Heikel wird es bei der Forms-API: 50 USD/1.000 Seiten ist deutlich teurer als bei Google Document AI (30 USD) oder Azure Document Intelligence — wer monatlich zehntausende Formulare verarbeitet, landet schnell bei vierstelligen Rechnungen. Beispielrechnung: 5.000 Eingangsrechnungen/Monat über die Analyze-Expense-API kosten ca. 50 USD — für die Zeitersparnis ein klares Schnäppchen, aber spätestens ab 50.000 Seiten/Monat sollte man Volumenpreise und Architekturentscheidungen rechnen. Fehlgeschlagene API-Calls (4xx/5xx) werden nicht berechnet. EU-Region Frankfurt verlangt teils geringfügig höhere Preise als US-East — Faustregel: 5 bis 10 % Aufschlag, immer aktuell auf der AWS-Pricing-Seite prüfen.

Stärken im Detail

Tabellenerkennung gehört zur Weltspitze. Was AWS Textract von vielen klassischen OCR-Diensten unterscheidet: Die Tables-API liefert nicht nur Text, sondern erkennt die Struktur — Zeilen, Spalten, zusammengehörige Zellen, mehrzeilige Header. Für Verträge mit Preistabellen, Bilanzen, technische Spezifikationen oder Frachtbriefe ist das ein erheblicher Qualitätsvorteil gegenüber regelbasierten OCR-Lösungen. Ergebnisse kommen als strukturiertes JSON, direkt verwertbar.

Queries API als pragmatischer Zwischenschritt. Statt ein Custom-Modell zu trainieren oder regelbasiert zu parsen, kannst du dem Dokument einfach Fragen stellen: “Was ist die Vertragslaufzeit?”, “Wer ist der Vertragspartner?”, “Gibt es eine Kündigungsklausel?”. Textract antwortet mit Position und Textauszug. Für viele Vertragsanalysen reicht das, ohne dass du ein eigenes Modell aufbauen musst.

EU-Region Frankfurt (eu-central-1) und vollwertiger AWS-Compliance-Stack. Textract läuft in der EU mit allen AWS-Compliance-Bausteinen: BSI C5-Testat, ISO 27001, ISO 27018, SOC 1/2/3, HIPAA, PCI DSS. Das DPA (Data Processing Addendum) ist standardmäßig im AWS-Kundenvertrag enthalten. Für regulierte Branchen (Banken, Versicherungen, Gesundheitswesen) deutlich einfacher zu argumentieren als kleinere SaaS-Anbieter. Eingaben werden nicht zum Training fremder Modelle verwendet.

Nahtlose Integration ins AWS-Ökosystem. Textract ist nicht nur eine isolierte API. Du kannst Dokumente aus S3 direkt verarbeiten lassen, asynchrone Jobs mit SNS-Notifications koppeln, Ergebnisse in DynamoDB ablegen, mit Lambda triggern oder mit Step Functions orchestrieren. In Kombination mit Bedrock entsteht eine vollwertige Dokumenten-KI-Pipeline ohne Verlassen des AWS-Stacks. Für Unternehmen, die bereits in AWS sind, ist das ein erheblicher Architekturvorteil.

Pay-per-Page ohne Grundgebühr. Du zahlst nur, was du verarbeitest. Keine monatlichen Lizenzkosten, keine Mindestabnahme, keine Setup-Gebühr. Gerade in der Pilotphase oder bei stark schwankenden Volumina ist das ein klarer Pluspunkt gegenüber Tools wie ABBYY FlexiCapture, die mit Lizenzmodellen oder Mindestumsätzen arbeiten.

Asynchrone Verarbeitung großer Dokumente. Mehrseitige PDFs (über 1 Seite bei Forms/Tables, über 11 Seiten bei OCR) werden über asynchrone APIs verarbeitet — keine Timeouts, keine Größenlimits in der Praxis. Das macht Textract auch für Großmengen von Akten oder Bilanzberichten geeignet.

Schwächen ehrlich betrachtet

Kein No-Code, ohne Entwickler geht nichts. Textract ist eine API. Es gibt keine Drag-and-drop-Oberfläche, keinen fertigen Workflow, keine Browser-App für Endnutzer. Du brauchst einen AWS-Account, IAM-Rollen, jemanden, der boto3 oder vergleichbares schreibt, und eine Architektur drumherum. Wer eine fertige Lösung will, schaut bei Klippa, Nanonets oder Rossum.

Forms-API mit 50 USD/1.000 Seiten ist teuer. Das ist deutlich mehr als bei Google Document AI (30 USD) oder Azure Document Intelligence (25 USD). Für Anwendungsfälle, in denen man Felder auf Formularen extrahieren will, ist Textract nicht der Preisführer. Wer hohes Volumen hat, sollte zumindest prüfen, ob Tables + Queries (15 USD) den gleichen Zweck erfüllen.

Analyze-ID ist US-zentriert. Die ID-API ist primär auf US-Pässe, US-Führerscheine und Green Cards trainiert. Für deutsche Personalausweise, Reisepässe und EU-Führerscheine funktioniert die OCR grundsätzlich, aber die Feldzuordnung (Vorname, Geburtsdatum, MRZ) ist weniger zuverlässig. Bei kritischen KYC-Workflows lohnt sich der Vergleich mit spezialisierten Anbietern wie Onfido, IDnow oder Veriff.

Keine deutschsprachige Doku oder Support. Die AWS-Dokumentation ist konsequent englisch, der Standard-Support spricht englisch. Für deutsche Mittelständler ohne englischsprachigen IT-Lead kann das eine echte Hürde sein. Premium-Support mit deutschsprachiger Eskalationsstufe gibt es, kostet aber extra.

Keine fertigen Branchen-Workflows. Textract liefert Daten, mehr nicht. Genehmigungsprozesse, Buchung in DATEV, ERP-Mapping, Audit-Trail — alles Eigenbau. Wer einen End-to-End-Rechnungsworkflow will, braucht entweder massive Eigenentwicklung oder Tools wie Rossum, Klippa oder Hypatos, die genau diese Lücke schließen.

Kostenfallen ohne Monitoring. Die Pay-per-Page-Abrechnung ist transparent, aber wenn ein Bug einen Endlosloop produziert oder ein neuer Use-Case unterschätzt wird, kann eine Monatsrechnung schnell vierstellig werden. AWS Budget Alerts und CloudWatch-Metriken sind Pflicht ab Tag 1.

Alternativen im Vergleich

Wenn du……nimm stattdessen
Bereits in Google Cloud lebst und EU-Region brauchstGoogle Document AI
Eine On-Premise-fähige Enterprise-OCR mit deutscher Tradition willstABBYY FlexiCapture
Du Textract-Ergebnisse direkt in eigene ML-Modelle füttern willstAmazon SageMaker

Erwähnenswert ohne aktuell verlinkbare Tool-Seite: Azure Document Intelligence (Microsoft, sehr starke Layout- und Prebuilt-Modelle, EU-Hosting in West Europe), Rossum (KI-OCR mit fertigem Rechnungs-Workflow, AVV und EU-Hosting), Klippa (DATEV-nahe Beleg-Automatisierung mit deutscher UI), Nanonets (No-Code-OCR mit visueller Modellschulung) und Hypatos (deutscher Anbieter für AP-Automation mit ERP-Anbindung).

AWS Textract gewinnt, wenn: Du bereits in AWS lebst, eigene Entwickler hast, hohe Volumen verarbeitest und maximale Architektur-Kontrolle willst. Alternativen gewinnen, wenn: Du einen fertigen Workflow statt einer API brauchst, kein AWS willst oder dein Team keine Cloud-Entwickler hat.

So steigst du ein

Schritt 1: AWS-Account vorbereiten und Region setzen. Lege einen AWS-Account an (oder nutze einen bestehenden), aktiviere die Region eu-central-1 (Frankfurt) und richte einen IAM-User mit den nötigen Textract-Berechtigungen ein. Aktiviere AWS Budgets mit einem ersten Limit (z.B. Warnung bei 50 USD, harter Stop bei 200 USD), damit ein versehentlicher Lasttest dich nicht überrascht.

Schritt 2: Im AWS-Konsolen-Playground testen. Die Textract-Konsole erlaubt Drag-and-drop von PDFs und zeigt direkt Ergebnisse für OCR, Forms, Tables, Queries und Expense. Lade fünf bis zehn echte Dokumente aus deinem Anwendungsfall hoch und prüfe, welche API für dich liefert. Erst danach lohnt sich eigene Code-Arbeit.

Schritt 3: Integration mit boto3 oder SDK bauen. Ein minimaler Python-Aufruf für synchrones OCR ist 15 Zeilen Code. Für Produktivbetrieb plane mehr ein: asynchrone Jobs für mehrseitige PDFs, S3-Trigger via Lambda, Fehlerbehandlung, Mapping auf dein Datenmodell, Monitoring. Realistisch sind 3 bis 7 Personentage für eine produktionsreife Pipeline. Bewährt: Step Functions als Orchestrator, S3 als Eingang, DynamoDB für Status, Lambda für Postprocessing.

Ein konkretes Beispiel

Eine Spedition aus Hamburg mit 80 Mitarbeitern verarbeitet monatlich rund 6.000 Frachtdokumente — Lieferscheine, CMR-Frachtbriefe, Zollpapiere, viele davon als gescannte PDFs in unterschiedlicher Qualität. Früher: drei Disponenten verbringen täglich rund eineinhalb Stunden mit manueller Datenerfassung in das Speditions-TMS. Heute: Eingehende Mails landen automatisch in einem S3-Bucket, ein Lambda-Trigger ruft Textract auf (OCR + Tables für Positionsdaten + Queries für Frachtnummer und Empfänger, Region Frankfurt), die Ergebnisse fließen direkt ins TMS. Kosten: ca. 130 USD/Monat für Textract bei diesem Volumen. Die Disponenten prüfen nur noch unsichere Felder (Konfidenz unter 90 %) und kümmern sich um Rückfragen — aus eineinhalb Stunden Tippen werden zwanzig Minuten Qualitätskontrolle, der Rest fließt in Kundenservice und Disposition. Setup-Aufwand: ein Cloud-Entwickler, 6 Tage inklusive Tests.

DSGVO & Datenschutz

  • Datenhosting: EU-Region Frankfurt (eu-central-1) verfügbar. Für deutsche Nutzer dringend empfohlen, alle Textract-Calls explizit gegen diese Region zu fahren.
  • Auftragsverarbeitung: AWS stellt das AWS Data Processing Addendum (DPA) standardmäßig im Kundenvertrag bereit, das DSGVO, UK GDPR und Schweizer FADP abdeckt. Textract ist als HIPAA-eligibler und in-scope-Service für ISO 27001, SOC 2, PCI DSS und C5 gelistet.
  • Datennutzung: AWS verwendet Textract-Eingaben nicht zum Training eigener Modelle. Per AI Service Opt-Out kannst du zusätzlich verbieten, dass Daten zur Verbesserung von AWS-AI-Diensten verwendet werden — für DSGVO-konforme Setups standard zu setzen.
  • Zertifizierungen: ISO 27001, ISO 27017, ISO 27018, SOC 1/2/3, HIPAA, PCI DSS, BSI C5 (Deutschland) — der gleiche Stack wie der Rest von AWS.
  • Zugriffskontrolle: IAM-Rollen pro Service-Account, VPC Endpoints für privates Netzwerk-Routing, CloudTrail für Audit-Logs, KMS für Verschlüsselung der gespeicherten Eingangsdokumente.
  • Aufbewahrung: Textract speichert Eingaben standardmäßig nicht dauerhaft — nur bei asynchronen Jobs für die Dauer der Verarbeitung. Was du in S3 oder DynamoDB ablegst, liegt unter deiner Kontrolle und Aufbewahrungsfrist.
  • Empfehlung für Unternehmen: AWS-DPA als gegeben annehmen, Region eu-central-1 verbindlich setzen, AI Service Opt-Out aktivieren, S3-Eingangsbuckets verschlüsseln (KMS) und mit Lifecycle-Policy nach maximal 30 Tagen löschen. Bei besonders schutzbedürftigen Daten (Patientenakten, Mandantendokumente) vorab eine DSFA erstellen und VPC Endpoints nutzen.

Gut kombiniert mit

  • n8n — als Workflow-Klammer ohne Eigenentwicklung: E-Mail oder Upload empfangen, an Textract schicken, extrahierte Felder an ERP, CRM oder DATEV weiterleiten. Für Self-Hosted-Setups die solide Wahl, gerade wenn du AWS-Pipelines mit On-Premises-Systemen verbinden willst.
  • Make.com — Cloud-Variante für No-Code-Workflows: Visueller Aufbau von Eingangs-Trigger, Textract-Aufruf und Folge-Aktionen (Google Sheets, Slack-Benachrichtigung, DATEV-Import). Ideal, wenn das Team keine eigenen AWS-Entwickler hat, aber Workflows orchestrieren will.
  • Claude — für die Nachverarbeitung: Textract liefert strukturierte Felder und Rohtext, Claude (über AWS Bedrock in Frankfurt) interpretiert den Gesamtkontext, klassifiziert Auffälligkeiten oder erstellt Zusammenfassungen langer Verträge. Beide kombiniert decken Extraktion + Verständnis ab — und beide laufen sauber in der EU-Region.

Unser Testurteil

AWS Textract verdient 4 von 5 Sternen. Die technische Qualität gehört zur Weltspitze, EU-Hosting in Frankfurt mit kompletter AWS-Compliance ist ein klares Plus, und die Tabellen- und Queries-APIs sind in ihrer Klasse herausragend. Den fünften Stern verliert das Tool an drei Stellen: Es braucht zwingend Entwickler (keine No-Code-Option), die Forms-API ist mit 50 USD/1.000 Seiten teurer als bei der direkten Konkurrenz, und der Analyze-ID-Parser ist auf US-Dokumente optimiert. Für AWS-zentrierte Unternehmen mit IT-Team und klaren Volumen-Use-Cases ist Textract eine erste Wahl — für alle anderen lohnt der Blick auf Google Document AI (preiswertere Forms), Rossum (fertiger Rechnungs-Workflow) oder Klippa (deutsche UI und DATEV-Anbindung).

Was wir bemerkt haben

  • Mai 2026 — EU-Region Frankfurt (eu-central-1) ist seit längerem stabil verfügbar, die Preise weichen je nach API um 5 bis 10 % vom US-East-Standardpreis ab. Wer auf Quellen kalkuliert, die nur die US-Preise zitieren, verschätzt sich leicht — immer die regionale Pricing-Seite prüfen.
  • 2024 — Einführung der Layout-Funktion in der Detect-Document-Text-API. Statt nur Rohtext liefert Textract jetzt zusätzlich Layout-Informationen (Überschriften, Absätze, Listen, Tabellen-Bereiche) — ohne Aufpreis. Für RAG-Pipelines und Bedrock-Agenten ist das ein relevanter Qualitätsschub gegenüber älterer reiner OCR.
  • 2024 — Die Custom Queries-Funktion erlaubt es, eigene Queries-Modelle gezielt für eigene Dokumenttypen zu trainieren — mit deutlich weniger Trainingsdaten als ein klassischer Comprehend-Custom-Classifier. Senkt die Hürde für eigene Vertrags- oder Formulartypen.
  • Anhaltend — Viele ältere Vergleichsartikel zitieren noch Forms-Preise von 65 USD/1.000 Seiten oder Tables zu 65 USD. Aktuell (Mai 2026) liegen Forms bei 50 USD und Tables bei 15 USD — wer auf veralteten Daten kalkuliert, plant deutlich zu hoch oder zu niedrig.
  • Anhaltend — Der Analyze-ID-Parser bleibt klar US-zentriert. Trotz mehrfacher Updates ist die Genauigkeit bei deutschen Personalausweisen und EU-Reisepässen spürbar geringer als bei US-Pässen. Für ernsthafte deutsche KYC-Workflows weiterhin spezialisierte Anbieter zusätzlich evaluieren.

Diesen Inhalt teilen:

Redaktionell bewertet · Preise und Funktionen können sich ändern.

Stimmt etwas nicht?

Preise geändert, Feature veraltet oder etwas fehlt? Wir freuen uns über Hinweise und Ergänzungen.

Feedback geben

Nicht sicher, ob AWS Textract zu euch passt?

Wir helfen bei der Tool-Auswahl und begleiten die Einführung in euren Arbeitsalltag — unverbindlich und kostenlos im Erstgespräch.

Erstgespräch anfragen
Kostenloser Newsletter

Bleib auf dem neuesten
Stand der KI

Wähle deine Themen und erhalte relevante KI-News, Praxistipps und exklusive Inhalte direkt in dein Postfach – kein Spam, jederzeit abmeldbar.

Was interessiert dich? Wähle 1–3 Themen — du bekommst nur Inhalte dazu.

Mit der Anmeldung stimmst du unserer Datenschutzerklärung zu. Jederzeit abmeldbar.

Kostenlos
Kein Spam
Jederzeit abmeldbar