OpenAI Moderation API
OpenAI
OpenAIs Moderation API klassifiziert Text (und seit Modell omni-moderation auch Bilder) automatisch nach Sicherheitskategorien — Hate, Harassment, Self-Harm, Sexual, Violence — und gibt pro Kategorie einen Score (0–1) sowie ein binäres Flagging zurück. Kostenlos für alle OpenAI-API-Nutzer, auch für deutschsprachigen Text geeignet, aber mit deutlich höherer False-Positive-Rate als auf Englisch. Recall auf deutschem Hate Speech laut Studie (arxiv 2501.01256) ca. 70 % — besser als Perspective API, aber Precision nur ca. 38 %.
Kosten: Kostenlos für alle OpenAI-API-Nutzer — keine separate Abrechnung, kein eigenes Kontingent. Ein OpenAI-API-Account (mit hinterlegter Zahlungsmethode) ist Voraussetzung.
Stärken
- Kostenlos für alle OpenAI-API-Nutzer, keine zusätzliche Lizenzierung
- Recall ca. 70 % auf deutschem Hate Speech — besser als Perspective API
- Granulare Kategorien: Hate, Harassment, Self-Harm, Sexual, Violence (mit Unterkategorien)
- Kein separates Training oder Setup nötig — sofort einsetzbar
- Multimodal: omni-moderation-latest unterstützt Text und Bilder in einem API-Aufruf
- Niedrige Latenz (typisch unter 500 ms) — geeignet für Echtzeit-Filterung
Einschränkungen
- Daten werden in den USA verarbeitet — kein EU-Hosting für DSGVO-kritische Anwendungen
- Precision nur ca. 38 % auf deutschem Text — hohe Fehlalarmrate, manuelle Nachprüfung Pflicht
- Kein Fine-Tuning auf eigene Moderationsrichtlinien möglich
- Kategorien auf englische Sprach- und Kulturkonventionen ausgelegt — deutscher Humor/Ironie wird oft falsch klassifiziert
- Standardvertrag ohne EU-AVV — Enterprise-Vertrag für DSGVO-Konformität nötig
- Keine Erklärbarkeit (XAI) — Score ohne Begründung, schwer zu auditieren
Passt gut zu
Wann ja, wann nein
Wann ja
- Du brauchst eine schnelle, kostenlose Erstfilterung für nutzergenerierte Inhalte
- Du nutzt ohnehin schon die OpenAI-API für andere Zwecke
- Du willst Text und Bilder in einem Aufruf moderieren (omni-moderation)
- Eine Moderationsqueue mit menschlicher Nachprüfung ist Teil deines Workflows
Wann nein
- Du verarbeitest sensitive personenbezogene Daten und brauchst EU-Hosting
- Du brauchst hohe Precision (wenig False Positives) ohne menschliche Nachprüfung
- Du willst auf branchen- oder communityspezifische Regeln trainieren
- Du brauchst dokumentierte Erklärbarkeit für jeden Moderationsentscheid
Kurzfazit
Die OpenAI Moderation API ist die kostenlose, einsteigerfreundlichste Option für automatisierte Inhaltsmoderation — wenn man die Schwächen kennt. Sie klassifiziert Text (und seit dem Modell omni-moderation-latest aus Oktober 2024 auch Bilder) in fünf Hauptkategorien plus Unterkategorien und liefert pro Kategorie einen Score zwischen 0 und 1. Stärke: Recall auf deutschem Hate Speech bei rund 70 % — deutlich besser als die Perspective API von Google Jigsaw. Schwäche: Precision nur etwa 38 %, also rund zwei Drittel False Positives. Praktisch heißt das: Die API kann als Vorfilter dienen, ersetzt aber keine menschliche Nachprüfung. Und sie läuft auf US-Servern, was sie für DSGVO-kritische Use-Cases ohne Enterprise-Vertrag problematisch macht.
Für wen ist die Moderation API?
Entwicklerteams in Foren, Community-Plattformen, Kommentarsystemen: Schnell integriert, kostenlos, ergibt unmittelbar einen Filter-Effekt. Erste Stufe vor der manuellen Moderation. Wer keine eigene Klassifikation hat, kommt damit am schnellsten zu einer technischen Basisfunktion.
Startups mit OpenAI-Stack: Wer ohnehin GPT-4o, Whisper oder andere OpenAI-Modelle einsetzt, hat die Moderation API gratis dabei — keine Vertragserweiterung, keine Setup-Kosten. Ein Pragmatismus-Argument.
Sicherheitsverantwortliche (Trust & Safety): Als zweite Meinung neben redaktioneller Prüfung wertvoll. Wenn der Score in mehreren Kategorien hoch ist, sollte der Mensch zuerst draufschauen — das spart Zeit gegenüber Volldurchsicht.
Bildungs- und Forschungsprojekte: Wer Datensätze auf problematische Inhalte vorfiltern will (etwa beim Korpusaufbau für ML-Training), bekommt mit der API eine günstige automatische Erstklassifikation.
Weniger geeignet für: Plattformen mit hohem deutschem Nutzeranteil und strenger DSGVO-Pflicht (deutsche Nachrichtenportale, Behördenforen, Gesundheits-Communities), für die eine 38-%-Precision schlicht nicht ausreichend und das US-Hosting ein hartes K.O.-Kriterium ist. Diese Anwender brauchen entweder einen Enterprise-OpenAI-Vertrag oder Alternativen wie moderationapi.com.
Preise im Detail
| Modell | Preis | Was du bekommst |
|---|---|---|
| omni-moderation-latest | 0 USD | Multimodal (Text + Bild), 5 Hauptkategorien mit Unterkategorien, empfohlenes Standardmodell |
| omni-moderation-2024-09-26 | 0 USD | Festgepinnte Version desselben Modells, für reproduzierbare Produktionsumgebungen |
| text-moderation-latest | 0 USD | Nur Text, Vorgängermodell — wird mittelfristig abgelöst |
| text-moderation-stable | 0 USD | Festgepinnte Vorgängerversion |
Einordnung: Die Moderation API ist seit ihrer Einführung 2022 vollständig kostenlos — auch für hohe Volumina. OpenAI begründet das mit dem öffentlichen Nutzen für sichere Inhalte im Netz. Praktisch heißt das: Du brauchst lediglich einen aktiven OpenAI-API-Account (mit hinterlegter Zahlungsmethode für andere API-Aufrufe), die Moderation selbst kostet nichts. Wer skeptisch ist, sollte allerdings beachten, dass „kostenlos” bei OpenAI in der Vergangenheit nicht immer dauerhaft bedeutet hat (Free-Tier-Kürzungen, Modellabschaltungen). Eine Preisliste-Änderung in Zukunft ist nicht ausgeschlossen, auch wenn aktuell nichts darauf hindeutet.
Stärken im Detail
Kostenlos und produktionsbereit. Anders als viele kostenpflichtige Moderationsdienste (Perspective hat ein Quotensystem, ModerationAPI kostet pro Monat) ist OpenAIs Angebot dauerhaft kostenfrei. Selbst Volumenanwender mit Millionen Inhalten pro Monat zahlen nichts.
Recall auf Deutsch deutlich besser als Wettbewerber. Eine Studie aus Anfang 2025 (arxiv 2501.01256) hat OpenAIs Modell auf deutschem Hate Speech mit etwa 70 % Recall gemessen — gegenüber rund 50 % bei der Google Perspective API. Wer also möglichst viele problematische Inhalte erkennen will, fährt mit OpenAI besser. Auf Kosten der Precision.
Multimodale Moderation in einem Aufruf. Seit omni-moderation-latest (Oktober 2024) lassen sich Text und Bilder in einem API-Call gemeinsam moderieren. Das ist für Plattformen mit gemischten Inhalten (Forum mit Bild-Upload, Marketplace mit Produktfotos) ein echter Workflow-Vorteil — vorher waren dafür zwei verschiedene APIs nötig.
Granulare Kategorien. Die fünf Hauptkategorien (Hate, Harassment, Self-Harm, Sexual, Violence) haben Unterkategorien wie hate/threatening, self-harm/intent, sexual/minors. Das erlaubt feingranulare Regeln: Score in sexual/minors > 0.1 → sofortiger Block; Score in harassment > 0.5 → Moderationsqueue.
Niedrige Latenz. API-Antworten kommen typisch in unter 500 ms zurück — schnell genug für Echtzeit-Filterung im Submit-Flow eines Kommentarsystems, ohne dass der Nutzer eine merkliche Wartezeit erlebt.
Niedrige Setup-Hürde. Ein HTTP-POST-Request mit dem Text als JSON-Payload reicht. Kein Modelltraining, keine Konfigurationsdatei, kein Hyperparameter-Tuning. Für Teams ohne ML-Expertise ist das ein realer Zeitgewinn.
Schwächen ehrlich betrachtet
Hohe False-Positive-Rate auf Deutsch. Die Precision von rund 38 % bedeutet: Bei zehn als problematisch geflaggten Kommentaren sind realistisch nur drei bis vier tatsächlich problematisch. Eine reine Auto-Block-Strategie würde damit massenhaft legitime Inhalte sperren. Du brauchst zwingend eine Moderationsqueue mit menschlicher Nachprüfung.
Englische Trainingsbias. Das Modell ist primär auf englischen Daten trainiert. Deutscher Humor, regionale Redewendungen, Ironie und Sarkasmus werden oft falsch klassifiziert — was harmlos ist, kann als bedrohlich gelabelt werden (und umgekehrt). Wer mit feinen sprachlichen Nuancen arbeitet (Satire-Plattform, Comedy-Community), wird die API als unbrauchbar empfinden.
US-Hosting ohne EU-Option im Standard. Alle Anfragen gehen über OpenAIs US-Infrastruktur. Für DSGVO-kritische Anwendungen mit personenbezogenen Inhalten (Nutzerkommentare zu Mandanten, Gesundheitsthemen, Behörden) ist das ohne Enterprise-Vertrag nicht zulässig. Auch der Standard-AVV von OpenAI deckt keine EU-Datenresidenz ab.
Keine Erklärbarkeit. Du bekommst einen Score, aber keine Begründung. Bei juristisch heiklen Fällen (Sperrung eines Nutzerkontos, Sanktionsmaßnahme) musst du die Entscheidung selbst dokumentieren — die API liefert keine Audit-Trail-Daten dafür.
Kein Fine-Tuning. Die Kategorien sind fest. Wer branchenspezifische Probleme hat (medizinische Fachsprache wird als “self-harm” geflaggt, juristische Diskussion über Straftaten wird als “violence” markiert), kann das Modell nicht anpassen. Workaround: eigene Schwellenwerte pro Kategorie und Kontext, was den Pflegeaufwand erhöht.
Versionsabhängige Verhaltensänderung. OpenAI aktualisiert die Modelle regelmäßig — omni-moderation-latest ist heute anders als gestern. Wer reproduzierbare Ergebnisse braucht (z. B. für Audits), muss explizit auf eine festgepinnte Version (omni-moderation-2024-09-26) gehen, bezahlt dafür mit dem Verzicht auf neue Verbesserungen.
Stark vereinfachte Antwortstruktur. Es gibt nur flagged: true/false plus Scores. Wer komplexere Strukturen braucht (etwa empfohlene Aktion, Severity-Level, Confidence-Intervall), muss diese selbst auf Basis der Scores ableiten.
Alternativen im Vergleich
| Wenn du… | …nimm stattdessen |
|---|---|
| Wenig Code schreiben und sofort Dashboard willst | moderationapi.com |
| Google-Stack nutzt und Multi-Language-Moderation brauchst | Perspective API |
| Bildmoderation als Hauptanwendung hast | Sightengine, Hive Moderation, Amazon Rekognition Content Moderation |
| Vollständig in der EU hosten musst | moderationapi.com (Setup über EU-Region), eigene Klassifizierer mit DeepL/Aleph Alpha |
Erwähnenswert ohne eigene Tool-Seite: Hive Moderation (US-Spezialist mit starker Bild- und Audiomoderation), Sightengine (französische Lösung mit guter EU-Compliance), Microsoft Azure Content Safety (Enterprise-Stack mit Azure-Integration und EU-Hosting), WebPurify (klassisches Pre-LLM-Filter-Tool). OpenAIs API ist die kostenlose Vorstufe — kommerzielle Lösungen kommen ins Spiel, wenn EU-Hosting, höhere Precision oder Fine-Tuning Pflicht werden.
So steigst du ein
Schritt 1: Lege auf platform.openai.com einen API-Account an und erstelle einen API-Key. Die Moderation API ist automatisch verfügbar — keine separate Freischaltung. Hinterlege eine Zahlungsmethode (auch wenn die Moderation API kostenlos ist, ist sie nur für aktive API-Accounts zugänglich).
Schritt 2: Sende einen HTTP-POST-Request an https://api.openai.com/v1/moderations mit dem Text als Input und omni-moderation-latest als Modell. Beispiel-Payload:
{
"model": "omni-moderation-latest",
"input": "Der zu prüfende Text"
}
Die Antwort enthält flagged: true/false plus einen Scores-Block für jede Kategorie. Für multimodale Inhalte (Bilder) wird input als Liste von Objekten mit type: "image_url" übergeben.
Schritt 3: Implementiere die Entscheidungslogik. Wichtig: Nicht nur auf flagged verlassen. Sinnvoll ist eine Schwellenwert-Logik pro Kategorie, z. B.:
sexual/minors> 0.05 → sofortiger Block, keine Veröffentlichunghate> 0.7 oderviolence> 0.7 → automatische Ablehnung, Audit-Logharassment> 0.4 → Moderationsqueue für manuelle Prüfung- Sonst: veröffentlichen
Schritt 4: Baue die Moderationsqueue mit menschlicher Nachprüfung. Wegen der hohen False-Positive-Rate auf Deutsch ist sie zwingend. Plane mindestens eine teilzeitliche Moderationsperson ein, die Flag-Entscheidungen prüft und Lerndaten für eigene Schwellen-Anpassungen sammelt.
Ein konkretes Beispiel
Ein deutsches Online-Nachrichtenportal mit ca. 1.500 Kommentaren täglich nutzt die OpenAI Moderation API als erste Filterstufe. Workflow: Jeder eingereichte Kommentar geht erst durch die API. Bei flagged: true oder einem Score > 0.4 in einer der Hauptkategorien landet er in einer Moderationsqueue. Eine Online-Redakteurin prüft die Queue zwei Mal täglich (morgens und nachmittags) — typisch ca. 400 Kommentare in der Queue, von denen nach manueller Prüfung etwa 100–150 tatsächlich abgelehnt werden (problematisch), der Rest wird freigeschaltet. Redaktionsaufwand sank von 4 Stunden täglich (vollständige Volldurchsicht) auf rund 1,5 Stunden — eine echte Entlastung, obwohl die hohe False-Positive-Rate der API täglich für ärgerliche Wartezeiten bei legitimen Kommentaren sorgt. API-Kosten: 0 €. Voraussetzung war ein bestehender OpenAI-API-Account, der monatlich ca. 80 € für andere KI-Funktionen kostet. Folgeschritt: Aufbau einer Whitelist für vertrauenswürdige Stammkommentatoren, die die Vor-Moderation umgehen.
DSGVO & Datenschutz
- Datenhosting: USA. OpenAI verarbeitet Anfragen auf US-Servern (San Francisco / Region us-east). Keine EU-Hosting-Option im Standard-API-Plan.
- Datennutzung: Laut OpenAI-Richtlinie werden API-Eingaben nicht für das Training der Modelle verwendet. Sie werden jedoch bis zu 30 Tage zur Missbrauchserkennung vorgehalten, danach gelöscht (Zero-Day-Retention auf Anfrage für Enterprise-Kunden).
- Auftragsverarbeitung (AVV): Standard-API-Kunden bekommen einen Standardvertrag, der jedoch keine EU-Datenresidenz garantiert. Für DSGVO-konforme Verarbeitung von personenbezogenen Daten ist ein Enterprise-Account oder Microsoft Azure OpenAI Service (mit EU-Hosting in Frankfurt/Stockholm) notwendig.
- Schrems-II-Problematik: Wie bei jedem US-Anbieter besteht das Risiko des CLOUD-Act-Zugriffs durch US-Behörden. Standard-OpenAI-API-Verträge enthalten Standardvertragsklauseln (SCC), die jedoch nicht alle Aufsichtsbehörden als ausreichend ansehen.
- Empfehlung für Unternehmen: Für nicht-personenbezogene Moderation (allgemeine Kommentarfilterung ohne Klarnamen, kein Tracking) ist die Standard-API meist nutzbar. Für personenbezogene Inhalte: Azure OpenAI Service (Frankfurt) oder Wechsel zu EU-basierten Alternativen.
Gut kombiniert mit
- GPT-4o oder GPT-5 (OpenAI) — als zweite Prüfstufe für Grenzfälle. Die Moderation API filtert grob vor, GPT-4o bewertet die problematischen Fälle mit Kontextverständnis. Das senkt die False-Positive-Rate erheblich, kostet aber pro Aufruf.
- Perspective API — als parallele zweite Meinung. Wenn beide APIs unabhängig flaggen, ist die Wahrscheinlichkeit problematischen Inhalts höher. Bei nur einer flaggenden API: Moderationsqueue.
- moderationapi.com — als Ergänzung mit Dashboard, Audit-Logs und EU-Hosting-Option. Wer eine Compliance-Brücke braucht, kombiniert OpenAI für die Erstfilterung mit moderationapi.com für die dokumentierte Endprüfung.
Unser Testurteil
Die OpenAI Moderation API verdient 3 von 5 Sternen. Sie ist kostenlos, technisch sauber, multimodal und für englische Inhalte überraschend leistungsfähig. Für deutsche Plattformen ist sie aber nur als Vorfilter brauchbar — die Precision von rund 38 % macht eine reine Automatisierung unmöglich, und das US-Hosting ohne EU-Option im Standardvertrag schließt viele DSGVO-kritische Use-Cases aus. Wer einen OpenAI-API-Account ohnehin nutzt, sollte die Moderation API als zusätzliches Werkzeug einbinden — aber niemals als alleinige Lösung. Für ernsthafte Trust-&-Safety-Anforderungen führt der Weg zu kommerziellen Spezialisten (moderationapi.com, Hive, Azure Content Safety) oder eigenen Klassifizierern auf EU-Modellen.
Was wir bemerkt haben
- Oktober 2024 — OpenAI hat
omni-moderation-latestveröffentlicht: erstes multimodales Moderationsmodell der Firma, das Text und Bilder in einem einzelnen API-Aufruf moderiert. Vorher waren zwei separate Workflows nötig. Das ist ein echter Workflow-Vorteil für Plattformen mit gemischten Inhalten. - 2022 (Einführung) — Die Moderation API wurde 2022 als kostenfreies Werkzeug veröffentlicht. Seit über drei Jahren stabil kostenlos — ein für OpenAI ungewöhnlich beständiges Versprechen, das öffentliches Sicherheitsinteresse als Begründung trägt.
- Anfang 2025 — Eine Vergleichsstudie (arxiv 2501.01256) hat OpenAI gegen Perspective API auf deutschem Hate Speech gemessen. Ergebnis: OpenAI deutlich höherer Recall (ca. 70 % vs. 50 %), aber niedrigere Precision. Das hat in der Trust-&-Safety-Community Aufmerksamkeit erzeugt, weil es die bisherige Wahrnehmung („Perspective ist der Standard für mehrsprachige Moderation”) relativiert.
- Mai 2026 — Eine EU-Region für den Standard-API-Zugang ist weiterhin nicht angekündigt. Wer DSGVO-sauber arbeiten will, muss auf Azure OpenAI Service (Frankfurt) ausweichen — dort gilt der Microsoft-AVV, der EU-Datenresidenz garantiert. Die Moderation API ist über Azure ebenfalls verfügbar.
- Mai 2026 — Die Vorgängermodelle
text-moderation-latestundtext-moderation-stablesind weiterhin verfügbar, aber Empfehlung von OpenAI ist klar aufomni-moderation-latestmigriert. Wer noch text-moderation nutzt, sollte den Wechsel planen, bevor die alten Modelle abgeschaltet werden.
Diesen Inhalt teilen:
Empfohlen in 1 Use Cases
Medien & Verlag
Redaktionell bewertet · Preise und Funktionen können sich ändern.
Stimmt etwas nicht?
Preise geändert, Feature veraltet oder etwas fehlt? Wir freuen uns über Hinweise und Ergänzungen.
Nicht sicher, ob OpenAI Moderation API zu euch passt?
Wir helfen bei der Tool-Auswahl und begleiten die Einführung in euren Arbeitsalltag — unverbindlich und kostenlos im Erstgespräch.
Weitere Tools
Claid.ai
Let's Enhance, Inc.
Claid.ai ist eine spezialisierte API und Web-App für automatisierte E-Commerce-Bildoptimierung: Hintergrundentfernung, Bildupscaling, automatisches Zuschneiden, Qualitätsverbesserung, generative Produkthintergründe und seit 2025 auch AI Photoshoot, AI Fashion und Image-to-Video in einer Plattform. Entwickelt vom Let's-Enhance-Team, das seit 2017 KI-Bildoptimierung baut. Konzipiert für Shop-Betreiber mit großen Bildvolumen, die eine vollautomatische Pipeline ohne manuelle Nacharbeit benötigen.
Mehr erfahrenClimatiq
climatiq GmbH
API- und Datenplattform für CO₂-Berechnungen mit über einer Million wissenschaftlich geprüfter Emissionsfaktoren aus mehr als 140 Datensätzen (DEFRA, EPA, ecoinvent, EXIOBASE, IEA, GLEC u. a.) für 300+ Regionen. Drei Produktlinien: PCF Studio für Produkt-Carbon-Footprints, Data Studio für die Emissionsfaktor-Recherche, API Toolkit für die Einbettung in eigene Systeme. Seit 2024/25 ergänzt um einen KI-Mapping-Agent, der Aktivitätsdaten automatisch passenden Emissionsfaktoren zuordnet.
Mehr erfahrenCoral
Vox Media
Coral ist das führende Open-Source-Kommentarsystem für Nachrichtenorganisationen, gewartet von Vox Media (ursprünglich aus einer Zusammenarbeit von NYT, Washington Post und Mozilla). Es bietet ein vollständiges Moderations-Dashboard, native KI-gestützte Toxizitätserkennung, Journalisten-Community-Features und ist Apache-2.0-lizenziert. Wird in 30 Ländern und 23 Sprachen eingesetzt; deutsche Verlage sind unter den Nutzern.
Mehr erfahren