Spielwaren & Spiele spracherkennungkleinkinderon-device-ai

Kindgerechte Spracherkennung: KI versteht Lispeln und Fantasiewoerter

Standard-Sprachassistenten versagen bei Kleinkindern ab dem ersten Wort. Spezialisierte On-Device-Sprachmodelle fuer Kindersprache ermoeglichen interaktives Spielzeug, das wirklich zuhoert, und dabei keine Kinderstimmen in die Cloud schickt.

⚡ Auf einen Blick

Problem: Whisper, Alexa und Google Assistant sind auf Erwachsenensprache trainiert. Kleinkinder lispeln, verschlucken Silben, erfinden Woerter und sprechen leise. Fehlerrate 40–70 % gegenueber 5–8 % bei Erwachsenen. Spielzeug, das Kinder nicht versteht, frustriert und landet im Schrank.
KI-Lösung: Auf Kinderstimmen feinabgestimmte ASR-Modelle laufen On-Device auf dem Spielzeugprozessor. Intent-Klassifikation toleriert phonetische Variationen ueber fuzzy-matching auf definierten Spielbefehlen. Keine Cloud-Verbindung, kein Audiodaten-Transfer.
Typischer Nutzen: Erkennungsrate steigt von 30–60 % auf 75–90 % bei Kindern zwischen 3 und 6 Jahren. Engagement-Zeit im Spielverhalten nachweislich hoeher. Differenzierungsmerkmal gegenueber Standardprodukten ohne Drittassistenten-Lizenzkosten.
Setup-Zeit: Datenbeschaffung, DSGVO-konformes Training und Firmware-Tests: 12–24 Monate
Kosteneinschätzung: Entwicklung 80.000–200.000 €; Picovoice Enterprise-Lizenz ab 6.000 USD/Jahr; Firmware-Wartung 10.000–30.000 €/Jahr

Picovoice Porcupine + Rhino on-deviceSpeechBrain mit Kindersprach-Fine-TuningCustom-Stack auf ARM Cortex-M7

Worum geht's?

Es ist ein Dienstag im November, kurz nach 15 Uhr. Marta Kolbe, Produktentwicklerin bei einem mittelständischen Spielzeughersteller in Fürth, hält ein Vorserienmodell in der Hand, ein sprechendes Plüschtier mit eingebautem Mikrofon und Lautsprecher. Sie ruft ihre fünfjährige Tochter Lena dazu.

Lena fragt das Tier: „Wiiiil du mit mir spielen?” Das Tier schweigt. Lena versucht es lauter: „Spiel mit mir!” Dreisekündige Pause. Das Tier antwortet mit einer Frage, die gar nicht zur Eingabe passt. Lena schaut ihre Mutter an. „Das hört nicht zu.”

Marta notiert: Erkennungsrate unter realen Bedingungen mit Fünfjähriger, unter 35 Prozent. Das System war auf Testsprachaufnahmen von Erwachsenen abgestimmt worden, weil lizenzpflichtiger Datensatz für Kindersprache zu teuer, zu langsam zu beschaffen, rechtlich zu kompliziert war. Der Markteinführungstermin zum Weihnachtsgeschäft ist in acht Wochen.

Das ist kein Einzelfall in der Branche. Es ist das strukturelle Problem jedes Herstellers, der KI-Sprachsteuerung einbaut, ohne die besondere Akustik und Linguistik von Kindersprache zu adressieren.

Für Unternehmen

Nicht nur lesen, umsetzen.

Wir entwickeln KI-Lösungen für genau deinen Anwendungsfall und begleiten dich bei der Einführung.

Für Unternehmen

Das echte Ausmaß des Problems

Kindersprache unterscheidet sich von Erwachsenensprache in fast jedem messbaren Parameter. Vier- bis Sechsjährige produzieren Vokale mit einer anderen Formantstruktur, haben eine höhere Grundfrequenz (typisch 250–400 Hz statt 85–180 Hz bei Männern und 165–255 Hz bei Frauen) und variieren stark in der Stimmqualität. Lispeln, Stottern, Silbenauslassungen und Neologismen sind normaler Bestandteil der Sprachentwicklung, nicht Ausnahmen.

Kommerzielle Spracherkennungssysteme, die für Erwachsene trainiert wurden, haben bei Kindern im Alter von 3 bis 6 Jahren dokumentierte Fehlerraten zwischen 40 und 70 Prozent, je nach Trainingsdatensatz und Testbedingung. Das ist keine Randinformation aus einer akademischen Studie: Picovoice dokumentiert für seine Standard-Erwachsenenmodelle auf Kinderstimmen eine deutlich erhöhte Fehlerrate, und interne Studien von Spielzeugherstellern zeigen konsistent, dass Cloud-basierte APIs wie Google Speech oder Amazon Alexa bei vier- bis fünfjährigen Kindern Fehlerraten aufweisen, die für ein Spielerlebnis inakzeptabel sind.

Das führt zu einem Marktproblem: Der Weltmarkt für interaktives Spielzeug mit Sprachsteuerung wächst, Prognosen aus der Spielwarenmessebranche sehen das Segment der „KI-Plüschtiere und Lernassistenten” bis 2030 im zweistelligen Milliardenbereich (laut Spielwarenmesse-Bericht 2025 über den chinesischen Markt, der mit über 1.500 KI-Spielzeug-Startups in 2025 als Vorreiter gilt). Wer aber auf Standard-Cloud-ASR setzt, liefert ein Produkt, das die Zielgruppe frustriert, und in Bewertungen wird „hört nicht richtig zu” systematisch als häufigster Kritikpunkt zitiert, wie eine Analyse von 1-Stern-Reviews aus Marktplätzen zeigt.

Das zweite Problem: Cloud-basierte Sprachassistenten übertragen Audiodaten auf Server. Bei Erwachsenengeräten ist das regulatorisch komplex. Bei Kinderspielzeug für Unter-Sechsjährige ist es ein juristisches Minenfeld, mit realen Konsequenzen, wie mehrere öffentliche Datenpannen aus 2024 bis 2026 belegen.

Mit vs. ohne KI, ein ehrlicher Vergleich

Kennzahl	Standard-ASR (Cloud, auf Erwachsene trainiert)	Spezialisiertes Kinder-ASR (on-device, kindersprachoptimiert)
Erkennungsrate bei 3–6-Jährigen	30–60 %	75–90 %
Latenz bis zur Antwort	300–1.500 ms (Cloudpfad)	80–300 ms (on-device)
Audiodaten-Transfer	Ja, alle Sprachaufnahmen in die Cloud	Nein, Verarbeitung auf dem Gerät
Drittlizenz pro Einheit	0,50–2,00 € (Alexa, Google)	Entfällt nach einmaligem Entwicklungsaufwand
Betrieb ohne Internetverbindung	Nein	Ja
DSGVO-Risiko für Kinderdaten	Hoch (Art. 8, Verarbeitung bei Drittanbietern)	Niedrig bis keines (keine Übertragung)
Zeitraum bis Einsatzbereit	4–8 Wochen Integration	12–24 Monate Entwicklung und Training

Die Zahlen zur Erkennungsrate sind Richtwerte aus veröffentlichten Forschungsarbeiten und Picovoice-Dokumentation (Stand 2024/2025). Die tatsächliche Erkennungsrate eines kindersprachoptimierten Systems hängt entscheidend von der Qualität und Größe des Trainingsdatensatzes ab.

Einschätzung auf einen Blick

Zeitersparnis, niedrig (2/5)
KI-Sprachsteuerung im Spielzeug spart dem Hersteller keine Arbeitszeit, der Mehrwert entsteht beim Kind, nicht im Betrieb. Verglichen mit anderen Anwendungsfällen in dieser Kategorie, die tägliche Arbeitsstunden einsparen (etwa die automatisierte Erstellung von CE-Prüfprotokollen), ist dieser Use Case ein Produktfeature, kein Produktivitätshebel.

Kosteneinsparung, niedrig (2/5)
Pro ausgelieferter Einheit entfällt eine Drittlizenz von typisch 0,50 bis 2,00 Euro, bei einer Produktion von 100.000 Stück jährlich also 50.000 bis 200.000 Euro Ersparnis, die gegen Entwicklungskosten von 80.000 bis 200.000 Euro gerechnet werden müssen. Das Kostenbild ist positiv, aber erst nach mehreren Produktzyklen. Niedrig im Branchenvergleich, weil die Entwicklungsinvestition so hoch ist und sich erst bei Skaleneffekten auszahlt.

Schnelle Umsetzung, sehr niedrig (1/5)
Das ist der schwierigste Use Case in dieser Kategorie bezogen auf Umsetzungsgeschwindigkeit. Kindersprachige Trainingsdaten beschaffen (DSGVO-konform), Modell trainieren oder feinabstimmen, auf Embedded-Firmware portieren, in Kindertestgruppen validieren, CE-zertifizieren, das dauert realistisch 12 bis 24 Monate. Kein Quick-Win, kein Proof of Concept über Wochenende. Wer das unterschätzt, setzt einen Starttermin an, der nicht zu halten ist.

ROI-Sicherheit, mittel (3/5)
Der Nutzen ist messbar: Lizenzersparnis pro Einheit lässt sich kalkulieren, und höhere Erkennungsraten korrelieren in Nutzertests mit höherer Spielzufriedenheit. Schwerer zu greifen ist, ob bessere Sprachsteuerung tatsächlich in Preispremium oder Marktanteilen messbar wird, das hängt zu sehr vom Produkt, Segment und Marketing ab.

Skalierbarkeit, sehr hoch (5/5)
Das ist der klarste Hebel dieses Use Cases. Ein trainiertes Modell lässt sich in beliebig viele Geräte-Einheiten einbetten, ohne Mehrkosten pro Einheit, ohne laufende API-Kosten, ohne Cloud-Infrastruktur. Bei wachsendem Produktionsvolumen sinken die Kosten pro Einheit monoton. Kein anderer Use Case in dieser Kategorie hat so eindeutige Skalierungseigenschaften.

Richtwerte, stark abhängig von Produktionsvolumen, Zielmarkt und vorhandenem Embedded-Know-how im Team.

Was ein kindersprachoptimiertes System konkret macht

Der technische Ansatz unterscheidet sich fundamental von dem, was du von Amazons Alexa oder Googles Assistant kennst. Statt Audio in die Cloud zu schicken und dort zu verarbeiten, läuft alles auf dem Gerät, auf einem Mikrocontroller, der nicht viel größer ist als dein Fingernagel.

Die vier Komponenten des on-device Stacks

1. Wake-Word-Erkennung
Das Gerät hört dauerhaft auf ein vorab trainiertes Signalwort, beispielsweise „Hey Lumi” oder den Namen der Spielzeugfigur. Diese erste Stufe läuft extrem energiesparsam auf einem kleinen Modell (typisch 50–200 kB), weil sie ständig aktiv sein muss. Erst wenn das Wake Word erkannt wurde, schaltet das System in den nächsten Modus.

2. Automatic Speech Recognition (ASR)
Eine automatische Spracherkennung wandelt das gesprochene Wort in Text um. Das ist der kritische Punkt für Kinderspielzeug: Standard-ASR-Modelle versagen hier. Kindersprachoptimierte Varianten wurden auf Audiodatensätzen mit Kindersprache trainiert, zum Beispiel mit dem MyST-Datensatz (My Science Tutor, CMU) oder dem PF-STAR-Datensatz (Universität Erlangen), die beide kindersprachliche Aufnahmen in Schul- und Vorschulalter enthalten. Die Fehlerquote bei Kindern sinkt damit von 40–70 Prozent auf typisch 10–25 Prozent, immer noch höher als bei Erwachsenen, aber für Spielinteraktion mit einem definierten Befehlssatz ausreichend. Das entspricht einer Erkennungsrate von 75–90 Prozent, die im Vergleich mit dem Ausgangswert von 30–60 Prozent den Nutzen dieses Ansatzes zeigt.

3. Intent-Klassifikation
Statt vollständiges NLP zu betreiben, klassifiziert das System die erkannte Aussage in einen von typisch 10 bis 30 vordefinierten Intents: „Geschichte erzählen”, „Lied singen”, „Quiz starten”, „Zahl nennen”. Das ist entscheidend für die Robustheit: Auch wenn die ASR „ähm erzähl mir eine Gschischte” zurückgibt, erkennt der Intent-Klassifikator: Geschichte-Absicht. Fuzzy Matching auf einem kleinen Satz definierter Befehle ist deutlich toleranter gegenüber kindlicher Phonologie als ein offenes Sprachmodell.

4. Text-to-Speech (TTS) oder Audio-Wiedergabe
Das Spielzeug antwortet, entweder per vorproduziertem Audio (empfohlen für maximale Energie- und Ressourceneffizienz) oder per on-device TTS, was auf ressourcenbeschränkter Hardware aufwendiger ist.

Was das bedeutet ohne die Fachsprache

Das Kind spricht in das Spielzeug. Das Spielzeug verarbeitet alles intern, kein Datentransfer, kein Internet nötig. Es versteht nicht jedes Wort perfekt, aber es versteht die Absicht: Quiz, Geschichte, Lied. Es antwortet sofort, ohne merkliche Verzögerung. Und wenn der WLAN-Router ausgeschaltet ist, funktioniert es trotzdem.

Was ihr hardware-seitig braucht

Das ist eine der wichtigsten Fragen, die in Briefings zur KI-Sprachsteuerung für Spielzeug regelmäßig zu kurz kommt. On-Device-ASR auf Mikrocontrollern funktioniert, aber nur auf der richtigen Hardware.

Mindestanforderungen für Intent-basiertes System (10–30 Befehle)

Prozessor: ARM Cortex-M4 mit FPU (Floating-Point Unit), 80+ MHz, z.B. STM32F4, NXP RT600
RAM: 256 KB Arbeitspeicher für das ASR-Modell und den Audio-Buffer, Minimum, kein Puffer
Flash: 1–2 MB für Modell + Firmware
Mikrofon: PDM- oder I2S-Mikrofon mit 16 kHz Abtastrate, Nierencharakteristik empfohlen
Stromverbrauch: Wake-Word-Phase ca. 1–5 mW, aktive ASR-Phase ca. 30–80 mW

Empfehlenswert für vollständiges Kinder-ASR mit größerem Vokabular

Prozessor: ARM Cortex-M7 oder Cortex-A, z.B. STM32H7 (400+ MHz), i.MX RT1060
RAM: 512 KB–2 MB
Flash: 4–8 MB
Separates Audio-DSP-Frontend zur Vorverarbeitung (Rauschunterdrückung, Lautstärkenormalisierung) empfohlen, da Kinderstimmen oft leiser sind als Erwachsenenstimmen

Was nicht funktioniert: Klassische 8-Bit-AVR-Mikrocontroller, reine Bluetooth-Lautsprecher-ICs ohne DSP, oder Systeme mit weniger als 128 KB RAM. Das sind die häufigsten Hardware-Fehler in frühen Spielzeug-Prototypen.

Energiehaushalt: Ein Spielzeug mit 4 AA-Batterien (ca. 10 Wh) kann bei typischer Nutzung (30–60 Minuten aktiver Sprachinteraktion pro Tag) mehrere Monate laufen, wenn die Wake-Word-Engine energiesparend ausgelegt ist. Falsche Hardware-Wahl oder fehlendes Sleep-Mode-Management verkürzt die Batterielaufzeit auf Wochen.

Konkrete Werkzeuge, was wann passt

Die Toollandschaft für embedded Kindersprachsteuerung ist kleiner als für Cloud-basierte Systeme. Das ist kein Nachteil, es bedeutet, dass die relevanten Optionen überschaubar sind.

Picovoice, das vollständigste on-device SDK
Picovoice ist die stärkste kommerzielle Option für on-device Sprachsteuerung auf Embedded-Hardware. Der Stack umfasst Wake-Word-Erkennung (Porcupine), Streaming-STT (Cheetah), Intent-Klassifikation (Rhino) und LLM-Inference, alles unter 20 MB Modellgröße. Für Spielzeug ohne Cloud-Verbindung ist das die realistischste produktionsreife Option. Einschränkung: Kein spezielles Kindersprachmodell im Standardumfang, das muss über Custom-Training ergänzt werden. Preise: Evaluation kostenlos, Enterprise-IoT-Lizenz ab ca. 6.000 USD/Jahr, produktionsfähige Stückzahl-Lizenzen auf Anfrage. Für Kleinserienhersteller gibt es einen Startup-Rabatt von 75 Prozent.

SpeechBrain (Open Source), für Custom-Training auf Kinderdaten
SpeechBrain ist ein Open-Source-PyTorch-Framework für Sprachverarbeitung, das über 200 Trainingsrezepte auf 40+ Datensätzen bereitstellt. Wer eigene Kindersprachdaten hat oder lizenzierte Datensätze beschafft (MyST, PF-STAR, CommonVoice-Kinder-Subset), kann damit ein ASR-Modell trainieren und anschließend auf Embedded-Hardware portieren. Das erfordert ML-Expertise, gibt aber maximale Kontrolle über die Trainingsdaten, wichtig für DSGVO-Konformität. Kosten: Framework kostenlos, Training auf eigenem oder gemietem GPU-Server.

Whisper (OpenAI, Open Source), für Referenz und Offline-Tests
Whisper ist das bekannteste Open-Source-STT-Modell, trainiert auf 680.000 Stunden Audio. Es eignet sich als Benchmark-Vergleich und für Offline-Analysen auf leistungsstarker Hardware, ist aber zu groß für den eingebetteten Einsatz auf Mikrocontrollern und nicht auf Kindersprachmerkmale optimiert. Für Spielzeug direkt ungeeignet, aber wertvoll als Vergleichsreferenz in der Entwicklung.

Kein Cloud-API-Dienst empfohlen
Amazon Alexa Voice Service, Google Speech-to-Text und ähnliche Cloud-APIs sind für Kinderspielzeug aus zwei Gründen ungeeignet: erstens ihre Fehlerrate bei Kindersprache, zweitens die DSGVO-Problematik (Audiodaten-Übertragung für Unter-Sechsjährige ohne verarbeitungsfähige Rechtsgrundlage). Das ist keine theoretische Einschätzung, mehrere öffentliche Datenpannen bei Cloud-verbundenen KI-Spielzeugen haben 2024 bis 2026 gezeigt, wie diese Schwachstelle real ausgenutzt wird.

Zusammenfassung: Wann welcher Ansatz

Einfaches Intent-System (10–30 Befehle), schnell produktionsbereit → Picovoice
Vollständige Kontrolle über Trainingsdaten, eigene ML-Kompetenz → SpeechBrain
Benchmark und Entwicklungsphase-Tests → Whisper lokal
Cloud-APIs → nicht empfehlenswert für Kinderspielzeug

Rechtliche Besonderheiten und Haftungsrisiken

Dieser Abschnitt enthält keine Rechtsberatung. Er benennt regulatorische Anforderungen, die für Spielzeug-Hersteller mit KI-Sprachfunktionen in Deutschland, Österreich und der Schweiz relevant sind. Für konkrete rechtliche Einschätzungen ist ein auf Produkthaftung und Datenschutz spezialisierter Anwalt erforderlich.

EU AI Act, Hochrisiko-Klassifikation ab August 2026
Interaktive KI-Systeme in Kinderspielzeug fallen unter Artikel 6 und Anhang II des EU AI Act in Verbindung mit der EU-Spielzeugrichtlinie (2009/48/EG). Das bedeutet: Hochrisiko-KI-Status, mit verpflichtendem Risikomanagementsystem, technischer Dokumentation, Konformitätsbewertung und CE-Kennzeichnungsanforderungen, die über die bestehende EN 71-Norm hinausgehen. Die Anforderungen für AI-in-Produkten gelten ab dem 2. August 2028, aber die Vorbereitung dafür (Dokumentation, Konformitätsbewertung) beginnt sinnvollerweise nicht sechs Monate vorher. Wer 2025/2026 ein KI-Spielzeug entwickelt, sollte den AI-Act-Konformitätspfad von Anfang an einplanen.

DSGVO Artikel 8, Elterliche Einwilligung für Unter-16-Jährige
Artikel 8 DSGVO regelt die Verarbeitung personenbezogener Daten von Kindern. Sobald ein Spielzeug Audiodaten überträgt oder speichert, ist die Einwilligung des Trägers der elterlichen Verantwortung erforderlich, für Unter-16-Jährige in Deutschland. Wichtig: On-Device-Verarbeitung, bei der keine Daten das Gerät verlassen, ist deutlich weniger risikoreich. Sie ist jedoch nicht vollständig außerhalb des DSGVO-Anwendungsbereichs, wenn das Gerät Nutzungsprofile speichert oder Updates aus der Cloud bezieht. Eine Datenschutz-Folgenabschätzung (DSFA) nach Art. 35 DSGVO ist für Cloud-verbundene Spielzeuge mit Kinderdatenverarbeitung obligatorisch.

Kinderschutz-Haftung, Halluzinationsrisiko
Das ist das weniger regulatorisch formalisierte, aber praktisch erheblichste Risiko: Ein LLM-basiertes interaktives Spielzeug kann Inhalte generieren, die für Kinder ungeeignet, irreführend oder sogar gefährlich sind. Das ist keine theoretische Überlegung. FoloToy/Kumma, ein chinesischer KI-Teddybär, gab 2024 Anweisungen, wie man Streichhölzer findet und anzündet. Curio Grok glorifizierte Gewalt. Diese Vorfälle endeten mit Senatsanhörungen und Produktrückrufen. Für Hersteller in DE/AT/CH bedeutet das: Wenn du ein offenes LLM integrierst, das auf undefinierten Inhalten antworten kann, übernimmst du Produkthaftung für jeden Output. Die einzige technisch vertretbare Lösung für Kleinkindalter (0–6 Jahre) ist ein geschlossenes Intent-System mit vordefiniertem Antwortset, kein offenes Sprachmodell.

Cyber Resilience Act, Vernetzte Spielzeuge als kritische Produkte
Der EU Cyber Resilience Act klassifiziert vernetzte Spielzeuge mit sozialen Interaktionsfunktionen als kritische Produkte der Klasse I. Das bedeutet Sicherheitsanforderungen: Firmware-Updates müssen signiert sein, Update-Mechanismen müssen sicher sein, bekannte Schwachstellen müssen gemeldet werden. Für Bluetooth- oder WLAN-fähige Spielzeuge ist das ein weiterer Compliance-Pfad, der bei der Produktentwicklung berücksichtigt werden muss.

Produktsicherheitsverordnung (GPSR) und EN 71
Die EU-Spielzeugrichtlinie (EN 71) enthält elektromagnetische Verträglichkeits- und Sicherheitsanforderungen. Für elektronische Spielzeuge mit Mikrofon und Lautsprecher gelten zusätzlich die Anforderungen der EN IEC 62368-1 (Audio/Video und IT-Geräte). Die CE-Kennzeichnung deckt beide ab, aber für KI-Spielzeuge kommen ab 2026/2028 die AI-Act-Anforderungen obendrauf. Die Dokumentation aus der CE-Prüfprotokoll-Erstellung wird durch diese KI-spezifischen Anforderungen deutlich umfangreicher.

Datenschutz und Datenhaltung

Die technische Architekturentscheidung, on-device versus Cloud, ist gleichzeitig die wichtigste Datenschutzentscheidung, die du bei Kinderspielzeug mit Sprachsteuerung triffst.

On-Device (empfohlen für Unter-6-Jährige):
Wenn alle Sprachverarbeitung auf dem Gerät stattfindet und keine Audiodaten das Spielzeug verlassen, erübrigt sich die schwerste regulatorische Last. Es gibt kein AVV nach Art. 28 DSGVO für die Sprachverarbeitung selbst, keine DSFA für Audiodaten-Übertragung, keine Drittanbieter-Audits. Die Eltern haben volle Kontrolle über das Gerät. Das ist der einzige saubere Weg für interaktive Spielzeuge, die sich direkt an Kleinkinder richten.

Cloud-verbunden (hohes Risiko):
Jede Audiodaten-Übertragung löst Art. 8 DSGVO aus und erfordert verarbeitungsfähige elterliche Einwilligung, Nennung aller Verarbeitungszwecke und Drittanbieter, DSFA, AVV mit jedem Cloud-Anbieter. Das Codi-Datenleck (Pillar Learning, 2024) zeigt, was passiert, wenn Kinderstimmen in einer ungesicherten Cloud-Datenbank ohne Authentifizierung gespeichert werden: 50.000 Kinder-Konversationen waren öffentlich abrufbar. Der Hersteller wurde mit Senatsanhörungen konfrontiert.

Update-Kanal:
Auch ein on-device-Spielzeug kann Daten empfangen (Firmware-Updates) oder senden (Telemetrie, Nutzungsstatistiken). Jeder dieser Kanäle muss datenschutzrechtlich bewertet werden. Telemetrie zu Spielverhalten ist verlockend für Produktoptimierung, ist aber bei Kleinkinddaten ohne elterliche Opt-in-Einwilligung nicht zulässig. Die Analyse von Kindertestgruppen für Produktentwicklung ist der datenschutzrechtlich saubere Weg, Spielverhalten zu verstehen.

Was es kostet, realistisch gerechnet

Das ist der Punkt, an dem viele Hersteller ihre erste realistische Kalkulation machen, und überrascht sind.

Einmalige Entwicklungskosten

Datenbeschaffung (lizenzierte Kindersprachdatensätze, DSGVO-konform): 5.000–30.000 Euro je nach Umfang
Modelltraining und -optimierung (SpeechBrain / Custom Fine-Tuning): 20.000–60.000 Euro, abhängig von ML-Expertise intern oder extern
Firmware-Integration (Embedded-Entwicklung, Portierung auf Ziel-Mikrocontroller): 30.000–80.000 Euro
Kindertestgruppen-Validierung (mindestens zwei Runden, DSGVO-konforme Einwilligungen): 10.000–20.000 Euro
CE-Dokumentation mit AI-Act-Konformitätspfad: 5.000–15.000 Euro
Gesamt: typisch 80.000–200.000 Euro, ohne interne Personalkosten

Laufende Kosten

Picovoice Enterprise-Lizenz (wenn genutzt): ab ca. 6.000 USD/Jahr für kommerziellen IoT-Einsatz
Firmware-Wartung und -Updates: 10.000–30.000 Euro/Jahr (Bug-Fixes, Sicherheitsupdates, Modellverbesserungen)
Keine per-Unit API-Kosten nach der Einführung, das ist der entscheidende Unterschied zu Cloud-basierten Lösungen

Was du gegenrechnen kannst
Bei einer Produktionsmenge von 100.000 Einheiten jährlich und einer eingesparten Drittlizenz von 1 Euro/Einheit: 100.000 Euro Ersparnis pro Jahr. Bei 200.000 Einheiten 200.000 Euro. Das Entwicklungsbudget amortisiert sich bei diesen Volumina nach 1–2 Jahren. Unter 50.000 Einheiten jährlich ist der ROI aus Lizenzkostenersparnis allein schwer darzustellen, dann muss das Differenzierungsmerkmal am Markt (höhere Erkennungsrate, besseres Nutzererlebnis, kein Cloud-Risiko) den Rest des Arguments tragen.

Wann die Rechnung nicht aufgeht:
Wenn du weniger als 50.000 Einheiten produzierst, kein internes Embedded-Entwicklungsteam hast und das Produkt kein höheres Preissegment rechtfertigt, dann ist die On-Device-KI-Sprachsteuerung wirtschaftlich nicht darstellbar. Das ist kein Fehler in der Planung, sondern eine ehrliche Markteinschätzung.

Drei typische Einstiegsfehler

1. Kindersprachtest mit Erwachsenen-Testpersonen.
Ein Fehler, der so offensichtlich klingt, dass er selten offen benannt wird, und trotzdem regelmäßig passiert. Wenn das Entwicklungsteam das System auf den eigenen Stimmen testet (alles Erwachsene), sehen die Erkennungsraten gut aus. Dann kommen Kinder in den Test: Einbruch auf 30–40 Prozent. Lösung: Von Anfang an Kindertestgruppen organisieren, mindestens zwei Altersgruppen (3–4 Jahre und 5–6 Jahre), weil die sprachlichen Charakteristika signifikant unterschiedlich sind. Das kostet Zeit und Aufwand, aber es spart eine komplette Neuentwicklung kurz vor der Markteinführung.

2. Offenes Sprachmodell für Kleinkinder.
Wer ein generatives LLM integriert, das auf beliebige Kinderfragen antwortet, riskiert unkontrollierbare Outputs. Sicherheitsfilter (Content Guards, System Prompts) sind nicht verlässlich, das zeigen die Vorfälle mit FoloToy, Curio und Miko. Für Unter-Sechsjährige gibt es keine technisch belastbare Lösung für offene LLM-Gespräche, die haftungsrechtlich vertretbar ist. Das richtige Design für diese Altersgruppe: ein geschlossenes System mit vordefiniertem Intent-Katalog und vorproduziertem Antwortset. Kein offener Textgenerator.

3. Das System wird nie neu trainiert.
Das ist der gefährlichste Fehler, weil er still passiert und erst in Nutzerbewertungen zwei Saisons nach der Markteinführung sichtbar wird.

Ein Intent-Klassifikator, der auf den Sprachentwicklungsstand von 2024 trainiert wurde, verfehlt neue kindliche Neologismen und Formeln aus Kindersendungen, die 2026 populär sind. Spielzeugnamen aus dem populären TV-Bereich wechseln schnell, und die Kinder sprechen darüber mit dem Spielzeug. Die Erkennungsrate sinkt schleichend, ohne dass ein Alarm aufgeht.

Wer zuständig für Modell-Updates ist, muss vor der Markteinführung festgelegt sein. Was löst eine Überprüfung aus? Neue Produktserie, Feedback-Analyse aus Nutzerbewertungen, systematische Qualitätsstudie (Analyse von Kindertestgruppen). Wie werden Updates auf Geräte im Feld eingespielt? Firmware-OTA-Mechanismus muss von Anfang an sicher mitgeplant sein, nicht nachgerüstet. Das ist gleichzeitig eine Cyber-Resilience-Act-Anforderung.

Was mit der Einführung wirklich passiert, und was nicht

Die technische Entwicklung ist das Handwerk dieser Einführung. Das Überraschende kommt danach.

Eltern-Akzeptanz ist kein Selbstläufer.
Sprachsteuerung im Spielzeug erzeugt bei einem Teil der Elterngruppe reflexartig Misstrauen, „das Spielzeug hört zu”. Dieser Reflex ist durch reale Datenpannen bei vernetzten Kinderspielzeugen in den letzten Jahren vollständig berechtigt. Ein Hersteller, der on-device ASR verbaut, hat ein handfestes Differenzierungsargument: Keine Audiodaten verlassen das Gerät. Aber das muss kommuniziert werden, klar, verständlich, auf der Verpackung, nicht im Kleingedruckten der Datenschutzerklärung. Hersteller, die das richtig machen, nutzen es als Verkaufsargument. Hersteller, die es nicht kommunizieren, werden trotzdem mit dem Reputationsschaden aller Cloud-verbundenen Spielzeuge in dieselbe Schublade gesteckt.

Kindertestgruppen liefern unbequeme Feedback-Schleifen.
Kinder zwischen 3 und 6 Jahren haben wenig Geduld für ein System, das sie zweimal nicht versteht. Nach dem dritten Fehlversuch wenden sie sich ab. Das bedeutet: Jede Testphase liefert harte UX-Rückmeldungen, die das Entwicklungsteam direkt konfrontieren. Dieser Druck ist unangenehm, aber wertvoll, besser in der Testphase als im Markt. Wer Kindertestgruppen als Pflichtbestandteil des Entwicklungsprozesses einplant, nicht als optionales Schlusspunkt-Feedback, kommt mit einem deutlich besseren Produkt heraus.

Die Firmware-Wartung unterschätzt jeder.
Nach der Markteinführung ist das Spielzeug in Tausenden von Haushalten. Ein Fehler im Spracherkennungsmodell, zu aggressive Aktivierung, gelegentliche falsche Antworten auf harmlose Fragen, Fehler bei bestimmten Kindernamen, kann viral gehen. Update-Mechanismus, Testumgebung für Firmware-Releases, Qualitätssicherung für Modell-Updates sind kein Overhead, sie sind Produktinfrastruktur.

Realistischer Zeitplan mit Risikohinweisen

Phase	Dauer	Was passiert	Typisches Risiko
Anforderungsanalyse & Design	Monate 1–2	Intent-Katalog definieren, Hardware auswählen, Datenstrategie festlegen, Legal-Check	Intent-Katalog zu groß geplant, Priorisierung auf 10–20 Kernbefehle
Datenbeschaffung & Lizenzierung	Monate 2–5	Kindersprachdatensätze beschaffen oder DSGVO-konform aufnehmen, DSFA erstellen	Datensatz-Lizenzierung scheitert oder liefert falsche Altersgruppe
Modelltraining & -validierung	Monate 4–10	ASR- und Intent-Modell trainieren, auf Embedded-Hardware portieren, erste interne Tests	Modell erfüllt auf Ziel-Mikrocontroller die Latenz-Anforderungen nicht, Hardware-Wechsel nötig
Erste Kindertestgruppe	Monat 8–12	Reale Tests mit 3- bis 6-Jährigen, Feedback dokumentieren, Modell nachoptimieren	Erkennungsrate unter 70 %, zweiter Trainingszyklus nötig
Zweite Kindertestgruppe & CE-Vorbereitung	Monate 12–18	Verbessertes System validieren, CE-Dokumentation mit AI-Act-Konformitätspfad erstellen	AI-Act-Anforderungen erfordern zusätzliche technische Dokumentation
Firmware-Integration & QA	Monate 16–22	Vollständige Systemintegration, Sicherheitstests, Batterie- und Feldtest	OTA-Update-Mechanismus nicht sicher genug, Cyber-Resilience-Act-Problem
Markteinführung	Monat 18–24	Produktionsstart, Monitoring, Feedback-Loop einrichten	Nutzerbewertungen zeigen Sprachsteuerungsprobleme in bestimmten Dialekten

Der Zeitplan ist ein Richtwert für ein Unternehmen mit vorhandenem Embedded-Entwicklungsteam. Ohne eigene ML-Kompetenz oder Embedded-Firmware-Erfahrung verlängert er sich entsprechend, oder Teile werden an Dienstleister ausgelagert, was den Zeitplan verringern, aber die Kosten erhöhen kann.

Häufige Einwände, und was dahintersteckt

„Warum nicht einfach Alexa oder Google einbinden?”
Die Frage ist verständlich, und für Erwachsenen-Produkte wäre sie berechtigt. Für Kleinkindalter scheitert es an zwei Punkten gleichzeitig: Die Erkennungsrate für Kindersprache ist zu niedrig für ein befriedigendes Spielerlebnis, und die Audiodaten-Übertragung ist datenschutzrechtlich für Unter-Sechsjährige ohne elterliche Einwilligung nicht darstellbar. Die Drittlizenzkosten (0,50–2 Euro/Einheit) kommen noch obendrauf. Das ist kein schlechter Deal, es ist schlicht das falsche Werkzeug für diese Altersgruppe.

„Das ist zu teuer für unser Produktsegment.”
Für ein Einstiegspreissegment unter 20 Euro Verkaufspreis stimmt das wahrscheinlich. Für ein Lern- oder Premiumspielzeug über 40–60 Euro ist die Rechnung anders: Ein Differenzierungsmerkmal, das gut kommuniziert wird, rechtfertigt einen Preisaufschlag von 5–10 Euro, was bei 100.000 Einheiten 500.000 bis 1.000.000 Euro zusätzlichen Umsatz bedeutet. Dann sieht das Investitionsargument anders aus.

„Können wir das nicht mit ChatGPT machen?”
Nein, jedenfalls nicht für Kleinkinder. ChatGPT und vergleichbare offene LLM-Systeme haben keine verlässlichen Sicherheitsfilter, die für 3- bis 6-Jährige ausreichen. Die Vorfälle mit Curio Grok (50.000 private Kindergespräche öffentlich zugänglich, Februar 2026) und FoloToy Kumma (gefährliche Inhaltsgenerierung) waren LLM-basierte Systeme. Das Haftungsrisiko für einen deutschen Hersteller wäre erheblich. Für Kinder über 8 Jahre und mit geeignetem Kontext-Filtering ist eine LLM-Integration anders zu beurteilen, aber nicht für die Altersgruppe 0–6 Jahre.

Woran du merkst, dass das zu dir passt

Du entwickelst ein Spielzeug für Kinder zwischen 3 und 6 Jahren, bei dem Sprachinteraktion ein Kernmerkmal ist, nicht ein Add-on
Dein Produktionsvolumen liegt bei über 50.000 Einheiten pro Jahr oder du planst dieses Niveau innerhalb von drei Jahren zu erreichen
Du hast internes Embedded-Firmware-Know-how oder arbeitest dauerhaft mit einem spezialisierten Dienstleister zusammen
Datenschutz ist für dich kein Beiwerk, sondern ein Verkaufsargument, du verstehst, dass On-Device-Verarbeitung ein Wettbewerbsvorteil gegenüber Cloud-verbundenen Konkurrenzprodukten ist
Du planst mehrere Produktgenerationen, nicht nur ein Einzelprodukt, das Investitionsmodell in ein Spracherkennungssystem amortisiert sich über mehrere Produktzyklen

Wann du damit noch nicht anfangen solltest, drei harte Ausschlusskriterien:

Unter 50.000 Einheiten pro Jahr und kein Preissegment über 40 Euro. Der wirtschaftliche ROI aus Lizenzersparnis trägt die Entwicklungskosten nicht. Du sparst weniger an Drittlizenzen ein als du investierst. Für dieses Volumen ist eine einfache Button-basierte Interaktion oder eine lizenzierte Cloud-Lösung mit expliziter Eltern-Einwilligung die realistischere Wahl.
Kein internes Embedded-Entwicklungsteam und kein Budget für externen Spezialisten. KI-Sprachsteuerung auf Mikrocontroller zu portieren ist keine Aufgabe, die ein generischer Web-Entwickler oder ein KI-Chatbot-Entwickler übernehmen kann. Embedded-ML erfordert spezifisches Know-how in Firmware, Hardware-naher Programmierung und Modelloptimierung. Wer dieses Know-how nicht hat und nicht beschafft, wird das System nicht produktionsreif bekommen.
Kein Zugang zu DSGVO-konformen Kindersprachdatensätzen für das Training. Ein System, das nicht auf Kinderstimmen trainiert wurde, erfüllt nicht die Grundanforderung dieses Use Cases. Öffentlich verfügbare Datensätze wie MyST (CMU) oder PF-STAR (Uni Erlangen) sind für Forschung lizenziert, für kommerzielle Nutzung unter Umständen nicht, oder erfordern eigene Datenerhebung mit DSGVO-konformer elterlicher Einwilligung. Wer dieses Datenproblem nicht löst, bekommt kein funktionierendes Kindersprachsystem.

Das kannst du heute noch tun

Du brauchst heute keine Entwicklungsumgebung und kein Budget. Was du heute tun kannst: die Anforderungsspezifikation für die Sprachsteuerung deines Spielzeugs schreiben, als strukturiertes Dokument, das du mit einem Embedded-Entwickler oder potenziellen Dienstleister teilen kannst.

Nutze diesen Prompt, um die Spezifikation zu erstellen:

Anforderungsspezifikation für dein KI-Spielzeug

Du hilfst mir, die Anforderungsspezifikation für die KI-Sprachsteuerung meines Kinderspielzeugs zu erstellen. Spielzeug-Typ: [z.B. Plüschtier, Lernroboter, interaktives Buch] Zielgruppe: [Altersgruppe, z.B. 3–5 Jahre] Geplante Produktionsvolumen pro Jahr: [Stückzahl] Geplanter Verkaufspreis: [Euro] Internetverbindung geplant: [Ja / Nein / Optional] Erstelle bitte auf Basis dieser Informationen: 1. INTENT-KATALOG: Schlage 10–20 konkrete Sprachbefehle vor, die für diese Zielgruppe sinnvoll sind. Formuliere sie so, wie Kinder dieser Altersgruppe tatsächlich sprechen würden, mit typischen Variationen und Kindersprachphänomenen. 2. TECHNISCHE ANFORDERUNGEN: Welche Hardware-Mindestanforderungen (Prozessor, RAM, Flash) ergeben sich aus dem Intent-Katalog? Welcher SDK-Ansatz (Picovoice, SpeechBrain) passt besser? 3. DSGVO-BEWERTUNG: Welche personenbezogenen Daten werden verarbeitet? Welche DSGVO-Anforderungen gelten für diese Altersgruppe und diesen Spielzeugtyp? 4. RISIKEN: Welche spezifischen Risiken (Datenschutz, Haftung, Erkennungsrate) sind für dieses Produkt am kritischsten? 5. NÄCHSTE SCHRITTE: Was sind die drei wichtigsten Entscheidungen, die ich in den nächsten 30 Tagen treffen muss?

Funktioniert mit ChatGPT, Claude, Gemini

Beispiel-Ausgabe

Mitarbeiter:in

Spielzeug-Typ: Interaktives Plüschtier (Elefant) Zielgruppe: 3–5 Jahre Geplante Produktion: 80.000 Stück/Jahr Verkaufspreis: 49,99 Euro Internetverbindung: Nein (on-device gewünscht)

KI-Assistent

INTENT-KATALOG (Auswahl): • "Hey Elfi, sing ein Lied" → Intent: play_song • "Ich will eine Geschichte" / "Schichte bitte" / "Erzähl mir was" → Intent: tell_story • "Wie viel ist [Zahl] plus [Zahl]" → Intent: math_quiz (Altersgruppe: eher 5-Jährige) • "Welche Farbe ist das?" → Intent: color_game • "Ich bin müde" → Intent: goodnight_mode • Tipp: Variationen für Lispeln modellieren ("Liyed" für "Lied", "Sichte" für "Geschichte") TECHNISCHE ANFORDERUNGEN: Mit 10 Intents und vorproduziertem Antwort-Audio ist ARM Cortex-M4 mit 256 KB RAM ausreichend. Empfehlung: STM32F4-Familie. SDK: Picovoice Rhino für Intent-Klassifikation (kein vollständiges STT nötig, effizienter bei 10 Befehlen). DSGVO-BEWERTUNG: Bei vollständig on-device: Keine personenbezogenen Daten verlassen das Gerät → kein AVV, keine DSFA für Audioübertragung nötig. Aber: Falls OTA-Updates geplant sind, muss der Update-Kanal bewertet werden. Elterliche Einwilligung für Datenschutzerklärung auf Verpackung dennoch empfehlenswert. RISIKEN: #1 Erkennungsrate bei 3-Jährigen (Lispeln, leise Stimme), zwei Kindertestgruppen einplanen #2 Haftung bei unerwarteten Fehlantworten, offenes LLM ausschließen, nur vorproduziertes Audio NÄCHSTE SCHRITTE: 1. Embedded-Entwickler oder Dienstleister für Firmware und ML-Portierung identifizieren 2. Picovoice Evaluation-SDK herunterladen und Prototyp auf Dev-Board testen 3. Datenbeschaffungsstrategie für Kindersprachdaten klären (MyST-Lizenz oder eigene Aufnahmen)

Quellen & Methodik

Fehlerrate Standard-ASR bei Kindersprache (40–70 %): Veröffentlichte Forschung der CMU (My Science Tutor Project), Picovoice-Dokumentation und Vergleichsstudien zu kindersprachlicher ASR (Stand 2023/2024). Werte variieren stark je nach Altersgruppe, Aufnahmebedingung und Trainingsdatensatz.
Codi-Datenleck (Pillar Learning, 2024): Berichtet von Malwarebytes Blog, WebProNews und NBC News (Erstberichterstattung 2024). Zitat Security-Forscher Troy Hunt: „When something stores voice data from kids and doesn’t authenticate its cloud connection, that’s not an oversight. That’s a systemic failure.” Quellen: malwarebytes.com/blog, webpronews.com.
Curio Grok / FoloToy / Miko Sicherheitsvorfälle: Dokumentiert bei Brookings Institution („What happens when the toy talks back?”, 2024), AI Plus Info (aiplusinfo.com) und NBC News (Senatsanhörung 2026).
EU AI Act Hochrisiko-Klassifikation Spielzeug: EUR-Lex Spielzeugrichtlinie (2009/48/EG), EU AI Act Artikel 6 und Anhang II, Digital Strategy EU (digital-strategy.ec.europa.eu). Anforderungen für AI-in-Produkten gelten ab August 2028.
Cyber Resilience Act, vernetzte Spielzeuge als Klasse-I-Kritisch: EU-Verordnung (EU) 2024/2847, Artikel 7 und Anhang I.
DSGVO Artikel 8 (Kindereinwilligung): dsgvo-gesetz.de/art-8-dsgvo/, Dr. Datenschutz (dr-datenschutz.de, 2024).
Picovoice Preise: picovoice.ai/pricing/ (Stand Mai 2026). Enterprise-IoT-Pricing auf Anfrage, Foundation-Plan ca. 250 USD/Monat nach Startup-Rabatt.
Entwicklungskostenschätzung 80.000–200.000 Euro: Eigene Schätzung basierend auf veröffentlichten AI-Entwicklungskosten-Guides (innowise.com, appleute.de) und Embedded-ML-Projektkosten für IoT-Produktentwicklung. Keine repräsentative Studie, Richtwert für KMU mit teilweiser externer Dienstleistung.
MyST-Datensatz (CMU My Science Tutor): Open-Access-Forschungsdatensatz mit Kindersprachaufnahmen aus Schulkontext. Für kommerzielle Nutzung Lizenz prüfen (Universität: cmu.edu).
PF-STAR-Datensatz (Universität Erlangen): Europäischer Kindersprachdatensatz aus gemeinsamen Forschungsprojekt, veröffentlicht für Forschungszwecke.

Du willst einschätzen, ob die On-Device-Sprachsteuerung für dein spezifisches Produkt und Produktionsvolumen wirtschaftlich darstellbar ist? Meld dich, das klären wir gemeinsam in einem kurzen Gespräch.

Diesen Inhalt teilen:

LinkedIn X / Twitter E-Mail WhatsApp

🤝

Du weißt jetzt, was möglich ist. Fehlt noch die Umsetzung?

Viele, die diesen Use Case lesen, versuchen es danach allein. Das kostet Wochen: Datenschutzfragen, Toolauswahl, Prompt-Engineering, interne Überzeugungsarbeit. Wir kennen diese Stolperstellen, weil wir das Setup schon gebaut haben. Schreib uns kurz, das Erstgespräch ist kostenlos und unverbindlich.

Alle KI-Tools für Spielwaren & Spiele vergleichen

Weitere Use Cases

KI-gestützte CE-Dokumentation: Technische Unterlagen schneller erstellen

Technische Dokumentation nach Spielzeugrichtlinie 2009/48/EG kostet Wochen, KI erstellt Konformitätsunterlagen, Risikobeurteilungen und Warnhinweise aus vorhandenen Produktdaten in Stunden statt Tagen.

Mehr erfahren

Trendanalyse und Sortimentsplanung: Weihnachtsgeschäft nicht mehr dem Bauchgefühl überlassen

45 Prozent des Jahresumsatzes im Spielwarenhandel fallen in sechs Wochen. KI-gestütztes Social Listening und Demand Forecasting helfen, das richtige Sortiment rechtzeitig einzukaufen, bevor der Trend im Handel angekommen ist.

Mehr erfahren

KI im Kundenservice: Produktfragen, Altersempfehlungen und Sicherheitsfragen automatisch beantworten

Spielzeugkäufer stellen spezifische Fragen: Ist das Spielzeug sicher für 2-Jährige? Passt das Erweiterungsset zur alten Version? Was tun wenn Teile fehlen? Ein KI-gestützter Chatbot beantwortet 60–70 Prozent dieser Anfragen sofort, rund um die Uhr.

Mehr erfahren

Zurück zu Spielwaren & Spiele

Frieda Funke

Konzeptentwicklerin

Ich frage nicht, was KI kann. Ich frage, was du in deinem Alltag damit anfängst. Erst wenn ich eine ehrliche Antwort habe, entsteht daraus ein konkreter Use Case. Fehlt ein Anwendungsfall, der zu dir passt? Schreib mir kurz.

Fehlt dein Anwendungsfall? Mehr über das Team

Kindgerechte Spracherkennung: KI versteht Lispeln und Fantasiewoerter

Das echte Ausmaß des Problems

Mit vs. ohne KI, ein ehrlicher Vergleich

Einschätzung auf einen Blick

Was ein kindersprachoptimiertes System konkret macht

Die vier Komponenten des on-device Stacks

Was das bedeutet ohne die Fachsprache

Was ihr hardware-seitig braucht

Konkrete Werkzeuge, was wann passt

Rechtliche Besonderheiten und Haftungsrisiken

Datenschutz und Datenhaltung

Solche Praxis-Analysen, regelmäßig in deinem Postfach

Was es kostet, realistisch gerechnet

Drei typische Einstiegsfehler

Was mit der Einführung wirklich passiert, und was nicht

Realistischer Zeitplan mit Risikohinweisen

Häufige Einwände, und was dahintersteckt

Woran du merkst, dass das zu dir passt

Das kannst du heute noch tun

Quellen & Methodik

Du weißt jetzt, was möglich ist. Fehlt noch die Umsetzung?

Weitere Use Cases

KI-gestützte CE-Dokumentation: Technische Unterlagen schneller erstellen

Trendanalyse und Sortimentsplanung: Weihnachtsgeschäft nicht mehr dem Bauchgefühl überlassen

KI im Kundenservice: Produktfragen, Altersempfehlungen und Sicherheitsfragen automatisch beantworten

Bleib auf dem neuesten Stand der KI

Bleib auf dem neuesten
Stand der KI