On-Device-Spracherkennungsplattform für eingebettete Geräte (IoT, Mikrofone, ARM Cortex-M). Läuft vollständig ohne Cloud-Verbindung — alle Audiodaten bleiben auf dem Gerät. Enthält Wake-Word-Erkennung (Porcupine), Streaming-STT (Cheetah), Batch-STT (Leopard), Intent-Klassifikation (Rhino) und LLM-Inference. Modelle unter 20 MB, geeignet für ressourcenbeschränkte Embedded-Hardware.
Kosten: Evaluation kostenlos (bis 100 Std./Monat Leopard STT); Foundation ca. 250 USD/Monat (75 % Startup-Rabatt); Enterprise ab ca. 6.000 USD/Jahr — produktionsfähige IoT-Lizenzen auf Anfrage
Stärken
- Vollständig on-device — kein Audio verlässt das Gerät, kein Cloud-Backend nötig
- Modelle unter 20 MB — läuft auf ARM Cortex-M4/M7 und vergleichbarer Embedded-Hardware
- Integrierter Stack: Wake Word + STT + Intent-Klassifikation in einem SDK
- Unterstützt Deutsch, Englisch, Französisch und 7 weitere Sprachen
- Privacy-by-Design: kein AVV nötig, da keine Daten übertragen werden
Einschränkungen
- Kein spezialisiertes Kindersprache-Modell — Genauigkeit bei Lispeln/Fantasiewörtern begrenzt
- Produktionslizenz für IoT-Deployments ist teuer (ab ~6.000 USD/Jahr, Enterprise auf Anfrage)
- Erfordert Embedded-Firmware-Entwicklung — kein SDK für Nicht-Entwickler
- Offline-only: keine Fallback-Cloud-Option bei komplexen Anfragen
- Custom Wake-Words und Modelle erfordern Picovoice-Unterstützung (kostenpflichtig)
Passt gut zu
So steigst du ein
Schritt 1: Erstelle ein kostenloses Entwicklerkonto auf picovoice.ai und lade das Picovoice SDK für deine Zielplattform herunter (Python für erste Tests empfohlen). Starte mit der Porcupine Wake-Word-Engine — damit kannst du in wenigen Stunden ein „Hey Spielzeug”-Kommando auf deinem Entwicklungsrechner testen, ohne Hardware zu brauchen.
Schritt 2: Teste Rhino (Speech-to-Intent) mit einem einfachen Befehlssatz für dein Spielzeugkonzept (z.B. „Sing ein Lied”, „Erzähl mir eine Geschichte”). Rhino klassifiziert Sprachbefehle direkt in strukturierte Intents — ohne volles STT, was auf ressourcenbeschränkten Microcontrollern entscheidend ist.
Schritt 3: Kontaktiere für die Produktionslizenz (IoT-Deployment) direkt das Picovoice-Sales-Team. Kläre dabei: Stückzahl-basierte Lizenzstruktur, Unterstützung für Custom Wake Words und ob Picovoice-Training auf kindersprachlichen Datensätzen möglich ist (derzeit kein Standard-Offering, aber auf Anfrage prüfbar).
Ein konkretes Beispiel
Ein süddeutscher Spielzeughersteller integriert Picovoice Porcupine als Wake-Word-Engine und Rhino als Intent-Klassifikator in ein interaktives Lernspielzeug für 4- bis 6-Jährige. Das Spielzeug reagiert auf „Hey Lumi” und versteht 18 kindgerechte Befehle (Zahlen-Quiz, Lied, Geschichte, Farbe des Tages). Weil alle Sprachverarbeitung on-device auf einem STM32H7 Microcontroller läuft, werden keine Audiodaten übertragen — eine DSGVO-Datenschutz-Folgenabschätzung erübrigt sich für diese Verarbeitungsstufe. Die Erkennungsrate bei Kindern zwischen 4 und 6 Jahren liegt nach Feinabstimmung der Phonem-Toleranzen bei ca. 78–85 % — ausreichend für einfache Befehle, aber unter der Leistung bei Erwachsenensprache.
Diesen Inhalt teilen:
Empfohlen in 1 Use Cases
Spielwaren & Spiele
Redaktionell bewertet · Preise und Funktionen können sich ändern.
Stimmt etwas nicht?
Preise geändert, Feature veraltet oder etwas fehlt? Wir freuen uns über Hinweise und Ergänzungen.
Nicht sicher, ob Picovoice zu euch passt?
Wir helfen bei der Tool-Auswahl und begleiten die Einführung in euren Arbeitsalltag — unverbindlich und kostenlos im Erstgespräch.
Weitere Tools
Amberscript
Amberscript Global B.V.
EU-zertifizierter Transkriptionsdienst mit Sitz in Amsterdam. ISO 27001 und 9001 zertifiziert, Daten ausschließlich auf europäischen Servern. Bietet automatische KI-Transkription (90 %+ Genauigkeit) und professionelle Nachkorrektur (99 %+ Genauigkeit) für über 100 Sprachen — die DSGVO-konformste kommerzielle Transkriptionsoption für deutschsprachige HR-Interviews, Forschung und Mediendienste.
Mehr erfahrenAudioPen
AudioPen
AudioPen nimmt Sprachnotizen auf und verwandelt sie automatisch in strukturierten Text — E-Mail, Stichpunkte, Bericht oder eigenes Format. Ein-Personen-Produkt von Louis Pereira mit Whisper- und GPT-Backend, mehrsprachig (auch Deutsch), Einmalzahlung statt Abo. Stark für Solo-Anwender, mit klaren Grenzen für Unternehmenseinsatz (US-Hosting, kein AVV, 15-Minuten-Cap).
Mehr erfahrenDeepgram
Deepgram Inc.
Deepgram ist eine Sprach-KI-[API](/glossar/#api) für Unternehmen, die Transkription, Sprechertrennung, Text-to-Speech und Echtzeit-Voice-Agents in eigene Anwendungen einbauen wollen. Das Flaggschiff Nova-3 liefert Transkripte in unter 300 ms, Industry-Tuned-Varianten für Healthcare, Legal und Finance sind verfügbar. EU-Endpoint und Self-Hosted-Deployment für strikte DSGVO-Anforderungen sind buchbar. Kunden reichen von Spotify und NASA bis zu mittelständischen Voice-AI-Startups.
Mehr erfahren