Zum Inhalt springen
Kostenlos ⚠️ Hybrid Geprüft: Mai 2026

MediaPipe

Google

4/5
Tool öffnen

Googles Open-Source-Framework für Echtzeit-[Computer Vision](/glossar/#computer-vision) und Pose Estimation. Läuft lokal auf CPU, GPU oder mobilen Geräten — keine Cloud-Abhängigkeit, keine API-Kosten. Standardwerkzeug für Körperhaltungserkennung, Handtracking und Gesichtslandmarken in Forschung und Industrie.

Kosten: Vollständig kostenlos, Open Source (Apache 2.0). Rechenkosten für GPU/CPU-Infrastruktur trägt man selbst.

Stärken

  • Vollständig kostenlos und Open Source (Apache 2.0)
  • Läuft lokal — keine Daten verlassen das System
  • Echtzeit-fähig auf normaler Hardware (CPU reicht für viele Anwendungen)
  • Vortrainierte Modelle für Körperhaltung (33 Landmarks), Hände, Gesicht, Ganzköper
  • Breite Plattformunterstützung: Python, C++, Android, iOS, Web

Einschränkungen

  • Erfordert Python-Entwicklerkenntnisse — kein GUI, kein No-Code-Einstieg
  • Vortrainierte Modelle abdecken Standardposen; sehr spezifische Aktivitäten brauchen eigenes Training
  • Genauigkeit bei Kindern und kleinen Körpern schlechter als bei erwachsenen Referenzposen
  • Kein integriertes Dashboard oder Auswertungsmodul — Datenvisualisierung muss selbst gebaut werden
  • Kein deutschsprachiger Support oder Interface

Passt gut zu

Forschungsprojekte mit Körperhaltungsanalyse und Bewegungserkennung Prototypen für Verhaltensanalyse ohne API-Kosten Datenschutzsensible Umgebungen, in denen Videorohdaten lokal bleiben müssen Integration in bestehende Python-Pipelines für ML-Projekte

So steigst du ein

Schritt 1: MediaPipe über pip installieren: pip install mediapipe. Kein Konto, keine API-Keys, kein Cloud-Setup erforderlich. Alle vortrainierten Modelle werden beim ersten Aufruf automatisch heruntergeladen.

Schritt 2: Mit dem Pose Landmarker beginnen. Die offizielle Dokumentation enthält lauffähige Python-Beispiele für Bilder, Videos und Webcam-Streams. Ein erster Test mit einem eigenen Video dauert rund 30 Minuten.

Schritt 3: Ausgaben in ein CSV oder DataFrame speichern und auf die 33 Körperlandmarken pro Frame auswerten. Für zeitliche Analysen (Bewegungsfrequenz, Körperhaltungsänderungen) braucht man dann Pandas oder NumPy — das ist der Punkt, an dem Entwicklerkenntnisse wirklich gefragt sind.

Ein konkretes Beispiel

Ein deutsches Spielzeugentwicklungsteam analysiert Testvideos von Kindern, die mit einem neuen Konstruktionsspielzeug spielen. MediaPipe extrahiert pro Frame die Körperhaltung der Kinder: Wann lehnen sie sich nach vorne (Zeichen hoher Konzentration)? Wann weichen sie zurück oder wenden den Blick ab (Desinteresse)? Die Pose-Zeitreihe über die 45-minütige Session zeigt deutlich, in welcher Spielphase das Engagement abfiel — Information, die im manuellen Protokoll als “Kind hat kurz aufgehört” vermerkt war, aber ohne Zeitstempel und ohne Kontext.

Diesen Inhalt teilen:

Empfohlen in 1 Use Cases

Redaktionell bewertet · Preise und Funktionen können sich ändern.

Stimmt etwas nicht?

Preise geändert, Feature veraltet oder etwas fehlt? Wir freuen uns über Hinweise und Ergänzungen.

Feedback geben

Nicht sicher, ob MediaPipe zu euch passt?

Wir helfen bei der Tool-Auswahl und begleiten die Einführung in euren Arbeitsalltag — unverbindlich und kostenlos im Erstgespräch.

Erstgespräch anfragen
Kostenloser Newsletter

Bleib auf dem neuesten
Stand der KI

Wähle deine Themen und erhalte relevante KI-News, Praxistipps und exklusive Inhalte direkt in dein Postfach – kein Spam, jederzeit abmeldbar.

Was interessiert dich? Wähle 1–3 Themen — du bekommst nur Inhalte dazu.

Mit der Anmeldung stimmst du unserer Datenschutzerklärung zu. Jederzeit abmeldbar.

Kostenlos
Kein Spam
Jederzeit abmeldbar