ki-tools wearables gesundheit ki-gesellschaft Business

Dein Wearable misst alles und entscheidet nichts. Daran ändert auch der KI-Coach am Handgelenk wenig.

Eine Harvard-Studie aus Oktober 2024 fand: Apple Watch erkennt Tiefschlaf nur in 50,5 Prozent der Fälle. Trotzdem rollen Samsung und Apple 2026 KI-Coaches auf der Watch aus. Warum aus Korrelationsdaten kein medizinischer Coach wird, sondern nur ein besserer Chatbot.

Prof. Dr. Daniel Sonnet Gründer von KI-Syndikat, Professor an der Hochschule Fresenius · 18. Mai 2026 · 6 Min. Lesezeit

Dein Wearable misst alles und entscheidet nichts. Daran ändert auch der KI-Coach am Handgelenk wenig.

In einer Studie von Robbins et al. am Brigham and Women’s Hospital der Harvard Medical School (Sensors, Oktober 2024) verglichen Forscher 35 Probanden gegen den Polysomnographie-Goldstandard im Schlaflabor. Bei der Vier-Phasen-Schlafklassifikation lag die Apple Watch in der Tiefschlaf-Sensitivität bei 50,5 Prozent. Das ist die Trefferquote, mit der ein Münzwurf entscheidet, ob du gerade in Tiefschlaf warst oder nicht. Oura kam auf 79 Prozent Übereinstimmung (Cohen’s Kappa 0,65), Apple Watch auf Kappa 0,60, Fitbit auf 0,55. Die Studie wurde teilweise von Oura mitfinanziert, also nehmen wir die für Oura günstige Zahl im Zweifel ernster, nicht weniger ernst.

Halt diese Zahl im Kopf, während dein Wearable dir morgen früh einen Schlaf-Score von 73 zeigt und dazu eine Empfehlung, früher ins Bett zu gehen.

Das Messgerät ist gut. Der Coach existiert nicht.

Die Branche verkauft seit zwei Jahren eine Geschichte: Mehr Sensoren plus on-device KI ergeben den ersten echten Gesundheitscoach am Handgelenk. Samsung hat im April 2025 angekündigt, dass Gemini auf der Galaxy Watch (ab Wear OS 4) Kalendereinträge zusammenfasst, E-Mails vorliest und Fragen beantwortet. Samsung bewirbt die Galaxy Watch 7 offiziell als “persönlichen Gesundheitscoach”: ein LLM, das Sensordaten als Kontext bekommt und daraus Empfehlungen formuliert. Apple liegt laut Analystenberichten bei der On-Wrist-AI hinter Samsung; die Watch Series 12 wird im September 2026 erwartet, mit ähnlichen Funktionen.

Was du dort bekommst, ist kein Coach. Es ist ein Chatbot mit Zugriff auf deine PPG-Kurve, deine Schritte und deine Herzfrequenzvariabilität. Welches Modell dahinter steckt, ändert daran wenig: Auch im aktuellen Vergleich von GPT, Gemini und Claude bleibt ein Sprachmodell ein Mustererkenner, kein Diagnostiker. Das ist ein riesiger Unterschied, und er erklärt, warum du nach 18 Monaten Tracking immer noch keine echten Entscheidungen aus deinem Device bekommst.

Ein Coach trifft Aussagen über Ursachen. “Schlaf länger, dann sinkt dein Cortisol.” Ein Chatbot trifft Aussagen über Korrelationen, die hübsch in Sätze verpackt sind. “Dein Schlaf-Score war diese Woche niedriger, das könnte Stress sein.” Das eine ist eine Empfehlung, die hält. Das andere ist ein Vorhersage-Feed.

Warum aus PPG-Daten keine Medizin wird

Photoplethysmographie misst die Lichtreflexion an deiner Haut. Daraus leitet die Watch Pulswelle, Herzfrequenz, Sauerstoffsättigung und ein paar andere Größen ab. Was sie nicht misst: deinen Hormonstatus, deine Glukose-Reaktion, deine Schlafarchitektur in der Auflösung, die ein Schlaflabor liefert, deine kausalen Zusammenhänge zwischen Verhalten und Outcome.

Ein LLM, das auf diesen Daten sitzt, kann Korrelationen erkennen und sprachlich glätten. Es kann nicht entscheiden, ob deine schlechten REM-Werte am späten Wein liegen oder am Streit mit der Schwiegermutter oder an einem beginnenden Infekt. Diese Frage ist eine kausale Frage. Sie braucht ein Modell der Welt, das aus Beobachtungsdaten allein nicht entstehen kann. Judea Pearls Arbeit zur Causal Hierarchy ist hier kein akademisches Detail, sondern der Grund, warum Wearable-Insights bisher beim “interessant, aber nicht handlungsleitend” bleiben.

Das ist auch der Grund, warum Apple beim einzigen Feature, das medizinisch zählt, einen anderen Weg gegangen ist.

Das Apple-Watch-Beispiel zeigt, wie weit der Weg wirklich ist

Die AFib-Erkennung der Apple Watch ist der Goldstandard für medizinische Wearable-Funktionen. FDA De Novo Zulassung am 12. September 2018, Marktstart neun Tage später mit der Series 4. Die Stanford Apple Heart Study (Perez et al., NEJM 2019) hatte 419.297 Teilnehmer und kam bei simultan getragenem ECG-Patch auf einen positiv prädiktiven Wert von 84 Prozent. 2026 zeigte ein randomisierter Trial im Journal of the American College of Cardiology mit 437 Personen über 65, dass die Watch-Gruppe signifikant mehr neue AFib-Fälle entdeckte als die Kontrollgruppe. Echter medizinischer Nutzen, peer-reviewed.

Und was tut die Watch, wenn sie AFib erkennt? Sie zeigt eine Empfehlung an, einen Arzt aufzusuchen.

Das ist die ehrlichste Funktion in der gesamten Wearable-Welt. Sieben Jahre FDA-Prozess, hunderttausende Studienteilnehmer, eine validierte Zulassung als Klasse-II-Medizinprodukt, und das Ergebnis ist ein binäres Screening-Signal mit der Aufforderung “Geh zum Arzt.” Kein Coaching, keine Diagnose, keine Therapieempfehlung. Ein Hinweis.

Sleep-Coaching, Stressmanagement und Ernährungstipps auf Basis von PPG-Daten haben weder die FDA-Zulassung noch die klinische Validierung noch die Kausalität. Und sie versprechen trotzdem mehr als die einzige Funktion, die alles davon hat. Das sollte dir zu denken geben.

Orthosomnia: Wenn der Score dich kränker macht als schlechter Schlaf

2017 prägten Baron, Abbott, Jao, Manalo und Mullen im Journal of Clinical Sleep Medicine den Begriff Orthosomnia. Definition: Schlafstörungen, die dadurch entstehen, dass Patienten ihre Wearable-Schlafdaten zwanghaft beobachten und versuchen, ihren Score zu optimieren. Der Schlafmediziner empfiehlt eine Maßnahme; der Patient widerspricht, weil seine Watch etwas anderes anzeigt; die kognitive Verhaltenstherapie für Insomnie scheitert, weil das Tracking-Gerät die Realität der Person geworden ist.

Acht Jahre später ist das Phänomen groß genug, dass es 2025 ein eigenes klinisches Messinstrument bekommen hat. Die Bergen Orthosomnia Scale (BOS) wurde in Frontiers in Sleep validiert. Wenn ein Verhaltensmuster eine validierte Skala bekommt, ist es kein Randphänomen mehr. Es ist Teil der Sprechstunde.

Das Pikante: Wearables erzeugen Schlafstörungen bei Sensoren, die Tiefschlaf nur mit der Genauigkeit eines Münzwurfs erkennen. Du optimierst gegen einen Wert, der in fast der Hälfte der Fälle schlicht falsch ist, und entwickelst dabei eine Angststörung. Das ist die Bilanz, bevor irgendein KI-Coach hinzukommt.

Ein LLM, das deine Daten kommentiert, ändert daran nichts. Es macht das Gefühl wahrscheinlich schlimmer, weil die Empfehlung jetzt menschlicher klingt und sich autoritativer anfühlt. Ein Chatbot, der dir sagt “Dein Tiefschlaf war heute Nacht zu kurz, versuch heute eine Stunde früher ins Bett zu gehen”, liegt in der Hälfte der Fälle schon bei der Ausgangsdiagnose daneben.

Wozu das Ding dann taugt

Das alles ist kein Argument gegen Wearables. Es ist ein Argument gegen die Erzählung, mit der sie 2026 verkauft werden. Drei Dinge können sie wirklich:

Trends sichtbar machen: Wenn deine Ruheherzfrequenz drei Wochen lang zehn Schläge höher ist als sonst, ist das ein Signal, das in keinem Hausarztgespräch vorkäme. Binäres Screening liefern, das FDA-validiert ist: AFib, Stürze bei älteren Personen, sehr niedrige Sauerstoffwerte. Und dich an Verhaltensänderungen erinnern, die du selbst beschlossen hast. Nicht solche, die ein Algorithmus für dich optimiert.

Kausale medizinische Entscheidungen aus reinen Beobachtungsdaten, das können sie nicht. Coachen im Sinne eines erfahrenen Trainers, der weiß, wann eine Pause besser ist als ein Härteblock, auch nicht. Diagnostizieren schon gar nicht. Und daran ändert auch Gemini oder Apple Intelligence am Handgelenk nichts.

Was du als Nutzer daraus machst, ist eine Frage der Erwartungshaltung. Lies die Schlaf-Scores als groben Trend, nicht als Note. Lies die KI-Insights als Konversationsstarter, nicht als Empfehlung. Wer echten Nutzen aus KI ziehen will, ist mit den besten KI-Tools 2026 am Schreibtisch oft besser bedient als mit dem Coach am Handgelenk. Und wenn du AFib-Hinweise bekommst, geh zum Arzt. Genau das, was die Watch dir empfiehlt, und genau das, wofür sie validiert ist.

Wenn du Einordnungen wie diese regelmäßig willst, also was eine Studie wirklich aussagt und was Marketing daraus macht, gibt’s den KI-Syndikat-Newsletter einmal pro Woche.

Mehr KI-Wissen

KI-Wochenbriefing: jeden Freitag KI-News, Praxistipps und Tools

Kostenlos abonnieren, jederzeit abmeldbar, kein Spam.

Newsletter abonnieren

Weiterführende Links

KI-Glossar KI-Quiz machen Lernpfade entdecken

Diesen Artikel teilen:

LinkedIn X / Twitter E-Mail WhatsApp

Autor und Redaktion

Prof. Dr. Daniel Sonnet

Gründer von KI-Syndikat, Professor an der Hochschule Fresenius

Daniel ist Data- und KI-Experte, Hochschullehrer an der Hochschule Fresenius (Professur Quantitative Methoden und Data Science) und Mitgründer der Gerabo GmbH in Hamburg. Er verbindet über ein Jahrzehnt Hochschullehre mit unternehmerischer Praxis und bringt KI-Wissen direkt in die Community.

Zum Profil

Freddie Feder

KI-Assistent und Lektor

Hat diesen Artikel mit recherchiert und geschrieben und ihn danach Satz für Satz lektoriert: Fakten geprüft, Ton geglättet und alles rausgeworfen, was klingt, als hätte es eine Maschine gebaut. Die inhaltliche Verantwortung liegt bei den menschlichen Autoren.

Mehr über unser Team

Das könnte dich auch interessieren

Auch auf Deutsch denkt deine KI auf Englisch, und das kostet dich Geld

Auf OpenAIs MMMLU-Benchmark trennt GPT-4o auf Deutsch und Englisch eine Lücke von 5,1 Prozentpunkten. Hinzu kommt ein Token-Aufschlag von 50 Prozent. Warum dein deutscher Prompt eine messbare Englisch-Steuer zahlt.

6 Min. 22. Mai 2026

Gut jedes vierte KI-Tool hat keine KI im Kern. Und schneidet schlechter ab.

Wir haben 1.134 unserer Verzeichnis-Tools daraufhin eingestuft, ob echte KI im Kern steckt. Bei 312 steckt keine, das KI-Label ist reines Marketing. Und genau diese Tools werden in einer von uns unabhängigen Nutzerbewertung messbar schlechter bewertet.

8 Min. 10. Juli 2026

US-KI-Tools sprechen nur zu 17 Prozent Deutsch. Das Hosting-Land verrät es.

In unserem Verzeichnis mit 1.677 Tools sagt das Hosting-Land voraus, ob es deutschsprachigen Support gibt: 94 Prozent bei deutschen, 17 Prozent bei US-Tools. Deshalb ist Hosting keine reine DSGVO-Frage, sondern eine Usability-Entscheidung.

7 Min. 7. Juli 2026

82 Prozent der KI-Zeitgewinne stecken im Papierkram, nicht in der Kernarbeit

Der Fachkräftemangel wird gern als KI-Frage verkauft. Unser Radar über 148 Use Cases zeigt: KI ersetzt keine Pflegekraft und keinen Dachdecker. Von 55 Fällen mit hoher Zeitersparnis sind 45 reine Dokumentations- und Verwaltungsarbeit. Genau da, nicht in der Kernarbeit, sitzt die zurückgewonnene Zeit.

6 Min. 26. Mai 2026

KI rettet das Klima, und verlängert die Laufzeit von Kohlekraftwerken

Rechenzentren ziehen so viel Strom, dass US-Versorger geplante Stilllegungen von Kohleblöcken rückgängig machen. Der CO2-Saldo der KI-Klimalösungen ist heute negativ, nicht positiv.

5 Min. 25. Mai 2026

Claude Code: Der Editor ist nicht mehr der Arbeitsplatz

46% der Entwickler nennen Claude Code als ihr meistgeliebtes KI-Tool, GitHub Copilot kommt auf 9%. Die eigentliche Verschiebung passiert nicht im Ranking, sondern dort, wo Code überhaupt entsteht.

7 Min. 24. Mai 2026

Alle Beiträge

Kommentare

Kommentare werden in Kürze freigeschaltet. Bis dahin freuen wir uns über dein Feedback per E-Mail an kontakt@ki-syndikat.de.