In einer Studie von Robbins et al. am Brigham and Women’s Hospital der Harvard Medical School (Sensors, Oktober 2024) verglichen Forscher 35 Probanden gegen den Polysomnographie-Goldstandard im Schlaflabor. Bei der Vier-Phasen-Schlafklassifikation lag die Apple Watch in der Tiefschlaf-Sensitivität bei 50,5 Prozent. Das ist die Trefferquote, mit der ein Münzwurf entscheidet, ob du gerade in Tiefschlaf warst oder nicht. Oura kam auf 79 Prozent Übereinstimmung (Cohen’s Kappa 0,65), Apple Watch auf Kappa 0,60, Fitbit auf 0,55. Die Studie wurde teilweise von Oura mitfinanziert, also nehmen wir die für Oura günstige Zahl im Zweifel ernster, nicht weniger ernst.
Halt diese Zahl im Kopf, während dein Wearable dir morgen früh einen Schlaf-Score von 73 zeigt und dazu eine Empfehlung, früher ins Bett zu gehen.
Das Messgerät ist gut. Der Coach existiert nicht.
Die Branche verkauft seit zwei Jahren eine Geschichte: Mehr Sensoren plus on-device KI ergeben den ersten echten Gesundheitscoach am Handgelenk. Samsung hat im April 2025 angekündigt, dass Gemini auf der Galaxy Watch (ab Wear OS 4) Kalendereinträge zusammenfasst, E-Mails vorliest und Fragen beantwortet. Samsung bewirbt die Galaxy Watch 7 offiziell als “persönlichen Gesundheitscoach”: ein LLM, das Sensordaten als Kontext bekommt und daraus Empfehlungen formuliert. Apple liegt laut Analystenberichten bei der On-Wrist-AI hinter Samsung; die Watch Series 12 wird im September 2026 erwartet, mit ähnlichen Funktionen.
Was du dort bekommst, ist kein Coach. Es ist ein Chatbot mit Zugriff auf deine PPG-Kurve, deine Schritte und deine Herzfrequenzvariabilität. Das ist ein riesiger Unterschied, und er erklärt, warum du nach 18 Monaten Tracking immer noch keine echten Entscheidungen aus deinem Device bekommst.
Ein Coach trifft Aussagen über Ursachen. “Schlaf länger, dann sinkt dein Cortisol.” Ein Chatbot trifft Aussagen über Korrelationen, die hübsch in Sätze verpackt sind. “Dein Schlaf-Score war diese Woche niedriger, das könnte Stress sein.” Das eine ist eine Empfehlung, die hält. Das andere ist ein Vorhersage-Feed.
Warum aus PPG-Daten keine Medizin wird
Photoplethysmographie misst die Lichtreflexion an deiner Haut. Daraus leitet die Watch Pulswelle, Herzfrequenz, Sauerstoffsättigung und ein paar andere Größen ab. Was sie nicht misst: deinen Hormonstatus, deine Glukose-Reaktion, deine Schlafarchitektur in der Auflösung, die ein Schlaflabor liefert, deine kausalen Zusammenhänge zwischen Verhalten und Outcome.
Ein LLM, das auf diesen Daten sitzt, kann Korrelationen erkennen und sprachlich glätten. Es kann nicht entscheiden, ob deine schlechten REM-Werte am späten Wein liegen oder am Streit mit der Schwiegermutter oder an einem beginnenden Infekt. Diese Frage ist eine kausale Frage. Sie braucht ein Modell der Welt, das aus Beobachtungsdaten allein nicht entstehen kann. Judea Pearls Arbeit zur Causal Hierarchy ist hier kein akademisches Detail, sondern der Grund, warum Wearable-Insights bisher beim “interessant, aber nicht handlungsleitend” bleiben.
Das ist auch der Grund, warum Apple beim einzigen Feature, das medizinisch zählt, einen anderen Weg gegangen ist.
Das Apple-Watch-Beispiel zeigt, wie weit der Weg wirklich ist
Die AFib-Erkennung der Apple Watch ist der Goldstandard für medizinische Wearable-Funktionen. FDA De Novo Zulassung am 12. September 2018, Marktstart neun Tage später mit der Series 4. Die Stanford Apple Heart Study (Perez et al., NEJM 2019) hatte 419.297 Teilnehmer und kam bei simultan getragenem ECG-Patch auf einen positiv prädiktiven Wert von 84 Prozent. 2026 zeigte ein randomisierter Trial im Journal of the American College of Cardiology mit 437 Personen über 65, dass die Watch-Gruppe signifikant mehr neue AFib-Fälle entdeckte als die Kontrollgruppe. Echter medizinischer Nutzen, peer-reviewed.
Und was tut die Watch, wenn sie AFib erkennt? Sie zeigt eine Empfehlung an, einen Arzt aufzusuchen.
Das ist die ehrlichste Funktion in der gesamten Wearable-Welt. Sieben Jahre FDA-Prozess, hunderttausende Studienteilnehmer, eine validierte Zulassung als Klasse-II-Medizinprodukt, und das Ergebnis ist ein binäres Screening-Signal mit der Aufforderung “Geh zum Arzt.” Kein Coaching, keine Diagnose, keine Therapieempfehlung. Ein Hinweis.
Sleep-Coaching, Stressmanagement und Ernährungstipps auf Basis von PPG-Daten haben weder die FDA-Zulassung noch die klinische Validierung noch die Kausalität. Und sie versprechen trotzdem mehr als die einzige Funktion, die alles davon hat. Das sollte dir zu denken geben.
Orthosomnia: Wenn der Score dich kränker macht als schlechter Schlaf
2017 prägten Baron, Abbott, Jao, Manalo und Mullen im Journal of Clinical Sleep Medicine den Begriff Orthosomnia. Definition: Schlafstörungen, die dadurch entstehen, dass Patienten ihre Wearable-Schlafdaten zwanghaft beobachten und versuchen, ihren Score zu optimieren. Der Schlafmediziner empfiehlt eine Maßnahme; der Patient widerspricht, weil seine Watch etwas anderes anzeigt; die kognitive Verhaltenstherapie für Insomnie scheitert, weil das Tracking-Gerät die Realität der Person geworden ist.
Acht Jahre später ist das Phänomen groß genug, dass es 2025 ein eigenes klinisches Messinstrument bekommen hat. Die Bergen Orthosomnia Scale (BOS) wurde in Frontiers in Sleep validiert. Wenn ein Verhaltensmuster eine validierte Skala bekommt, ist es kein Randphänomen mehr. Es ist Teil der Sprechstunde.
Das Pikante: Wearables erzeugen Schlafstörungen bei Sensoren, die Tiefschlaf nur mit der Genauigkeit eines Münzwurfs erkennen. Du optimierst gegen einen Wert, der in fast der Hälfte der Fälle schlicht falsch ist, und entwickelst dabei eine Angststörung. Das ist die Bilanz, bevor irgendein KI-Coach hinzukommt.
Ein LLM, das deine Daten kommentiert, ändert daran nichts. Es macht das Gefühl wahrscheinlich schlimmer, weil die Empfehlung jetzt menschlicher klingt und sich autoritativer anfühlt. Ein Chatbot, der dir sagt “Dein Tiefschlaf war heute Nacht zu kurz, versuch heute eine Stunde früher ins Bett zu gehen”, liegt in der Hälfte der Fälle schon bei der Ausgangsdiagnose daneben.
Wozu das Ding dann taugt
Das alles ist kein Argument gegen Wearables. Es ist ein Argument gegen die Erzählung, mit der sie 2026 verkauft werden. Drei Dinge können sie wirklich:
Trends sichtbar machen: Wenn deine Ruheherzfrequenz drei Wochen lang zehn Schläge höher ist als sonst, ist das ein Signal, das in keinem Hausarztgespräch vorkäme. Binäres Screening liefern, das FDA-validiert ist: AFib, Stürze bei älteren Personen, sehr niedrige Sauerstoffwerte. Und dich an Verhaltensänderungen erinnern, die du selbst beschlossen hast. Nicht solche, die ein Algorithmus für dich optimiert.
Kausale medizinische Entscheidungen aus reinen Beobachtungsdaten — das können sie nicht. Coachen im Sinne eines erfahrenen Trainers, der weiß, wann eine Pause besser ist als ein Härteblock — auch nicht. Diagnostizieren schon gar nicht. Und daran ändert auch Gemini oder Apple Intelligence am Handgelenk nichts.
Was du als Nutzer daraus machst, ist eine Frage der Erwartungshaltung. Lies die Schlaf-Scores als groben Trend, nicht als Note. Lies die KI-Insights als Konversationsstarter, nicht als Empfehlung. Und wenn du AFib-Hinweise bekommst, geh zum Arzt. Genau das, was die Watch dir empfiehlt, und genau das, wofür sie validiert ist.
Wenn du Einordnungen wie diese regelmäßig willst, also was eine Studie wirklich aussagt und was Marketing daraus macht, gibt’s den KI-Syndikat-Newsletter einmal pro Woche.