Dein Wearable misst alles und entscheidet nichts. Daran ändert auch der KI-Coach am Handgelenk wenig.
Eine Harvard-Studie aus Oktober 2024 fand: Apple Watch erkennt Tiefschlaf nur in 50,5 Prozent der Fälle. Trotzdem rollen Samsung und Apple 2026 KI-Coaches auf der Watch aus. Warum aus Korrelationsdaten kein medizinischer Coach wird, sondern nur ein besserer Chatbot.
Property-Reihenfolge kostet 27 Prozentpunkte Accuracy. Schema-Design ist keine Nebensache.
Allein die Reihenfolge der Properties in einem JSON-Schema senkt GPT-3.5-Turbos Accuracy auf GSM8K von 76,60 auf 49,25 Prozent. Constrained Decoding garantiert valide Syntax. Den Rest verbockt das Schema selbst.
Autoren benutzen KI als Schreibmaschine. Sie sollte Lektor sein.
Bei einem 80.000-Wort-Roman fällt jedes große Sprachmodell auf der Mittelposition unter 56 Prozent Trefferquote. Wer KI Prosa schreiben lässt, hat den falschen Job vergeben — die richtige Rolle ist eine andere.
KI in der Verwaltung löst nicht das Effizienzproblem — sie löscht das Ermessen
Anfang 2025 waren laut IW Köln nur 196 von 575 OZG-Leistungen flächendeckend digital. Die Debatte dreht sich um Tempo, das Kernproblem ist juristisch: KI verschiebt Ermessen in eine Black Box, die § 35a VwVfG eigentlich ausschließt.
Gemini 3.1 Pro: Stark in Benchmarks, schwach in der Mitte
Gemini 3.1 Pro erreicht 90,99 Prozent in MMLU-Pro und 80,6 Prozent in SWE-bench Verified. Bei langen Dokumenten verliert das Modell aber 20 bis 50 Prozent Retrieval-Genauigkeit. Was das für die Modellwahl 2026 heißt.
Function-Calling-Benchmarks messen Genauigkeit. Nicht Zuverlässigkeit.
Auf dem Berkeley Function Calling Leaderboard v4 stagnieren die Top-Modelle bei rund 70 Prozent. OpenAIs Structured Outputs liefern dagegen 100 Prozent Schema-Compliance. Das Delta ist kein Modellproblem, sondern eine Architekturentscheidung.
Big Tech und Pentagon: Die rote Linie wurde 2024 still überschritten
OpenAI hat im Januar 2024 'military and warfare' aus seiner Usage Policy gestrichen. Anthropic-Claude läuft seit November 2024 auf AWS Secret Region (IL6). Wer KI-Militärkooperation als kommende Frage diskutiert, hat die letzten 18 Monate nicht gelesen.
Perplexity lässt drei KI-Modelle abstimmen. Das schlägt jeden Einzelanbieter.
Seit dem 6. Februar 2026 beantwortet Perplexitys Model Council Anfragen mit Claude, GPT und Gemini parallel. Eine ACL-Studie aus 2025 zeigt: Voting schlägt das beste Einzelmodell auf Reasoning um 13,2 Prozentpunkte. Wer 'welches Modell?' fragt, hat die falsche Frage gewählt.
MCP ist die neue Angriffsfläche. Die meisten Unternehmen haben sie noch nicht gesichert.
Invariant Labs hat im April 2025 den offiziellen WhatsApp-MCP-Server über eine indirekte Prompt Injection kompromittiert. Asana folgte im Juni 2025 mit einem Cross-Tenant-Datenleck. Der Trend ist klar, die Verteidigung ist es nicht.