Zum Inhalt springen

Blog

KI-News, Praxistipps und Einblicke direkt aus der Community.

164 Artikel
10 Kategorien
334 Themen

Für KI-Agenten: strukturierter Index unter /blog/suche.json

Dein Wearable misst alles und entscheidet nichts. Daran ändert auch der KI-Coach am Handgelenk wenig.

Dein Wearable misst alles und entscheidet nichts. Daran ändert auch der KI-Coach am Handgelenk wenig.

Eine Harvard-Studie aus Oktober 2024 fand: Apple Watch erkennt Tiefschlaf nur in 50,5 Prozent der Fälle. Trotzdem rollen Samsung und Apple 2026 KI-Coaches auf der Watch aus. Warum aus Korrelationsdaten kein medizinischer Coach wird, sondern nur ein besserer Chatbot.

Daniel Sonnet
6 Min. Lesezeit
Property-Reihenfolge kostet 27 Prozentpunkte Accuracy. Schema-Design ist keine Nebensache.

Property-Reihenfolge kostet 27 Prozentpunkte Accuracy. Schema-Design ist keine Nebensache.

Allein die Reihenfolge der Properties in einem JSON-Schema senkt GPT-3.5-Turbos Accuracy auf GSM8K von 76,60 auf 49,25 Prozent. Constrained Decoding garantiert valide Syntax. Den Rest verbockt das Schema selbst.

Daniel Sonnet
6 Min. Lesezeit
Autoren benutzen KI als Schreibmaschine. Sie sollte Lektor sein.

Autoren benutzen KI als Schreibmaschine. Sie sollte Lektor sein.

Bei einem 80.000-Wort-Roman fällt jedes große Sprachmodell auf der Mittelposition unter 56 Prozent Trefferquote. Wer KI Prosa schreiben lässt, hat den falschen Job vergeben — die richtige Rolle ist eine andere.

Daniel Sonnet
6 Min. Lesezeit
KI in der Verwaltung löst nicht das Effizienzproblem — sie löscht das Ermessen

KI in der Verwaltung löst nicht das Effizienzproblem — sie löscht das Ermessen

Anfang 2025 waren laut IW Köln nur 196 von 575 OZG-Leistungen flächendeckend digital. Die Debatte dreht sich um Tempo, das Kernproblem ist juristisch: KI verschiebt Ermessen in eine Black Box, die § 35a VwVfG eigentlich ausschließt.

Daniel Sonnet
6 Min. Lesezeit
Gemini 3.1 Pro: Stark in Benchmarks, schwach in der Mitte

Gemini 3.1 Pro: Stark in Benchmarks, schwach in der Mitte

Gemini 3.1 Pro erreicht 90,99 Prozent in MMLU-Pro und 80,6 Prozent in SWE-bench Verified. Bei langen Dokumenten verliert das Modell aber 20 bis 50 Prozent Retrieval-Genauigkeit. Was das für die Modellwahl 2026 heißt.

Daniel Sonnet
6 Min. Lesezeit
Function-Calling-Benchmarks messen Genauigkeit. Nicht Zuverlässigkeit.

Function-Calling-Benchmarks messen Genauigkeit. Nicht Zuverlässigkeit.

Auf dem Berkeley Function Calling Leaderboard v4 stagnieren die Top-Modelle bei rund 70 Prozent. OpenAIs Structured Outputs liefern dagegen 100 Prozent Schema-Compliance. Das Delta ist kein Modellproblem, sondern eine Architekturentscheidung.

Daniel Sonnet
6 Min. Lesezeit
Big Tech und Pentagon: Die rote Linie wurde 2024 still überschritten

Big Tech und Pentagon: Die rote Linie wurde 2024 still überschritten

OpenAI hat im Januar 2024 'military and warfare' aus seiner Usage Policy gestrichen. Anthropic-Claude läuft seit November 2024 auf AWS Secret Region (IL6). Wer KI-Militärkooperation als kommende Frage diskutiert, hat die letzten 18 Monate nicht gelesen.

Daniel Sonnet
6 Min. Lesezeit
Perplexity lässt drei KI-Modelle abstimmen. Das schlägt jeden Einzelanbieter.

Perplexity lässt drei KI-Modelle abstimmen. Das schlägt jeden Einzelanbieter.

Seit dem 6. Februar 2026 beantwortet Perplexitys Model Council Anfragen mit Claude, GPT und Gemini parallel. Eine ACL-Studie aus 2025 zeigt: Voting schlägt das beste Einzelmodell auf Reasoning um 13,2 Prozentpunkte. Wer 'welches Modell?' fragt, hat die falsche Frage gewählt.

Daniel Sonnet
5 Min. Lesezeit
MCP ist die neue Angriffsfläche. Die meisten Unternehmen haben sie noch nicht gesichert.

MCP ist die neue Angriffsfläche. Die meisten Unternehmen haben sie noch nicht gesichert.

Invariant Labs hat im April 2025 den offiziellen WhatsApp-MCP-Server über eine indirekte Prompt Injection kompromittiert. Asana folgte im Juni 2025 mit einem Cross-Tenant-Datenleck. Der Trend ist klar, die Verteidigung ist es nicht.

Daniel Sonnet
6 Min. Lesezeit