Zum Inhalt springen

GitHub Agent HQ: Warum Copilot fremde Agents in VS Code lässt, und damit den Modell-Krieg aufgibt

Mit Agent HQ lässt GitHub Claude, Codex, Cognition und Cursor direkt in VS Code laufen. Das ist kein Feature-Update, sondern das Eingeständnis, dass der einzige verteidigungsfähige Layer nicht das Modell ist, sondern der Orchestrator.

GitHub Agent HQ: Warum Copilot fremde Agents in VS Code lässt, und damit den Modell-Krieg aufgibt

GitHub Copilot ist Marktführer und das am wenigsten geliebte AI-Coding-Tool gleichzeitig. Laut JetBrains AI Pulse Survey vom Januar 2026 nutzen 29 Prozent der Entwickler Copilot am Arbeitsplatz. Aber nur 9 Prozent nennen es ihr “most loved tool”. Bei Claude Code sind es 46 Prozent, bei Cursor 19 Prozent. Wer einen Markt führt und zugleich nur jeden elften Nutzer überzeugt, hat ein Problem, das kein neues Modell mehr löst.

Genau auf diesen Befund antwortet Agent HQ. Seit dem 28. Oktober 2025 dürfen Claude, Codex, Cognition und Cursor direkt in VS Code als gleichberechtigte Agents laufen, auf der Plattform des direkten Konkurrenten. Das ist kein Feature-Update. Das ist das Eingeständnis, dass GitHub den Modell-Krieg verloren hat und nur noch eine Schicht übrig hat, auf der es überhaupt noch gewinnen kann.

Warum kein Tool-Hersteller das freiwillig tut

Standard-Strategie eines Plattform-Anbieters: Eigenes Modell in den Editor einbauen, Wechsel teuer machen, Lock-in über Integration sichern. So funktioniert SaaS seit zwanzig Jahren, und so hat GitHub Copilot seit 2021 funktioniert. Bis jetzt.

Der Stack Overflow Developer Survey 2025 zeigt, warum diese Strategie 2026 nicht mehr trägt: 35 Prozent der professionellen Entwickler nutzen 6 bis 10 verschiedene Tools gleichzeitig. 45 Prozent der erfahrenen Entwickler arbeiten mit Claude Sonnet. Die JetBrains-Daten vom Januar 2026 ergänzen das Bild: Hinter Copilot belegen Cursor und Claude Code mit jeweils 18 Prozent gleichauf den zweiten Platz. Drei verschiedene Anbieter, dieselbe Nutzer-Gruppe, nur verteilt auf parallele Tabs.

Wer als Plattform versucht, seine Nutzer in einem Modell festzuhalten, verliert sie an genau diese Tabs. Die Frage ist nicht mehr “welches Modell überzeugt am Anfang”, sondern “wer kontrolliert den Editor, in dem zwischen den Modellen umgeschaltet wird”. Das ist eine andere Frage. Sie hat eine andere Antwort.

Der Orchestrator ist das letzte Schlachtfeld

Mit Agent HQ definiert GitHub die Spielregeln neu. Eine Datei namens AGENTS.md im Repo-Root legt für jeden eingehenden Agent fest, welche Tools er benutzen darf, welche Aktionen verboten sind und welche Code-Konventionen gelten. Agents erben diese Regeln automatisch beim Klonen des Repos. Das Mission Control im VS Code-UI zeigt parallel laufende Agent-Sessions als eigenständige Branches, die als separate PR-Kandidaten landen und erst nach Code-Owner-Review gemerged werden können.

Die strategische Pointe ist nicht, dass GitHub jetzt mehr Modelle unterstützt. Sie ist, dass GitHub die Regeln definiert, unter denen jedes Modell überhaupt im Repo arbeiten darf. Wer den Standard für Agent-Konfiguration kontrolliert, kontrolliert auch, welche Modelle in einem bestimmten Projekt zugelassen sind, welche Pfade sie sehen, welche Branches sie öffnen dürfen.

AGENTS.md ist ein offener Standard aus dem agents.md GitHub-Repository, den OpenAI initiiert hat. Dass GitHub ihn übernimmt, ist die ehrliche Lesart der Marktlage: Ein proprietäres Format würde niemand außerhalb des GitHub-Ökosystems adoptieren. Ein offener Standard, kontrolliert über die dominierende Repo-Plattform, schon. Das ist der Trade: weniger Modell-Lock-in, mehr Plattform-Lock-in.

Was die ARR-Zahlen unter dem Argument legen

Cursor ist von 500 Millionen Dollar ARR im Juni 2025 auf 2 Milliarden Dollar ARR im Februar 2026 gewachsen. Eine Vervierfachung in acht Monaten. Das ist keine Nische mehr, das ist ein direkter Konkurrent zur GitHub-Copilot-Erlösbasis. Und Cursor verkauft genau das Produkt, das GitHub mit Agent HQ jetzt nachbaut: einen Editor, in dem du das Modell pro Aufgabe wählst.

Thomas Dohmke, ehemaliger GitHub-CEO, hat das Unternehmen im Februar 2026 verlassen und Entire mit 60 Millionen Dollar Seed bei 300 Millionen Dollar Bewertung gegründet. Sein Statement zur Lage: “We are living through an agent boom, and now massive volumes of code are being generated faster than any human could reasonably understand.” Entire positioniert sich als anbieterunabhängige Plattform für Agent-Kontext, also als direktes Gegenangebot zur AGENTS.md-Strategie unter GitHub-Kontrolle. Wenn der Mann, der Copilot zum Marktführer gemacht hat, jetzt eine offene Alternative dazu baut, ist das ein zweiter Datenpunkt zur Frage, wo der nächste Layer entsteht.

Das Gegenargument, das Senior Devs auseinandernehmen

Komplexität ist kein Feature. Wer drei Agents parallel laufen lässt, verliert mehr Zeit durch Koordinationsaufwand als er durch spezialisierte Modelle gewinnt. Die JetBrains-Zahlen bestätigen den Verdacht: Nur 47 Prozent der Entwickler nutzen AI täglich, obwohl 84 Prozent angeben, es zu nutzen oder zu planen. 45,2 Prozent sagen ausdrücklich, “Debugging AI-generated code is more time-consuming”. Multi-Agent-Setups multiplizieren genau diese Debugging-Schichten.

Das Argument trägt für undifferenzierte Nutzung. Wer Junior-Entwickler dazu zwingt, zwischen drei Modellen umzuschalten, ohne ihnen ein Auswahlkriterium an die Hand zu geben, produziert Chaos. Senior Developers wählen anders: Copilot für schnelle Completions im Kontext der Datei, die sie gerade öffnen. Claude für komplexe Refactorings, bei denen das Modell mehrere Dateien gleichzeitig versteht. Spezialisierte Agents für Test-Generation, bei denen Repetition und Strukturtreue wichtiger sind als Kreativität.

Genau diese aufgabenspezifische Wahl ist es, was Agent HQ orchestriert. Ein Mission Control, das parallele Branches zeigt, macht Multi-Agent nicht komplizierter, sondern überhaupt erst überschaubar. Komplexität ist ein Feature, wenn sie sichtbar gemacht wird. Sie ist ein Bug, wenn sie nur passiert.

Was deutsche Engineering-Teams jetzt entscheiden müssen

Drei konkrete Konsequenzen aus der Verschiebung.

Erstens: Wer 2026 noch Copilot-only-Lizenzen einkauft, kauft eine Architektur ein, die GitHub selbst gerade aufgibt. Das ist keine Vorhersage über die nächsten zwei Jahre, das ist eine Beobachtung über die nächsten zwei Quartale. Wer Tool-Verträge länger als 18 Monate bindet, bindet sie an eine Welt, die nicht mehr existiert. Ein Blick auf den Vergleich von Cursor und GitHub Copilot zeigt, wie unterschiedlich die Stärken bereits heute liegen.

Zweitens: AGENTS.md gehört in jedes ernsthafte Repository. Auch wenn dein Team aktuell nur Copilot nutzt, definiert die Datei den Rahmen für alle künftigen Agents. Sie hindert niemanden daran, sie schon heute zu schreiben. Wer in zwölf Monaten Multi-Agent betreibt und keine Repo-Regeln hat, debuggt dann die Konflikte zwischen ihnen, statt sie vorab zu vermeiden.

Drittens: Der eigentliche Skill verschiebt sich. Es geht nicht mehr darum, welches Modell man kennt. Es geht darum, welches Modell man wann einsetzt, und wie man die Outputs mehrerer Agents zu einem reviewbaren PR konsolidiert. Das ist näher an Code-Review-Disziplin als an Prompt-Engineering. Wer Multi-Agent-Workflows aufbaut, sollte den Artikel zu Multi-Agenten-Systemen und die Argumente für Human-in-the-Loop in vollautonomen Pipelines parallel lesen.

Wer die Entwicklung der Agent-Plattformen nicht erst aus Release-Notes erfahren will, findet im KI-Syndikat Newsletter jede Woche Einordnungen, die Architektur-Entscheidungen gegen Marktrealität gegenrechnen.

GitHub hat mit Agent HQ eine Wette platziert, die nur dann aufgeht, wenn der Orchestrator das letzte verteidigungsfähige Asset ist. Cursors ARR-Wachstum, Dohmkes Entire und 35 Prozent Multi-Tool-Nutzung im Stack Overflow Survey sagen: Es ist es. Wer im Mai 2026 noch glaubt, der Wettbewerb laufe über das beste Modell, hat den Schritt verpasst, den die Anbieter selbst längst gegangen sind.

Mehr KI-Wissen

KI-Wochenbriefing: jeden Freitag KI-News, Praxistipps und Tools

Kostenlos abonnieren, jederzeit abmeldbar, kein Spam.

Diesen Artikel teilen:

Autor und Redaktion

Benjamin Eckstein

Benjamin Eckstein

Mitgründer von KI-Syndikat, Senior Engineer bei Kleinanzeigen und Agentic Engineer

Software-Architekt mit über 20 Jahren Erfahrung. Tagsüber Senior Engineer bei Kleinanzeigen, nach Feierabend baut er agentische Systeme, in denen KI-Agenten Code schreiben, Tests ausführen, PRs öffnen und CI überwachen.

Zum Profil

Freddie Feder

KI-Assistent und Lektor

Hat diesen Artikel mit recherchiert und geschrieben und ihn danach Satz für Satz lektoriert: Fakten geprüft, Ton geglättet und alles rausgeworfen, was klingt, als hätte es eine Maschine gebaut. Die inhaltliche Verantwortung liegt bei den menschlichen Autoren.

Mehr über unser Team

Das könnte dich auch interessieren

Claude Code: Der Editor ist nicht mehr der Arbeitsplatz

46% der Entwickler nennen Claude Code als ihr meistgeliebtes KI-Tool, GitHub Copilot kommt auf 9%. Die eigentliche Verschiebung passiert nicht im Ranking, sondern dort, wo Code überhaupt entsteht.

7 Min.

LangChain hat 2026 ein Problem: Wenn das SDK schon kann, was das Framework versprach

AImultiple-Benchmark 2025: LangChain produziert 53 Prozent mehr Token-Overhead pro Query als Haystack, bei identischem Modell und identischem Retriever. Der Grund, warum LangChain einmal überlegen war, ist genau der Grund, warum es heute Schulden produziert.

7 Min.

AI-DevOps ist nicht DevOps: Warum deine LLM-App still degradiert

Stanford und UC Berkeley haben gemessen, wie GPT-4 in drei Monaten von 52 auf 10 Prozent ausführbarem Code gefallen ist. Gleicher Modellname, gleicher Provider. Klassisches DevOps-Monitoring sieht das nicht.

7 Min.

Prompt Caching ist kein Rabatt. Es ist die Bedingung, unter der Agent-Loops überhaupt rechnen.

Die 90-Prozent-Ersparnis bei Prompt Caching ist eine Single-Call-Metrik. Die wahre ökonomische Wirkung liegt in Agent-Loops, wo Caching die quadratisch wachsenden Token-Kosten in eine lineare Kurve verwandelt.

6 Min.

Property-Reihenfolge kostet 27 Prozentpunkte Accuracy. Schema-Design ist keine Nebensache.

Allein die Reihenfolge der Properties in einem JSON-Schema senkt GPT-3.5-Turbos Accuracy auf GSM8K von 76,60 auf 49,25 Prozent. Constrained Decoding garantiert valide Syntax. Den Rest verbockt das Schema selbst.

6 Min.

Function-Calling-Benchmarks messen Genauigkeit. Nicht Zuverlässigkeit.

Auf dem Berkeley Function Calling Leaderboard v4 stagnieren die Top-Modelle bei rund 70 Prozent. OpenAIs Structured Outputs liefern dagegen 100 Prozent Schema-Compliance. Das Delta ist kein Modellproblem, sondern eine Architekturentscheidung.

6 Min.

Kommentare

Kommentare werden in Kürze freigeschaltet. Bis dahin freuen wir uns über dein Feedback per E-Mail an kontakt@ki-syndikat.de.

Kostenloser Newsletter

Bleib auf dem neuesten
Stand der KI

Wähle deine Themen und erhalte relevante KI-News, Praxistipps und exklusive Inhalte direkt in dein Postfach – kein Spam, jederzeit abmeldbar.

Was interessiert dich? Wähle 1–4 Themen, du bekommst nur Inhalte dazu.

Mit der Anmeldung stimmst du unserer Datenschutzerklärung zu. Jederzeit abmeldbar.

Kostenlos
Kein Spam
Jederzeit abmeldbar