Kapazitätsplanung Cloud
KI prognostiziert Cloud-Ressourcenbedarf auf Basis historischer Nutzungsmuster und empfiehlt Rightsizing, und findet die 28 % verschwendete Cloud-Ausgaben, die jedes Unternehmen hat.
- Problem
- Cloud-Ressourcen werden beim Aufsetzen großzügig dimensioniert und dann nie mehr angefasst, während 28 % der Ausgaben für ungenutzte oder überprovisionierte Instanzen draufgehen.
- KI-Lösung
- ML-Zeitreihenmodelle (LSTM, Prophet, ARIMA) analysieren historische CPU- und Memory-Auslastung, prognostizieren zukünftigen Ressourcenbedarf und geben konkrete Rightsizing-Empfehlungen, kostenlos über native Cloud-Provider-Tools.
- Typischer Nutzen
- 15–30 % Einsparung bei Cloud-Kosten durch Rightsizing, Zombie-Ressourcen-Bereinigung und optimierte Reservierungsstrategie.
- Setup-Zeit
- AWS Optimizer sofort; volle Optimierung 4–8 Wochen
- Kosteneinschätzung
- 0–500 € Setup (native), ab 500 €/Monat (Drittanbieter)
Es ist Freitag, 14:15 Uhr. Quartalsgespräch mit dem CFO.
Lena, CTO eines Berliner SaaS-Unternehmens, rechtfertigt eine Cloud-Rechnung von 22.000 Euro im Monat. Der CFO fragt: “Wo geht das Geld hin?” Lena weiß es ungefähr, aber sie kann es nicht aufschlüsseln. Ein Datenbankcluster hier, ein Kubernetes-Cluster dort, eine Handvoll Instanzen, die seit dem letzten Refactoring nicht mehr gebraucht werden, aber niemand hat sie abgeschaltet. Sie antwortet mit “ich schaue das nach” und schiebt das Thema auf nächsten Monat.
Nächsten Monat kommt dieselbe Frage. Und den Monat danach. Dazwischen läuft die Cloud weiter, dimensioniert nach dem Stand von vor achtzehn Monaten, mit Ressourcen, die niemand mehr überprüft hat. Jede Instanz, die doppelt so groß ist wie nötig, kostet doppelt so viel, still, automatisch, jeden Tag.
Im nächsten Monat stellt der CFO dieselbe Frage. Lena hat immer noch keine Antwort. Die Rechnung ist auf 23.400 Euro gestiegen.
Das echte Ausmaß des Problems
Flexera ermittelte im “State of the Cloud Report 2024”, dass Unternehmen im Schnitt 28 Prozent ihrer Cloud-Ausgaben verschwenden. Bei deutschen Unternehmen liegt der Anteil ähnlich hoch. Bei einem Cloud-Budget von 200.000 Euro pro Jahr bedeutet das 56.000 Euro, die für Ressourcen bezahlt werden, die niemand braucht.
Die Ursache ist strukturell: Cloud-Ressourcen werden beim Aufsetzen überprovisioniert, aus gutem Grund. Niemand will, dass ein System unter Last abstürzt. Also wählt man eine Nummer größer. Und noch eine. Und dann bleibt das so, denn Cloud-Rechte zu verkleinern ist riskant, es kostet Aufmerksamkeit, und im Tagesbetrieb gibt es immer dringendere Aufgaben.
Dazu das “Zombie-Ressourcen”-Problem: 30 Prozent der Befragten berichten, dass tote oder inaktive Ressourcen (vergessene Snapshots, gestoppte Instanzen, unbenutzte Load Balancer) einen erheblichen Teil ihrer Cloud-Rechnung ausmachen.
Das dritte Problem ist das Timing: AWS EC2 On-Demand ist bei bestimmten Instanzgrößen bis zu 66 Prozent teurer als Reserved Instances (1-Jahres-Commit) und bis zu 90 Prozent teurer als Spot Instances für nicht-kritische Workloads. Ohne Lastprognose ist eine sinnvolle Reservierungsstrategie nicht möglich.
Mit vs. ohne KI, ein ehrlicher Vergleich
| Kennzahl | Ohne KI-Optimierung | Mit KI-gestützter Kapazitätsplanung |
|---|---|---|
| Anteil verschwendeter Cloud-Ausgaben | 28 % (Flexera 2024) | 8–15 % nach aktivem Rightsizing |
| Zombie-Ressourcen identifiziert | Sporadisch (wenn jemand Zeit hat) | Systematisch (automatische Erkennung) |
| Reservierungsstrategie | Bauchgefühl oder nicht vorhanden | Datenbasiert auf 90-Tage-Lastprognose |
| Cloud-Kostentransparenz | Pro Monat grober Überblick | Pro Service, pro Tag, mit Anomalie-Alerts |
Flexera State of the Cloud Report 2024; AWS-Pricing-Vergleiche Stand Q1 2025.
Einschätzung auf einen Blick
Zeitersparnis, sehr niedrig (1/5) Cloud-Kapazitätsplanung spart keine tägliche Arbeitszeit. Die Zeitinvestition liegt beim Setup (einmalig 2–5 Tage) und regelmäßigen Überprüfungen (monatlich 1–2 Stunden). Der Wert liegt vollständig in Kosteneinsparung, nicht in Effizienzgewinn.
Kosteneinsparung, sehr hoch (5/5) Zusammen mit Sicherheitslücken-Scanning der höchste Kostenhebel im Branch, aber direkter messbar. Cloud-Kosten sind exakt abrufbar, vorher-nachher-Vergleiche sind trivial. Bei 200.000 € Cloud-Budget und 20 % Einsparung: 40.000 € jährlich. Das ist keine Schätzung, das ist eine Rechnung.
Schnelle Umsetzung, mittel (3/5) AWS Compute Optimizer ist in 30 Minuten aktiviert und zeigt sofort Empfehlungen. Vollständige Optimierung (Rightsizing, Zombie-Bereinigung, Reservierungsstrategie) dauert 4–8 Wochen, weil jede Änderung in Staging getestet werden muss. Kein technisch komplexer Einstieg, aber konsequente Umsetzung ist Arbeit.
ROI-Sicherheit, sehr hoch (5/5) Der klarste ROI im gesamten Branch. Cloud-Ausgaben sind auf Euro und Cent messbar. Empfehlungen von AWS Compute Optimizer und Azure Advisor sind direkt umsetzbar und der Erfolg ist sofort sichtbar auf der nächsten Rechnung.
Skalierbarkeit, niedrig (2/5) Das ist der Haken: Je größer die Cloud-Infrastruktur wird, desto komplexer wird die Optimierung. Multi-Cloud-Setups, viele Services, dynamische Workloads, die Schwierigkeit, alles optimal zu dimensionieren, wächst mit der Infrastruktur. Für sehr kleine Setups (unter 5.000 €/Monat Cloud-Kosten) ist der Aufwand für spezialisierte Tools oft größer als der Nutzen.
Richtwerte, stark abhängig von Cloud-Budget, Provider-Mix und Infrastruktur-Komplexität.
Was das System konkret macht
Schritt 1, Ist-Analyse: Das Machine-Learning-Modell sammelt historische Nutzungsdaten: CPU-Auslastung, Memory-Nutzung, Netzwerk-Throughput, Disk-I/O, für jede Instanz, jeden Service, jeden Zeitpunkt der letzten 30–90 Tage. Eine Instanz, die im Schnitt bei 8 % CPU-Auslastung läuft, ist wahrscheinlich dreimal zu groß, selbst wenn sie in Lastspitzen kurz auf 40 % geht.
Schritt 2, Lastprognose: ML-Zeitreihenmodelle (ARIMA, Prophet, LSTM) projizieren aus dem historischen Muster die zukünftige Last. Das berücksichtigt Wochenmuster, Saisonalitäten und Wachstumstrends. Ergebnis: eine Prognose des Ressourcenbedarfs für die nächsten 30–90 Tage, Grundlage für Reservierungsentscheidungen.
Schritt 3, Rightsizing-Empfehlungen: Konkrete Handlungsempfehlungen: Diese Instanz kann zwei Größen kleiner. Dieser Service profitiert von Reserved Instance statt On-Demand. Diese Testumgebung kann nachts heruntergefahren werden. Diese Datenbank hat zu viel Memory.
Schritt 4, Auto-Scaling-Optimierung: Proaktives Skalieren vor bekannten Lastpeaks, automatische Reduktion in Niedriglastzeiten. Das eliminiert den Trade-off zwischen Verfügbarkeit und Kosten.
DSGVO-Hinweis: Cloud-Monitoring-Daten können personenbezogene Informationen enthalten, wenn Logs oder Metriken Endnutzer-Aktivitätsdaten beinhalten. Für reine Infrastruktur-Metriken (CPU, Memory) ist das kein Thema. Sobald aber Log-Daten oder Traces einbezogen werden, gelten die gleichen Anforderungen wie bei der Log-Anomalieerkennung.
Konkrete Werkzeuge
AWS Compute Optimizer / Azure Advisor / GCP Recommender, Alle drei großen Cloud-Provider haben eigene KI-gestützte Rightsizing-Empfehlungen, die kostenlos in der Console verfügbar sind. AWS Compute Optimizer analysiert EC2-Instanzen, ECS-Tasks und Lambda-Functions auf Basis der letzten 14 Tage. Naheliegendster Einstieg für alle Teams, die ausschließlich bei einem Provider sind.
Datadog Cloud Cost Management, Verbindet Infrastruktur-Metriken mit Kostendaten und zeigt, welche Ressourcen wie ausgelastet sind und was sie kosten. Besonders wertvoll: die Verbindung von Cost-Daten mit Performance-Daten, “Diese API ist teuer und langsam.” Als Add-on in Datadog-Abonnements verfügbar.
Spot.io (NetApp), Spezialisiertes Tool für automatisches Rightsizing und Spot-Instance-Management. Analysiert Workloads und nutzt automatisch Spot Instances für geeignete Workloads (typisch 60–80 % günstiger als On-Demand, Schätzwert aus Praxisberichten) mit automatischem Fallback bei Spot-Unterbrechungen. Für Teams mit hohen Compute-Kosten besonders interessant.
Infracost, Open-Source-Tool, das Cloud-Kosten direkt im Terraform-Code schätzt und in den PR-Prozess integriert. Wenn ein Entwickler eine Infrastruktur-Änderung baut, zeigt Infracost im PR-Comment: “Diese Änderung erhöht die monatlichen Kosten um +320 €.” Macht Cost-Awareness zum Teil des normalen Entwicklungsprozesses.
Datenschutz und Datenhaltung
Für reine Cloud-Kapazitätsoptimierung mit Infrastruktur-Metriken (CPU, Memory, Netzwerk) gibt es kaum DSGVO-Relevanz, diese Daten sind technisch, nicht personenbezogen.
Kritisch wird es, wenn Drittanbieter-Tools (Datadog, Spot.io) Zugriff auf Cloud-Accounts bekommen und dabei auch Log-Daten oder Trace-Daten verarbeiten, die personenbezogene Informationen enthalten. Hier gelten dieselben AVV-Anforderungen wie bei anderen Cloud-Diensten, Art. 28 DSGVO.
Praktische Empfehlung: Für Kapazitätsplanung primär native Provider-Tools (AWS Compute Optimizer, Azure Advisor) nutzen. Diese haben keine zusätzliche Datenweitergabe und sind in der jeweiligen Cloud-Compliance bereits abgedeckt.
Was es kostet
Sofortstart (native Cloud-Provider-Tools, kostenlos):
- AWS Compute Optimizer: kostenlos, sofort aktivierbar
- Einrichtungsaufwand: 2–4 Stunden für Aktivierung und erste Analyse
- Typische Einsparung nach erster Umsetzung: 10–20 % der Compute-Kosten (Schätzwert aus Praxisberichten)
Vollständige Optimierung (Datadog + Spot.io für Multi-Cloud):
- Datadog Cloud Cost Management: Teil der Datadog-Abonnement-Kosten
- Spot.io: Preisgestaltung auf Basis der verwalteten Cloud-Ausgaben (typisch 5–10 % der eingesparten Kosten)
- Einrichtungsaufwand: 3–5 Tage für vollständige Integration
ROI-Szenario: IT-Unternehmen mit 180.000 € jährlichem Cloud-Budget (AWS). AWS Compute Optimizer identifiziert Rightsizing-Potenzial, konservative Einsparung 15 %: 27.000 €/Jahr. Spot-Instances für Batch-Workloads und Testumgebungen: weitere 20.000 €/Jahr. Zombie-Ressourcen-Bereinigung: 5.000 €/Jahr. Gesamteinsparung: 52.000 €/Jahr. Tool-Kosten: 8.000–12.000 €/Jahr. Der klarste ROI-Fall in diesem Branch.
Newsletter
Solche Praxis-Analysen, regelmäßig in deinem Postfach
Neue KI-Use-Cases, ehrliche Tool-Tests und DSGVO-Updates, verständlich aufbereitet. Kein Spam, jederzeit abbestellbar.
Drei typische Einstiegsfehler
1. Rightsizing in Production ohne Staging-Test. Eine zu knapp dimensionierte Instanz kann unter Last abstürzen. Regel: Jede Rightsizing-Empfehlung wird zuerst in Staging getestet. Wenn eine Instanz heute bei 8 % CPU läuft und die nächst kleinere 50 % Kapazität hätte, ist der Puffer ausreichend. Wenn sie bei 60 % läuft, braucht es Lasttests.
2. Kein namentliches Ownership, Cloud-Kosten “gehören allen”. Teams ohne benannte FinOps-Verantwortung halbieren ihre Einsparungen innerhalb von 3 Monaten wieder: Neue Ressourcen werden mit denselben Überprovisionierungsmustern wie zuvor aufgesetzt, weil niemand beim nächsten Terraform-PR die Instanzgröße hinterfragt. Konkrete Gegenmaßnahme: Eine Person, namentlich, nicht “die IT”, übernimmt das monatliche 30-minütige Cost-Review und hat Vetorecht bei neuen Ressourcen über 200 €/Monat Schätzkosten.
3. Optimierung als Einmalprojekt behandeln. Das häufigste Scheitermuster nach einem erfolgreichen ersten Quartal: Die Cloud-Kosten steigen wieder, weil neue Ressourcen mit alten Mustern provisioniert werden. Ohne monatliches Cost-Review und eingebaute Governance (Budget-Alerts, Infracost im PR-Prozess) ist jede Einsparung temporär. Cloud-Kostenoptimierung ist kein Projekt, das man abschließt, es ist ein laufender Prozess.
Was mit der Einführung wirklich passiert
Schockmoment bei der ersten Analyse: Fast jedes Team, das zum ersten Mal AWS Compute Optimizer oder Azure Advisor aktiviert, findet mehr Optimierungspotenzial als erwartet. Das ist keine Kritik an der bisherigen Arbeit, es ist ein Strukturproblem. Cloud-Kosten skalieren unbemerkt.
Widerstand beim Rightsizing: “Was ist, wenn wir die Instanz zu knapp dimensionieren und es unter Last abstürzt?” Das ist ein berechtigter Einwand. Die Antwort: Conservative Rightsizing mit Puffer (nicht auf das theoretische Minimum, sondern auf das Niveau mit komfortablem Puffer), plus Load-Tests in Staging, plus Auto-Scaling als Sicherheitsnetz.
Kulturelle Veränderung: Das eigentliche Ziel ist FinOps-Bewusstsein: Cloud-Kosten sind in Entwicklungsentscheidungen sichtbar. Infracost im PR-Prozess ist hier das konkreteste Tool, wenn Entwickler sofort sehen, was ihre Infrastruktur-Änderungen kosten, ändert sich das Bewusstsein nachhaltig.
Realistischer Zeitplan
| Phase | Dauer | Was passiert | Typisches Risiko |
|---|---|---|---|
| Basis-Inventur (kostenlos) | Woche 1 | AWS Compute Optimizer aktivieren, erste Empfehlungen sichten | Empfehlungen werden nicht umgesetzt, fehlende Ownership für Cloud-Kosten |
| Zombie-Ressourcen bereinigen | Woche 1–3 | Unbenutzte Ressourcen identifizieren und entfernen, Kostenkategorie-Tags einführen | Unbekannte Abhängigkeiten, Ressource wird gelöscht, die doch noch gebraucht wird |
| Rightsizing umsetzen | Woche 3–6 | Instanzgrößen anpassen, Auto-Scaling optimieren, Reservierungsstrategie überarbeiten | Produktions-Instanz zu knapp dimensioniert, Änderungen in Staging erst testen |
| Proaktives Cost-Monitoring | Ab Monat 2 | Budget-Alerts einrichten, monatliches Cost-Review, Infracost in PR-Prozess | Kosten steigen wieder ohne Monitoring, Cost-Governance in Entwicklungsprozess einbauen |
| Fortgeschrittene Optimierung | Quartal 2+ | Spot-Instances für geeignete Workloads, Reserved-Instance-Planung, Multi-Region-Optimierung | Spot-Unterbrechungen bei kritischen Workloads, Eignung sorgfältig prüfen |
Häufige Einwände
„Rightsizing ist riskant, wir wollen nicht, dass Production abstürzt.” Begründete Vorsicht. Rightsizing in Production muss immer zuerst in Staging getestet werden, und nur mit ausreichendem Puffer. Die Native-Cloud-Tools geben explizite Auslastungsdaten aus den letzten 14 Tagen als Grundlage, das ist keine Spekulation, sondern messbasierte Empfehlung.
„Wir haben keine Kapazität, uns um Cloud-Kosten zu kümmern.” Cloud-Kosten “nebenbei” führen zu 28 % Verschwendung. Der Lösungsweg ist nicht mehr manuelle Aufmerksamkeit, sondern strukturelle Mechanismen: automatische Budget-Alerts, Infracost im PR-Prozess, monatliches 30-minütiges Cost-Review.
„Wir haben einen Cloud-Vertrag mit reservierten Instanzen, das ist doch schon optimiert.” Reserved Instances reduzieren On-Demand-Kosten, beheben aber nicht das Überprovisionierungsproblem. Eine zu große reservierte Instanz ist immer noch zu groß, nur billiger überprovisioniert.
Woran du merkst, dass das zu dir passt
- Eure Cloud-Rechnung übersteigt 5.000 €/Monat und ihr könnt nicht genau sagen, welcher Service wie viel kostet
- Ihr habt Instanzen oder Ressourcen, die “mal eben schnell” aufgesetzt wurden und nie wieder überprüft wurden
- Der letzte Vergleich eurer Instanzgrößen mit tatsächlicher Auslastung liegt mehr als 6 Monate zurück
Das passt noch nicht, wenn:
- Euer Cloud-Budget liegt unter 2.000 €/Monat, dann ist der Optimierungsaufwand größer als das Einsparpotenzial.
- Ihr nutzt ausschließlich serverless und managed Services, dann ist klassisches Rightsizing nicht relevant (Cost-Visibility lohnt sich aber trotzdem).
- Niemand in eurem Team hat explizit Ownership für Cloud-Kosten. Ohne klare Verantwortung verpuffen Optimierungen innerhalb von Monaten, Tools helfen nicht, wenn das strukturelle Problem fehlendes Ownership ist.
Das kannst du heute noch tun
Aktiviere in den nächsten 10 Minuten AWS Compute Optimizer in deiner AWS-Console (Services → Compute Optimizer → Enable). Es dauert 24–48 Stunden, bis erste Empfehlungen erscheinen, aber der Schritt kostet nichts und zeigt dir ohne Risiko, wo Optimierungspotenzial liegt.
Mitarbeiter:in
KI-Assistent
Quellen & Methodik
- Flexera State of the Cloud Report 2024, Cloud-Verschwendungsrate, Zombie-Ressourcen-Anteil, Optimierungspotenziale nach Unternehmensgröße und Provider.
- AWS Pricing Calculator und Reserved Instance Savings, On-Demand vs. Reserved vs. Spot Instance-Kostenvergleiche für gängige EC2-Instanztypen (Stand Q1 2025).
- Destatis Unternehmensausgaben IT 2023, Cloud-Budget-Größenordnungen für deutsche IT-Unternehmen verschiedener Größen.
Diesen Inhalt teilen:
Wissen ist der erste Schritt. Der zweite kostet Zeit.
Du kannst diesen Use Case selbst umsetzen. Realistisch sind das ein paar Wochen Einarbeitung, einige Fehlversuche bei Datenschutz und Toolauswahl und das Risiko, dass es im Alltag doch nicht greift. Oder wir gehen es gemeinsam an: kostenlos und unverbindlich im Erstgespräch.
Weitere Use Cases
KI-gestützte Code-Reviews
KI analysiert Pull Requests automatisch auf Bugs, Sicherheitslücken und Codequalität, konsistent, ohne Ermüdung, in Sekunden statt Stunden.
Mehr erfahrenSupport-Ticket-Klassifikation
KI kategorisiert und priorisiert eingehende Support-Tickets automatisch, in Sekunden statt Minuten, konsistent statt tagesformabhängig.
Mehr erfahrenAutomatische Dokumentation
KI generiert technische Dokumentation aus Code, Docstrings, API-Referenzen, Service-Übersichten, und hält sie bei Code-Änderungen aktuell.
Mehr erfahren