Zum Inhalt springen
IT & Software cloudkostenkapazität

Kapazitätsplanung Cloud

KI prognostiziert Cloud-Ressourcenbedarf auf Basis historischer Nutzungsmuster und empfiehlt Rightsizing, und findet die 28 % verschwendete Cloud-Ausgaben, die jedes Unternehmen hat.

⚡ Auf einen Blick
Problem
Cloud-Ressourcen werden beim Aufsetzen großzügig dimensioniert und dann nie mehr angefasst, während 28 % der Ausgaben für ungenutzte oder überprovisionierte Instanzen draufgehen.
KI-Lösung
ML-Zeitreihenmodelle (LSTM, Prophet, ARIMA) analysieren historische CPU- und Memory-Auslastung, prognostizieren zukünftigen Ressourcenbedarf und geben konkrete Rightsizing-Empfehlungen, kostenlos über native Cloud-Provider-Tools.
Typischer Nutzen
15–30 % Einsparung bei Cloud-Kosten durch Rightsizing, Zombie-Ressourcen-Bereinigung und optimierte Reservierungsstrategie.
Setup-Zeit
AWS Optimizer sofort; volle Optimierung 4–8 Wochen
Kosteneinschätzung
0–500 € Setup (native), ab 500 €/Monat (Drittanbieter)
Native Cloud-Tools (AWS Optimizer, kostenlos)Drittanbieter-Monitoring (Datadog, Spot.io)Shift-Left via Infracost im PR-Prozess
Worum geht's?

Es ist Freitag, 14:15 Uhr. Quartalsgespräch mit dem CFO.

Lena, CTO eines Berliner SaaS-Unternehmens, rechtfertigt eine Cloud-Rechnung von 22.000 Euro im Monat. Der CFO fragt: “Wo geht das Geld hin?” Lena weiß es ungefähr, aber sie kann es nicht aufschlüsseln. Ein Datenbankcluster hier, ein Kubernetes-Cluster dort, eine Handvoll Instanzen, die seit dem letzten Refactoring nicht mehr gebraucht werden, aber niemand hat sie abgeschaltet. Sie antwortet mit “ich schaue das nach” und schiebt das Thema auf nächsten Monat.

Nächsten Monat kommt dieselbe Frage. Und den Monat danach. Dazwischen läuft die Cloud weiter, dimensioniert nach dem Stand von vor achtzehn Monaten, mit Ressourcen, die niemand mehr überprüft hat. Jede Instanz, die doppelt so groß ist wie nötig, kostet doppelt so viel, still, automatisch, jeden Tag.

Im nächsten Monat stellt der CFO dieselbe Frage. Lena hat immer noch keine Antwort. Die Rechnung ist auf 23.400 Euro gestiegen.

Das echte Ausmaß des Problems

Flexera ermittelte im “State of the Cloud Report 2024”, dass Unternehmen im Schnitt 28 Prozent ihrer Cloud-Ausgaben verschwenden. Bei deutschen Unternehmen liegt der Anteil ähnlich hoch. Bei einem Cloud-Budget von 200.000 Euro pro Jahr bedeutet das 56.000 Euro, die für Ressourcen bezahlt werden, die niemand braucht.

Die Ursache ist strukturell: Cloud-Ressourcen werden beim Aufsetzen überprovisioniert, aus gutem Grund. Niemand will, dass ein System unter Last abstürzt. Also wählt man eine Nummer größer. Und noch eine. Und dann bleibt das so, denn Cloud-Rechte zu verkleinern ist riskant, es kostet Aufmerksamkeit, und im Tagesbetrieb gibt es immer dringendere Aufgaben.

Dazu das “Zombie-Ressourcen”-Problem: 30 Prozent der Befragten berichten, dass tote oder inaktive Ressourcen (vergessene Snapshots, gestoppte Instanzen, unbenutzte Load Balancer) einen erheblichen Teil ihrer Cloud-Rechnung ausmachen.

Das dritte Problem ist das Timing: AWS EC2 On-Demand ist bei bestimmten Instanzgrößen bis zu 66 Prozent teurer als Reserved Instances (1-Jahres-Commit) und bis zu 90 Prozent teurer als Spot Instances für nicht-kritische Workloads. Ohne Lastprognose ist eine sinnvolle Reservierungsstrategie nicht möglich.

Mit vs. ohne KI, ein ehrlicher Vergleich

KennzahlOhne KI-OptimierungMit KI-gestützter Kapazitätsplanung
Anteil verschwendeter Cloud-Ausgaben28 % (Flexera 2024)8–15 % nach aktivem Rightsizing
Zombie-Ressourcen identifiziertSporadisch (wenn jemand Zeit hat)Systematisch (automatische Erkennung)
ReservierungsstrategieBauchgefühl oder nicht vorhandenDatenbasiert auf 90-Tage-Lastprognose
Cloud-KostentransparenzPro Monat grober ÜberblickPro Service, pro Tag, mit Anomalie-Alerts

Flexera State of the Cloud Report 2024; AWS-Pricing-Vergleiche Stand Q1 2025.

Einschätzung auf einen Blick

Zeitersparnis, sehr niedrig (1/5) Cloud-Kapazitätsplanung spart keine tägliche Arbeitszeit. Die Zeitinvestition liegt beim Setup (einmalig 2–5 Tage) und regelmäßigen Überprüfungen (monatlich 1–2 Stunden). Der Wert liegt vollständig in Kosteneinsparung, nicht in Effizienzgewinn.

Kosteneinsparung, sehr hoch (5/5) Zusammen mit Sicherheitslücken-Scanning der höchste Kostenhebel im Branch, aber direkter messbar. Cloud-Kosten sind exakt abrufbar, vorher-nachher-Vergleiche sind trivial. Bei 200.000 € Cloud-Budget und 20 % Einsparung: 40.000 € jährlich. Das ist keine Schätzung, das ist eine Rechnung.

Schnelle Umsetzung, mittel (3/5) AWS Compute Optimizer ist in 30 Minuten aktiviert und zeigt sofort Empfehlungen. Vollständige Optimierung (Rightsizing, Zombie-Bereinigung, Reservierungsstrategie) dauert 4–8 Wochen, weil jede Änderung in Staging getestet werden muss. Kein technisch komplexer Einstieg, aber konsequente Umsetzung ist Arbeit.

ROI-Sicherheit, sehr hoch (5/5) Der klarste ROI im gesamten Branch. Cloud-Ausgaben sind auf Euro und Cent messbar. Empfehlungen von AWS Compute Optimizer und Azure Advisor sind direkt umsetzbar und der Erfolg ist sofort sichtbar auf der nächsten Rechnung.

Skalierbarkeit, niedrig (2/5) Das ist der Haken: Je größer die Cloud-Infrastruktur wird, desto komplexer wird die Optimierung. Multi-Cloud-Setups, viele Services, dynamische Workloads, die Schwierigkeit, alles optimal zu dimensionieren, wächst mit der Infrastruktur. Für sehr kleine Setups (unter 5.000 €/Monat Cloud-Kosten) ist der Aufwand für spezialisierte Tools oft größer als der Nutzen.

Richtwerte, stark abhängig von Cloud-Budget, Provider-Mix und Infrastruktur-Komplexität.

Was das System konkret macht

Schritt 1, Ist-Analyse: Das Machine-Learning-Modell sammelt historische Nutzungsdaten: CPU-Auslastung, Memory-Nutzung, Netzwerk-Throughput, Disk-I/O, für jede Instanz, jeden Service, jeden Zeitpunkt der letzten 30–90 Tage. Eine Instanz, die im Schnitt bei 8 % CPU-Auslastung läuft, ist wahrscheinlich dreimal zu groß, selbst wenn sie in Lastspitzen kurz auf 40 % geht.

Schritt 2, Lastprognose: ML-Zeitreihenmodelle (ARIMA, Prophet, LSTM) projizieren aus dem historischen Muster die zukünftige Last. Das berücksichtigt Wochenmuster, Saisonalitäten und Wachstumstrends. Ergebnis: eine Prognose des Ressourcenbedarfs für die nächsten 30–90 Tage, Grundlage für Reservierungsentscheidungen.

Schritt 3, Rightsizing-Empfehlungen: Konkrete Handlungsempfehlungen: Diese Instanz kann zwei Größen kleiner. Dieser Service profitiert von Reserved Instance statt On-Demand. Diese Testumgebung kann nachts heruntergefahren werden. Diese Datenbank hat zu viel Memory.

Schritt 4, Auto-Scaling-Optimierung: Proaktives Skalieren vor bekannten Lastpeaks, automatische Reduktion in Niedriglastzeiten. Das eliminiert den Trade-off zwischen Verfügbarkeit und Kosten.

DSGVO-Hinweis: Cloud-Monitoring-Daten können personenbezogene Informationen enthalten, wenn Logs oder Metriken Endnutzer-Aktivitätsdaten beinhalten. Für reine Infrastruktur-Metriken (CPU, Memory) ist das kein Thema. Sobald aber Log-Daten oder Traces einbezogen werden, gelten die gleichen Anforderungen wie bei der Log-Anomalieerkennung.

Konkrete Werkzeuge

AWS Compute Optimizer / Azure Advisor / GCP Recommender, Alle drei großen Cloud-Provider haben eigene KI-gestützte Rightsizing-Empfehlungen, die kostenlos in der Console verfügbar sind. AWS Compute Optimizer analysiert EC2-Instanzen, ECS-Tasks und Lambda-Functions auf Basis der letzten 14 Tage. Naheliegendster Einstieg für alle Teams, die ausschließlich bei einem Provider sind.

Datadog Cloud Cost Management, Verbindet Infrastruktur-Metriken mit Kostendaten und zeigt, welche Ressourcen wie ausgelastet sind und was sie kosten. Besonders wertvoll: die Verbindung von Cost-Daten mit Performance-Daten, “Diese API ist teuer und langsam.” Als Add-on in Datadog-Abonnements verfügbar.

Spot.io (NetApp), Spezialisiertes Tool für automatisches Rightsizing und Spot-Instance-Management. Analysiert Workloads und nutzt automatisch Spot Instances für geeignete Workloads (typisch 60–80 % günstiger als On-Demand, Schätzwert aus Praxisberichten) mit automatischem Fallback bei Spot-Unterbrechungen. Für Teams mit hohen Compute-Kosten besonders interessant.

Infracost, Open-Source-Tool, das Cloud-Kosten direkt im Terraform-Code schätzt und in den PR-Prozess integriert. Wenn ein Entwickler eine Infrastruktur-Änderung baut, zeigt Infracost im PR-Comment: “Diese Änderung erhöht die monatlichen Kosten um +320 €.” Macht Cost-Awareness zum Teil des normalen Entwicklungsprozesses.

Datenschutz und Datenhaltung

Für reine Cloud-Kapazitätsoptimierung mit Infrastruktur-Metriken (CPU, Memory, Netzwerk) gibt es kaum DSGVO-Relevanz, diese Daten sind technisch, nicht personenbezogen.

Kritisch wird es, wenn Drittanbieter-Tools (Datadog, Spot.io) Zugriff auf Cloud-Accounts bekommen und dabei auch Log-Daten oder Trace-Daten verarbeiten, die personenbezogene Informationen enthalten. Hier gelten dieselben AVV-Anforderungen wie bei anderen Cloud-Diensten, Art. 28 DSGVO.

Praktische Empfehlung: Für Kapazitätsplanung primär native Provider-Tools (AWS Compute Optimizer, Azure Advisor) nutzen. Diese haben keine zusätzliche Datenweitergabe und sind in der jeweiligen Cloud-Compliance bereits abgedeckt.

Was es kostet

Sofortstart (native Cloud-Provider-Tools, kostenlos):

  • AWS Compute Optimizer: kostenlos, sofort aktivierbar
  • Einrichtungsaufwand: 2–4 Stunden für Aktivierung und erste Analyse
  • Typische Einsparung nach erster Umsetzung: 10–20 % der Compute-Kosten (Schätzwert aus Praxisberichten)

Vollständige Optimierung (Datadog + Spot.io für Multi-Cloud):

  • Datadog Cloud Cost Management: Teil der Datadog-Abonnement-Kosten
  • Spot.io: Preisgestaltung auf Basis der verwalteten Cloud-Ausgaben (typisch 5–10 % der eingesparten Kosten)
  • Einrichtungsaufwand: 3–5 Tage für vollständige Integration

ROI-Szenario: IT-Unternehmen mit 180.000 € jährlichem Cloud-Budget (AWS). AWS Compute Optimizer identifiziert Rightsizing-Potenzial, konservative Einsparung 15 %: 27.000 €/Jahr. Spot-Instances für Batch-Workloads und Testumgebungen: weitere 20.000 €/Jahr. Zombie-Ressourcen-Bereinigung: 5.000 €/Jahr. Gesamteinsparung: 52.000 €/Jahr. Tool-Kosten: 8.000–12.000 €/Jahr. Der klarste ROI-Fall in diesem Branch.

Newsletter

Solche Praxis-Analysen, regelmäßig in deinem Postfach

Neue KI-Use-Cases, ehrliche Tool-Tests und DSGVO-Updates, verständlich aufbereitet. Kein Spam, jederzeit abbestellbar.

Mit der Anmeldung stimmst du unserer Datenschutzerklärung zu. Jederzeit abmeldbar.

Drei typische Einstiegsfehler

1. Rightsizing in Production ohne Staging-Test. Eine zu knapp dimensionierte Instanz kann unter Last abstürzen. Regel: Jede Rightsizing-Empfehlung wird zuerst in Staging getestet. Wenn eine Instanz heute bei 8 % CPU läuft und die nächst kleinere 50 % Kapazität hätte, ist der Puffer ausreichend. Wenn sie bei 60 % läuft, braucht es Lasttests.

2. Kein namentliches Ownership, Cloud-Kosten “gehören allen”. Teams ohne benannte FinOps-Verantwortung halbieren ihre Einsparungen innerhalb von 3 Monaten wieder: Neue Ressourcen werden mit denselben Überprovisionierungsmustern wie zuvor aufgesetzt, weil niemand beim nächsten Terraform-PR die Instanzgröße hinterfragt. Konkrete Gegenmaßnahme: Eine Person, namentlich, nicht “die IT”, übernimmt das monatliche 30-minütige Cost-Review und hat Vetorecht bei neuen Ressourcen über 200 €/Monat Schätzkosten.

3. Optimierung als Einmalprojekt behandeln. Das häufigste Scheitermuster nach einem erfolgreichen ersten Quartal: Die Cloud-Kosten steigen wieder, weil neue Ressourcen mit alten Mustern provisioniert werden. Ohne monatliches Cost-Review und eingebaute Governance (Budget-Alerts, Infracost im PR-Prozess) ist jede Einsparung temporär. Cloud-Kostenoptimierung ist kein Projekt, das man abschließt, es ist ein laufender Prozess.

Was mit der Einführung wirklich passiert

Schockmoment bei der ersten Analyse: Fast jedes Team, das zum ersten Mal AWS Compute Optimizer oder Azure Advisor aktiviert, findet mehr Optimierungspotenzial als erwartet. Das ist keine Kritik an der bisherigen Arbeit, es ist ein Strukturproblem. Cloud-Kosten skalieren unbemerkt.

Widerstand beim Rightsizing: “Was ist, wenn wir die Instanz zu knapp dimensionieren und es unter Last abstürzt?” Das ist ein berechtigter Einwand. Die Antwort: Conservative Rightsizing mit Puffer (nicht auf das theoretische Minimum, sondern auf das Niveau mit komfortablem Puffer), plus Load-Tests in Staging, plus Auto-Scaling als Sicherheitsnetz.

Kulturelle Veränderung: Das eigentliche Ziel ist FinOps-Bewusstsein: Cloud-Kosten sind in Entwicklungsentscheidungen sichtbar. Infracost im PR-Prozess ist hier das konkreteste Tool, wenn Entwickler sofort sehen, was ihre Infrastruktur-Änderungen kosten, ändert sich das Bewusstsein nachhaltig.

Realistischer Zeitplan

PhaseDauerWas passiertTypisches Risiko
Basis-Inventur (kostenlos)Woche 1AWS Compute Optimizer aktivieren, erste Empfehlungen sichtenEmpfehlungen werden nicht umgesetzt, fehlende Ownership für Cloud-Kosten
Zombie-Ressourcen bereinigenWoche 1–3Unbenutzte Ressourcen identifizieren und entfernen, Kostenkategorie-Tags einführenUnbekannte Abhängigkeiten, Ressource wird gelöscht, die doch noch gebraucht wird
Rightsizing umsetzenWoche 3–6Instanzgrößen anpassen, Auto-Scaling optimieren, Reservierungsstrategie überarbeitenProduktions-Instanz zu knapp dimensioniert, Änderungen in Staging erst testen
Proaktives Cost-MonitoringAb Monat 2Budget-Alerts einrichten, monatliches Cost-Review, Infracost in PR-ProzessKosten steigen wieder ohne Monitoring, Cost-Governance in Entwicklungsprozess einbauen
Fortgeschrittene OptimierungQuartal 2+Spot-Instances für geeignete Workloads, Reserved-Instance-Planung, Multi-Region-OptimierungSpot-Unterbrechungen bei kritischen Workloads, Eignung sorgfältig prüfen

Häufige Einwände

„Rightsizing ist riskant, wir wollen nicht, dass Production abstürzt.” Begründete Vorsicht. Rightsizing in Production muss immer zuerst in Staging getestet werden, und nur mit ausreichendem Puffer. Die Native-Cloud-Tools geben explizite Auslastungsdaten aus den letzten 14 Tagen als Grundlage, das ist keine Spekulation, sondern messbasierte Empfehlung.

„Wir haben keine Kapazität, uns um Cloud-Kosten zu kümmern.” Cloud-Kosten “nebenbei” führen zu 28 % Verschwendung. Der Lösungsweg ist nicht mehr manuelle Aufmerksamkeit, sondern strukturelle Mechanismen: automatische Budget-Alerts, Infracost im PR-Prozess, monatliches 30-minütiges Cost-Review.

„Wir haben einen Cloud-Vertrag mit reservierten Instanzen, das ist doch schon optimiert.” Reserved Instances reduzieren On-Demand-Kosten, beheben aber nicht das Überprovisionierungsproblem. Eine zu große reservierte Instanz ist immer noch zu groß, nur billiger überprovisioniert.

Woran du merkst, dass das zu dir passt

  • Eure Cloud-Rechnung übersteigt 5.000 €/Monat und ihr könnt nicht genau sagen, welcher Service wie viel kostet
  • Ihr habt Instanzen oder Ressourcen, die “mal eben schnell” aufgesetzt wurden und nie wieder überprüft wurden
  • Der letzte Vergleich eurer Instanzgrößen mit tatsächlicher Auslastung liegt mehr als 6 Monate zurück

Das passt noch nicht, wenn:

  • Euer Cloud-Budget liegt unter 2.000 €/Monat, dann ist der Optimierungsaufwand größer als das Einsparpotenzial.
  • Ihr nutzt ausschließlich serverless und managed Services, dann ist klassisches Rightsizing nicht relevant (Cost-Visibility lohnt sich aber trotzdem).
  • Niemand in eurem Team hat explizit Ownership für Cloud-Kosten. Ohne klare Verantwortung verpuffen Optimierungen innerhalb von Monaten, Tools helfen nicht, wenn das strukturelle Problem fehlendes Ownership ist.

Das kannst du heute noch tun

Aktiviere in den nächsten 10 Minuten AWS Compute Optimizer in deiner AWS-Console (Services → Compute Optimizer → Enable). Es dauert 24–48 Stunden, bis erste Empfehlungen erscheinen, aber der Schritt kostet nichts und zeigt dir ohne Risiko, wo Optimierungspotenzial liegt.

Prompt für KI-gestützte Cloud-Kosten-Analyse
Du bist ein Cloud-Kostenoptimierungs-Experte. Analysiere die folgende Cloud-Infrastruktur und gib konkrete Empfehlungen: 1. SOFORTMASSNAHMEN: Was kann ohne Risiko direkt geändert werden? 2. RIGHTSIZING: Welche Instanztypen sind wahrscheinlich falsch dimensioniert? 3. ZOMBIE-RESSOURCEN: Welche Ressourcen könnten ungenutzt sein? 4. RESERVIERUNGSSTRATEGIE: Wo lohnen sich Reserved Instances? 5. QUICK WINS: Was bringt in den ersten 30 Tagen die größte Einsparung? Für jede Empfehlung: geschätzte monatliche Einsparung angeben. Wenn Informationen fehlen: explizit nennen, was für eine bessere Analyse gebraucht wird. CLOUD-PROVIDER: [AWS/Azure/GCP] MONATLICHE GESAMTKOSTEN: [BETRAG] AKTUELLE INFRASTRUKTUR: [HIER EURE INSTANZEN/SERVICES AUFLISTEN MIT TYP UND NUTZUNG] NUTZUNGSPROFILE (wenn bekannt): [Z.B. "Production-DB: 24/7, peak 60% CPU", "Dev-Server: nur Mo-Fr 9-18 Uhr genutzt"]
Funktioniert mit Claude, ChatGPT (ergänzend zu nativen Cloud-Tools)
Beispiel-Ausgabe

Mitarbeiter:in

AWS, 8.000 €/Monat. 3x m5.xlarge EC2 (Webserver), 1x r5.2xlarge RDS (Produktionsdatenbank), 5x t3.medium (Dev/Staging). Webserver laufen 24/7 aber Traffic hauptsächlich 8-22 Uhr. Dev-Server nur Mo-Fr genutzt.

KI-Assistent

SOFORTMASSNAHMEN (umsetzbar diese Woche): • Dev-Server (5x t3.medium): Mit Lambda oder Schedule stoppen Mo-Fr 19 Uhr bis Mo 8 Uhr + Wochenende. Einsparung: ~65 % der Dev-Server-Kosten = ca. 400 €/Monat RIGHTSIZING (nach Staging-Test): • Webserver (3x m5.xlarge): Wenn Auslastung unter 40 % CPU im Schnitt → Testen mit m5.large (50 % günstiger). Einsparung bei 2 von 3 Instanzen: ca. 250 €/Monat Risiko: Niedrig, 2 Instanzen anpassen, 1 als Puffer behalten ZOMBIE-RESSOURCEN: • Prüfen: Alte Snapshots, ungenutzte EBS-Volumes, gestoppte aber nicht terminierte Instanzen. Typisch bei 8.000 €/Monat Budget: 200–500 €/Monat in vergessenen Ressourcen. RESERVIERUNGSSTRATEGIE: • RDS r5.2xlarge: Wenn 12+ Monate benötigt → 1-Jahres-Reserved-Instance spart 40 % vs. On-Demand. Einsparung: ca. 500 €/Monat (erst nach Rechtsizing-Entscheidung) FEHLENDE INFORMATIONEN FÜR BESSERE ANALYSE: • Tatsächliche CPU/Memory-Auslastung der letzten 14 Tage (aus AWS Compute Optimizer abrufbar) • Ist RDS Multi-AZ? (Doppelter Preis, aber für Production oft sinnvoll)

Quellen & Methodik

  • Flexera State of the Cloud Report 2024, Cloud-Verschwendungsrate, Zombie-Ressourcen-Anteil, Optimierungspotenziale nach Unternehmensgröße und Provider.
  • AWS Pricing Calculator und Reserved Instance Savings, On-Demand vs. Reserved vs. Spot Instance-Kostenvergleiche für gängige EC2-Instanztypen (Stand Q1 2025).
  • Destatis Unternehmensausgaben IT 2023, Cloud-Budget-Größenordnungen für deutsche IT-Unternehmen verschiedener Größen.

Diesen Inhalt teilen:

🤝

Wissen ist der erste Schritt. Der zweite kostet Zeit.

Du kannst diesen Use Case selbst umsetzen. Realistisch sind das ein paar Wochen Einarbeitung, einige Fehlversuche bei Datenschutz und Toolauswahl und das Risiko, dass es im Alltag doch nicht greift. Oder wir gehen es gemeinsam an: kostenlos und unverbindlich im Erstgespräch.

Deine Daten werden ausschließlich zur Bearbeitung deiner Anfrage verwendet (Art. 6 Abs. 1 lit. b DSGVO). Mehr in unserer Datenschutzerklärung.

Kostenloser Newsletter

Bleib auf dem neuesten
Stand der KI

Wähle deine Themen und erhalte relevante KI-News, Praxistipps und exklusive Inhalte direkt in dein Postfach – kein Spam, jederzeit abmeldbar.

Was interessiert dich? Wähle 1–4 Themen, du bekommst nur Inhalte dazu.

Mit der Anmeldung stimmst du unserer Datenschutzerklärung zu. Jederzeit abmeldbar.

Kostenlos
Kein Spam
Jederzeit abmeldbar