WAF-PERF-020 – Auto-Scaling Configured & Tested
Beschreibung
Alle zustandslosen Produktions-Workloads mit variablem oder unvorhergesagtem Traffic MÜSSEN Auto-Scaling konfiguriert haben. Auto-Scaling-Policies MÜSSEN auf aussagekräftigen Metriken basieren (Anfrage-Latenz, Request-Rate, Queue-Tiefe). Auto-Scaling-Konfigurationen MÜSSEN unter realistischer Last getestet werden, bevor sie in Produktion gehen.
Kein Deployment in Produktion ohne validierten Skalierungspfad.
Rationale
Statische Kapazität erzeugt ein unlösbares Dilemma: Überprovisionierung für Peaks (teuer) oder Unterprovisionierung und Degradation bei unerwarteter Last (riskant). Auto-Scaling löst dieses Dilemma – aber nur, wenn korrekt konfiguriert. Falsche Schwellenwerte, fehlende Cooldowns oder das Fehlen von Instance Warmup-Konfiguration führen zu Scaling-Versagen im kritischen Moment.
Jede Auto-Scaling-Konfiguration, die nie unter Last getestet wurde, ist faktisch nicht vorhanden.
Bedrohungskontext
| Risiko | Beschreibung |
|---|---|
Kapazitätsengpass bei Lastspitze |
Nicht-skalierender Service degradiert oder fällt aus während Traffic-Peaks. |
Scaling-Oscillation |
Falsch konfigurierte Cooldowns führen zu konstantem Scale-out/Scale-in (Kosten + Instabilität). |
Zu spätes Scaling |
Threshold zu hoch oder Skalierungsmetrik falsch → Scaling triggers erst wenn SLO bereits verletzt. |
Cold-Start-Latenz |
Instance Warmup fehlt → neue Instanzen werden sofort mit vollem Traffic belastet. |
Anforderung
-
Alle zustandslosen Produktions-Workloads MÜSSEN Auto-Scaling konfiguriert haben (min >= 1, max >= 2)
-
Scaling-Metriken MÜSSEN auf Anwendungsverhalten basieren, nicht nur auf CPU
-
Auto-Scaling MUSS durch Lasttest validiert werden (Nachweis: Test-Report)
-
Scale-in-Cooldown MUSS >= Scale-out-Cooldown (konservativer Scale-in)
Implementierungsanleitung
-
Scaling-Metrik wählen: ALB-Request-Count (HTTP-APIs), Queue-Depth (Worker), Custom Metrics (spezielle Workloads)
-
Schwellenwerte aus Lasttest ableiten: Welcher Request/s-Wert führt zur P95-Latenz von SLO/2?
-
min/max konfigurieren: min >= 2 für Redundanz; max = 3–5x erwartete Normallast
-
Cooldowns konfigurieren: Scale-out 60s, Scale-in 300s (konservativ)
-
Instance Warmup konfigurieren: 60–120s, damit neue Instanzen nicht sofort belastet werden
-
Lasttest ausführen: Gradual-Load-Profil bis 2x Peak; Auto-Scaling-Trigger validieren
-
Monitoring konfigurieren: Alert wenn Desired Capacity >= 80% Max Capacity
Reifegrad-Abstufung
| Level | Bezeichnung | Kriterien |
|---|---|---|
1 |
Statische Kapazität |
Kein Auto-Scaling; manuelle Anpassung bei Lastspitzen; typischerweise unkritisch überprovisioniert. |
2 |
Konfiguriert, nicht validiert |
ASG/VMSS konfiguriert; Default-CPU-Threshold; nie unter Last getestet. |
3 |
Validiert mit Lasttest |
Richtige Metriken; Lasttest-Validierung; dokumentierte Grenzen; Health-Check-Typ konfiguriert. |
4 |
Predictive & Event-Driven |
Predictive Scaling; Queue-basiertes Scaling; Scale-out-Dauer im SLO gemessen. |
5 |
Autonomes Capacity Management |
Vollständig automatisiert; ML-basierte Policies; SLO-Breach-Prediction vor Eintreten. |
Terraform Checks
waf-perf-020.tf.aws.autoscaling-group-policy
Prüft: AWS Auto Scaling Groups müssen min >= 1, max >= 2 und Health-Check-Type haben.
| Compliant | Non-Compliant |
|---|---|
|
|
Remediation: min_size >= 2 für Produktions-Redundanz, max_size >= 3 für Scaling-Fähigkeit.
Scaling-Policy hinzufügen (TargetTracking oder StepScaling). Health-Check-Type auf ELB setzen.
Evidenz
| Typ | Pflicht | Beschreibung |
|---|---|---|
IaC |
✅ Pflicht |
Auto-Scaling-Konfiguration mit min/max und Scaling-Policy. |
Process |
✅ Pflicht |
Lasttest-Ergebnisse die belegen, dass Scaling innerhalb des Latenz-SLO auslöst. |
Config |
Optional |
CloudWatch/Azure Monitor/GCP-Alerts für Scaling-Events konfiguriert. |
Governance |
Optional |
Runbook mit dokumentierten Skalierungsgrenzen und bekannten Engpässen. |
Regulatorisches Mapping
| Framework | Controls |
|---|---|
ISO/IEC 25010:2011 |
8.3.2 – Performance efficiency; 8.3.2.1 – Time behaviour; 8.3.2.2 – Resource utilisation; 8.3.2.3 – Capacity |
AWS Well-Architected Framework |
Performance Efficiency Pillar – Selection; Performance Efficiency Pillar – Review; Performance Efficiency Pillar – Efficiency |
Azure Well-Architected Framework |
Performance – Performance monitoring; Performance – Load and stress testing; Performance – Auto-scaling |
Google Cloud Architecture Framework |
Performance – Performance design principles; Performance – Monitoring and debugging |
TOGAF 10 |
ADM Phase B – Business architecture; ADM Phase C – Application architecture; ADM Phase D – Technology architecture |
DORA |
DORA 2024 – Technical practices; DORA 2024 – Performance monitoring |
ISO/IEC 29119 |
4.4.3 – Test design techniques; 4.5.3 – Test execution; 5.3.3 – Test reporting |
ISO/IEC 12207 |
8.2.2.3 – Design and development of software; 9.4.2 – Verification |
ITIL 4 |
SVS – Service value system; DP – Design principle; OV – Operation value chain |
BSI C5:2020 |
OPS-01 – Operational monitoring; OPS-02 – Operational control; OPS-03 – Operational capacity |
CIS Controls v8 |
CIS 8 – Continuous Vulnerability Management; CIS 8.1 – Vulnerability scanning |
NIST SP 800-53 |
RA-1 – Security assessment policy; RA-2 – Security assessment controls; RA-5 – Security assessments; RA-9 – External information system attacks |
NIST CSF 2.0 |
DE.CM – Continuous monitoring; DE.AE – Anomaly detection; DE.DP – Data performance |
FedRAMP |
RA-2, RA-5, RA-9 (Moderate/High baseline) |
SOC 2 Type II |
CC6.1 – Logical access security software; CC7.1 – Infrastructure and software monitoring |
TISAX |
Information security – Performance monitoring |
ANSSI SecNumCloud |
Domain – Performance monitoring |
BIO |
BIO – Prestatiedoelstellingen |
ENS High |
op.exp.2 – Configuración de seguridad; op.exp.3 – Gestión de la configuración |
UK NCSC CAF |
B4 – System security; B5 – System performance |
CMMC 2.0 |
RA.L2-3.8.1 – Automated monitoring |
IRAP |
ISM – Performance monitoring |
CCCS PBMM |
RA-2 – Security assessment controls; RA-5 – Security assessments |
MAS TRM |
Ch.5 – Technology risk governance |
ISMAP |
Performance monitoring and validation |
FISC |
Technical measures – Performance monitoring |