WAF-PERF-020 – Auto-Scaling Configured & Tested

Pillar: Performance Efficiency | Severity: High | Kategorie: Auto-Scaling | Automatisierbar: Hoch

Beschreibung

Alle zustandslosen Produktions-Workloads mit variablem oder unvorhergesagtem Traffic MÜSSEN Auto-Scaling konfiguriert haben. Auto-Scaling-Policies MÜSSEN auf aussagekräftigen Metriken basieren (Anfrage-Latenz, Request-Rate, Queue-Tiefe). Auto-Scaling-Konfigurationen MÜSSEN unter realistischer Last getestet werden, bevor sie in Produktion gehen.

Kein Deployment in Produktion ohne validierten Skalierungspfad.

Rationale

Statische Kapazität erzeugt ein unlösbares Dilemma: Überprovisionierung für Peaks (teuer) oder Unterprovisionierung und Degradation bei unerwarteter Last (riskant). Auto-Scaling löst dieses Dilemma – aber nur, wenn korrekt konfiguriert. Falsche Schwellenwerte, fehlende Cooldowns oder das Fehlen von Instance Warmup-Konfiguration führen zu Scaling-Versagen im kritischen Moment.

Jede Auto-Scaling-Konfiguration, die nie unter Last getestet wurde, ist faktisch nicht vorhanden.

Bedrohungskontext

Risiko	Beschreibung
Kapazitätsengpass bei Lastspitze	Nicht-skalierender Service degradiert oder fällt aus während Traffic-Peaks.
Scaling-Oscillation	Falsch konfigurierte Cooldowns führen zu konstantem Scale-out/Scale-in (Kosten + Instabilität).
Zu spätes Scaling	Threshold zu hoch oder Skalierungsmetrik falsch → Scaling triggers erst wenn SLO bereits verletzt.
Cold-Start-Latenz	Instance Warmup fehlt → neue Instanzen werden sofort mit vollem Traffic belastet.

Risiko

Beschreibung

Kapazitätsengpass bei Lastspitze

Nicht-skalierender Service degradiert oder fällt aus während Traffic-Peaks.

Scaling-Oscillation

Falsch konfigurierte Cooldowns führen zu konstantem Scale-out/Scale-in (Kosten + Instabilität).

Zu spätes Scaling

Threshold zu hoch oder Skalierungsmetrik falsch → Scaling triggers erst wenn SLO bereits verletzt.

Cold-Start-Latenz

Instance Warmup fehlt → neue Instanzen werden sofort mit vollem Traffic belastet.

Anforderung

Alle zustandslosen Produktions-Workloads MÜSSEN Auto-Scaling konfiguriert haben (min >= 1, max >= 2)
Scaling-Metriken MÜSSEN auf Anwendungsverhalten basieren, nicht nur auf CPU
Auto-Scaling MUSS durch Lasttest validiert werden (Nachweis: Test-Report)
Scale-in-Cooldown MUSS >= Scale-out-Cooldown (konservativer Scale-in)

Implementierungsanleitung

Scaling-Metrik wählen: ALB-Request-Count (HTTP-APIs), Queue-Depth (Worker), Custom Metrics (spezielle Workloads)
Schwellenwerte aus Lasttest ableiten: Welcher Request/s-Wert führt zur P95-Latenz von SLO/2?
min/max konfigurieren: min >= 2 für Redundanz; max = 3–5x erwartete Normallast
Cooldowns konfigurieren: Scale-out 60s, Scale-in 300s (konservativ)
Instance Warmup konfigurieren: 60–120s, damit neue Instanzen nicht sofort belastet werden
Lasttest ausführen: Gradual-Load-Profil bis 2x Peak; Auto-Scaling-Trigger validieren
Monitoring konfigurieren: Alert wenn Desired Capacity >= 80% Max Capacity

Reifegrad-Abstufung

Level	Bezeichnung	Kriterien
1	Statische Kapazität	Kein Auto-Scaling; manuelle Anpassung bei Lastspitzen; typischerweise unkritisch überprovisioniert.
2	Konfiguriert, nicht validiert	ASG/VMSS konfiguriert; Default-CPU-Threshold; nie unter Last getestet.
3	Validiert mit Lasttest	Richtige Metriken; Lasttest-Validierung; dokumentierte Grenzen; Health-Check-Typ konfiguriert.
4	Predictive & Event-Driven	Predictive Scaling; Queue-basiertes Scaling; Scale-out-Dauer im SLO gemessen.
5	Autonomes Capacity Management	Vollständig automatisiert; ML-basierte Policies; SLO-Breach-Prediction vor Eintreten.

Level

Bezeichnung

Kriterien

Statische Kapazität

Kein Auto-Scaling; manuelle Anpassung bei Lastspitzen; typischerweise unkritisch überprovisioniert.

Konfiguriert, nicht validiert

ASG/VMSS konfiguriert; Default-CPU-Threshold; nie unter Last getestet.

Validiert mit Lasttest

Richtige Metriken; Lasttest-Validierung; dokumentierte Grenzen; Health-Check-Typ konfiguriert.

Predictive & Event-Driven

Predictive Scaling; Queue-basiertes Scaling; Scale-out-Dauer im SLO gemessen.

Autonomes Capacity Management

Vollständig automatisiert; ML-basierte Policies; SLO-Breach-Prediction vor Eintreten.

Terraform Checks

waf-perf-020.tf.aws.autoscaling-group-policy

Prüft: AWS Auto Scaling Groups müssen min >= 1, max >= 2 und Health-Check-Type haben.

Compliant Non-Compliant

Compliant	Non-Compliant
`resource "aws_autoscaling_group" "api" { min_size = 2 max_size = 10 desired_capacity = 2 health_check_type = "ELB" } resource "aws_autoscaling_policy" "scale" { policy_type = "TargetTrackingScaling" target_tracking_configuration { predefined_metric_specification { predefined_metric_type = "ALBRequestCountPerTarget" } target_value = 1000.0 } }`	`resource "aws_autoscaling_group" "api" { min_size = 1 max_size = 1 # max=min=1 – kein Scaling # WAF-PERF-020 Violation }`

resource "aws_autoscaling_group" "api" {
  min_size          = 2
  max_size          = 10
  desired_capacity  = 2
  health_check_type = "ELB"
}
resource "aws_autoscaling_policy" "scale" {
  policy_type = "TargetTrackingScaling"
  target_tracking_configuration {
    predefined_metric_specification {
      predefined_metric_type = "ALBRequestCountPerTarget"
    }
    target_value = 1000.0
  }
}

resource "aws_autoscaling_group" "api" {
  min_size = 1
  max_size = 1
  # max=min=1 – kein Scaling
  # WAF-PERF-020 Violation
}

Remediation: min_size >= 2 für Produktions-Redundanz, max_size >= 3 für Scaling-Fähigkeit. Scaling-Policy hinzufügen (TargetTracking oder StepScaling). Health-Check-Type auf ELB setzen.

Evidenz

Typ	Pflicht	Beschreibung
IaC	✅ Pflicht	Auto-Scaling-Konfiguration mit min/max und Scaling-Policy.
Process	✅ Pflicht	Lasttest-Ergebnisse die belegen, dass Scaling innerhalb des Latenz-SLO auslöst.
Config	Optional	CloudWatch/Azure Monitor/GCP-Alerts für Scaling-Events konfiguriert.
Governance	Optional	Runbook mit dokumentierten Skalierungsgrenzen und bekannten Engpässen.

Typ

Pflicht

Beschreibung

IaC

✅ Pflicht

Auto-Scaling-Konfiguration mit min/max und Scaling-Policy.

Process

✅ Pflicht

Lasttest-Ergebnisse die belegen, dass Scaling innerhalb des Latenz-SLO auslöst.

Config

Optional

CloudWatch/Azure Monitor/GCP-Alerts für Scaling-Events konfiguriert.

Governance

Optional

Runbook mit dokumentierten Skalierungsgrenzen und bekannten Engpässen.

Regulatorisches Mapping

Framework	Controls
ISO/IEC 25010:2011	8.3.2 – Performance efficiency; 8.3.2.1 – Time behaviour; 8.3.2.2 – Resource utilisation; 8.3.2.3 – Capacity
AWS Well-Architected Framework	Performance Efficiency Pillar – Selection; Performance Efficiency Pillar – Review; Performance Efficiency Pillar – Efficiency
Azure Well-Architected Framework	Performance – Performance monitoring; Performance – Load and stress testing; Performance – Auto-scaling
Google Cloud Architecture Framework	Performance – Performance design principles; Performance – Monitoring and debugging
TOGAF 10	ADM Phase B – Business architecture; ADM Phase C – Application architecture; ADM Phase D – Technology architecture
DORA	DORA 2024 – Technical practices; DORA 2024 – Performance monitoring
ISO/IEC 29119	4.4.3 – Test design techniques; 4.5.3 – Test execution; 5.3.3 – Test reporting
ISO/IEC 12207	8.2.2.3 – Design and development of software; 9.4.2 – Verification
ITIL 4	SVS – Service value system; DP – Design principle; OV – Operation value chain
BSI C5:2020	OPS-01 – Operational monitoring; OPS-02 – Operational control; OPS-03 – Operational capacity
CIS Controls v8	CIS 8 – Continuous Vulnerability Management; CIS 8.1 – Vulnerability scanning
NIST SP 800-53	RA-1 – Security assessment policy; RA-2 – Security assessment controls; RA-5 – Security assessments; RA-9 – External information system attacks
NIST CSF 2.0	DE.CM – Continuous monitoring; DE.AE – Anomaly detection; DE.DP – Data performance
FedRAMP	RA-2, RA-5, RA-9 (Moderate/High baseline)
SOC 2 Type II	CC6.1 – Logical access security software; CC7.1 – Infrastructure and software monitoring
TISAX	Information security – Performance monitoring
ANSSI SecNumCloud	Domain – Performance monitoring
BIO	BIO – Prestatiedoelstellingen
ENS High	op.exp.2 – Configuración de seguridad; op.exp.3 – Gestión de la configuración
UK NCSC CAF	B4 – System security; B5 – System performance
CMMC 2.0	RA.L2-3.8.1 – Automated monitoring
IRAP	ISM – Performance monitoring
CCCS PBMM	RA-2 – Security assessment controls; RA-5 – Security assessments
MAS TRM	Ch.5 – Technology risk governance
ISMAP	Performance monitoring and validation
FISC	Technical measures – Performance monitoring

Framework

Controls

ISO/IEC 25010:2011

8.3.2 – Performance efficiency; 8.3.2.1 – Time behaviour; 8.3.2.2 – Resource utilisation; 8.3.2.3 – Capacity

AWS Well-Architected Framework

Performance Efficiency Pillar – Selection; Performance Efficiency Pillar – Review; Performance Efficiency Pillar – Efficiency

Azure Well-Architected Framework

Performance – Performance monitoring; Performance – Load and stress testing; Performance – Auto-scaling

Google Cloud Architecture Framework

Performance – Performance design principles; Performance – Monitoring and debugging

TOGAF 10

ADM Phase B – Business architecture; ADM Phase C – Application architecture; ADM Phase D – Technology architecture

DORA

DORA 2024 – Technical practices; DORA 2024 – Performance monitoring

ISO/IEC 29119

4.4.3 – Test design techniques; 4.5.3 – Test execution; 5.3.3 – Test reporting

ISO/IEC 12207

8.2.2.3 – Design and development of software; 9.4.2 – Verification

ITIL 4

SVS – Service value system; DP – Design principle; OV – Operation value chain

BSI C5:2020

OPS-01 – Operational monitoring; OPS-02 – Operational control; OPS-03 – Operational capacity

CIS Controls v8

CIS 8 – Continuous Vulnerability Management; CIS 8.1 – Vulnerability scanning

NIST SP 800-53

RA-1 – Security assessment policy; RA-2 – Security assessment controls; RA-5 – Security assessments; RA-9 – External information system attacks

NIST CSF 2.0

DE.CM – Continuous monitoring; DE.AE – Anomaly detection; DE.DP – Data performance

FedRAMP

RA-2, RA-5, RA-9 (Moderate/High baseline)

SOC 2 Type II

CC6.1 – Logical access security software; CC7.1 – Infrastructure and software monitoring

TISAX

Information security – Performance monitoring

ANSSI SecNumCloud

Domain – Performance monitoring

BIO

BIO – Prestatiedoelstellingen

ENS High

op.exp.2 – Configuración de seguridad; op.exp.3 – Gestión de la configuración

UK NCSC CAF

B4 – System security; B5 – System performance

CMMC 2.0

RA.L2-3.8.1 – Automated monitoring

IRAP

ISM – Performance monitoring

CCCS PBMM

RA-2 – Security assessment controls; RA-5 – Security assessments

MAS TRM

Ch.5 – Technology risk governance

ISMAP

Performance monitoring and validation

FISC

Technical measures – Performance monitoring

Best Practice

Auto-Scaling konfigurieren →

WAF-PERF-020 – Auto-Scaling Configured & Tested

Beschreibung

Rationale

Bedrohungskontext

Anforderung

Implementierungsanleitung

Reifegrad-Abstufung

Terraform Checks

waf-perf-020.tf.aws.autoscaling-group-policy

Evidenz

Regulatorisches Mapping

Verwandte Controls

Best Practice