Geltungsbereich: Operational Excellence
Was ist im Scope?
Die Säule Operational Excellence adressiert alle Aspekte des technischen Betriebs von Cloud-Workloads:
CI/CD & Deployment-Automatisierung
-
Definition und Versionierung von Deployment-Pipelines als Code
-
Automatisierung aller Deployments in alle Umgebungen (dev, staging, production)
-
Branch-Protection, Pull-Request-Reviews, Pipeline-Gate-Konfiguration
-
Artefakt-Versionierung und unveränderliche Deployment-Artefakte
-
Deployment-Frequenz und Lead-Time als DORA-Metriken
Infrastructure as Code
-
Deklarative Definition aller Cloud-Ressourcen als IaC (Terraform, Pulumi, CDK)
-
Remote-State-Management mit Locking
-
Modul-Bibliotheken und Code-Wiederverwendung
-
IaC-Review-Prozess (Pull Request, Policy-as-Code)
-
Brownfield-Migration zu IaC
Observability
-
Strukturiertes Logging (JSON, mit Trace-ID, Request-ID, Service-Name)
-
Distributed Tracing (OpenTelemetry, AWS X-Ray, Jaeger)
-
Metriken: RED (Rate, Errors, Duration) und USE (Utilization, Saturation, Errors)
-
Dashboards und Visualisierung
-
Log-Retention-Policies und Kostensteuerung
Change Management
-
Change-Kategorisierung und Risikobewertung
-
Approval-Workflow für High-Risk-Changes
-
Deployment-Freeze-Policies für kritische Geschäftsperioden
-
Post-Deployment-Verifikation
-
Change-Records und Audit-Trail
Runbooks & Betriebsdokumentation
-
Runbooks für alle bekannten Fehlerfälle
-
Operational Procedures für Routineaufgaben
-
Runbook-Alert-Verlinkung
-
Review-Cadence und Aktualisierungsprozess
Was ist NICHT im Scope?
Die folgenden Bereiche liegen in anderen WAF++-Säulen:
-
HR-Prozesse und Teamstruktur → Governance-Säule
-
Nicht-technische Betriebsprozesse (Einkauf, Vertragsmanagement) → Governance
-
SLO/SLA-Definition und Fehlertoleranz → Reliability-Säule
-
Sicherheits-Controls, Verschlüsselung, IAM → Security-Säule
-
Leistungsoptimierung, Compute-Sizing → Performance-Säule
-
Datenschutz und Datenresidenz → Sovereign-Säule
-
Kostensteuerung, FinOps, Budgets → Cost-Säule
Brownfield vs. Greenfield
Greenfield-Workloads
Für neue Workloads gilt: OpsEx-Standards von Beginn an einbauen.
| Dimension | Greenfield-Ansatz |
|---|---|
CI/CD |
Pipeline als erstes Artefakt – noch vor dem ersten Deployment. "Pipeline-First"-Prinzip. |
IaC |
Keine Ressource existiert außerhalb von Terraform. Remote State vom ersten Tag an. |
Observability |
OpenTelemetry-Instrumentierung in der Applikationsvorlage. Structured Logging als Default. |
Runbooks |
Runbook-Template beim ersten Deployment. Mindestens: Deployment-Runbook und Rollback-Runbook. |
Change Management |
Branch-Protection und Approval-Requirements vom ersten Commit an. |
Brownfield-Workloads
Für bestehende Workloads ist ein risikobasierter Migrationsplan erforderlich:
| Schritt | Maßnahme | Priorität |
|---|---|---|
1 – Assess |
Inventarisierung: Welche Workloads haben keine Pipeline, kein IaC, keine Runbooks? |
Sofort |
2 – Quick Wins |
Structured Logging und Alerting aktivieren. Bestehende Deployments dokumentieren. |
Sprint 1–2 |
3 – IaC-Migration |
Bestehende Ressourcen in Terraform-State importieren. Kein Rebuild, nur Codifizierung. |
Quartal 1 |
4 – Pipeline-Aufbau |
CI/CD-Pipeline für bestehende Deployments bauen. Manuellen Zugriff einschränken. |
Quartal 1–2 |
5 – Runbook-Erstellung |
Runbooks für Top-5 Fehlerfälle pro Service dokumentieren. |
Laufend |
6 – Debt-Abbau |
Operational Debt Register befüllen, priorisieren, Sprint-Kapazität zuweisen. |
Quartalsweise |
Operational Debt – Häufige Quellen
| Debt-Kategorie | Beschreibung | Typische Auswirkung |
|---|---|---|
Manuelle Deployments |
Deployments via SSH oder Konsole ohne Pipeline |
Inkonsistente Umgebungen, fehlende Audit-Trails |
Console-konfigurierte Ressourcen |
Ressourcen existieren nicht in IaC |
Drift, nicht reproduzierbar in DR-Szenario |
Unstrukturiertes Logging |
Text-Logs ohne Schema, ohne Trace-ID |
Lange MTTR, aufwändige Incident-Diagnose |
Fehlende Runbooks |
Kein dokumentierter Prozess für bekannte Fehlerfälle |
On-Call-Burnout, lange MTTR, Eskalationen |
Keine Postmortems |
Incidents werden gelöst ohne strukturiertes Lernen |
Wiederkehrende Incidents derselben Klasse |
Alert-Fatigue |
Zu viele nicht-actionable Alerts |
Echte Alerts werden ignoriert; On-Call-Burnout |
Manuelles Monitoring |
Dashboard-Beobachtung statt automatischer Alerting |
Incidents werden von Nutzern gemeldet, nicht erkannt |
Veraltete Runbooks |
Runbooks spiegeln nicht mehr den aktuellen Systemstand wider |
Gefährliche Fehlinformation im Incident |