WAF-OPS-100 – Operational Debt Register & Review
Beschreibung
Alle bekannten Operational Debt-Posten – manuelle Prozesse, Workarounds, Toil-Quellen, veraltete Runbooks, siloed Wissen – MÜSSEN in einem version-controlled Operational Debt Register dokumentiert werden. Das Register MUSS quartalsweise mit expliziter Priorisierung und Sprint-Kapazitätszuweisung für Abbau reviewed werden.
Rationale
Operational Debt ist die Akkumulation von Shortcuts, manuellen Prozessen und technischen Workarounds, die den Betriebsaufwand über Zeit erhöhen. Untrackierter Operational Debt bedeutet: Teams kämpfen reaktiv gegen Feuer statt proaktiv die operationale Last zu reduzieren. Toil zu messen ist der erste Schritt zur Eliminierung. Was nicht sichtbar ist, kann nicht priorisiert und nicht abgebaut werden.
Bedrohungskontext
| Risiko | Beschreibung |
|---|---|
On-Call-Burnout |
Stetig wachsender Toil ohne Tracking oder Abbau führt zu Engineer-Burnout und hoher Fluktuation. |
Manuelle Prozesse als SPOF |
Manuelle Operationen werden Single Points of Failure wenn die zuständige Person fehlt. |
Stille Akkumulation |
Operational Debt wächst unbemerkt bis er einen Major Incident verursacht. |
Toil übersteigt Feature-Arbeit |
Teams verbringen mehr Zeit mit Toil als mit Produkt-Entwicklung – Wettbewerbsnachteil. |
Anforderung
-
Operational Debt Register MUSS in Version-Control gespeichert sein
-
Jeder Eintrag MUSS Severity, Toil-Stunden/Woche, Owner, Created Date und Target Date enthalten
-
Quarterly Review MUSS stattfinden: Priorisierung, Kapazitätszuweisung, Status-Update
-
Sprint-Kapazität für Debt-Abbau MUSS explizit zugewiesen sein (mindestens 10%)
-
Neue Einträge aus Postmortem-Action-Items MÜSSEN systematisch überführt werden
Implementierungsanleitung
-
Register anlegen:
ops-debt-register.ymlim Team-Repository; Schema: id, title, category, severity, toil_hours_per_week, owner, status, target_date -
Kategorien definieren:
manual-process,missing-automation,missing-runbook,configuration-drift,tech-debt,knowledge-silo -
Severity klassifizieren: Critical (>4h/Woche Toil oder wöchentliche Incidents), High (2–4h), Medium (1–2h), Low (<1h)
-
Quarterly Review etablieren: Meeting-Einladung in Kalender; Outputs: Priorisierung, Sprint-Budget-Zuweisung, Status-Updates
-
Postmortem-Integration: Action Items aus Postmortems werden systematisch in Register überführt
-
Toil-Metrik tracken: Wöchentliche Stunden-Schätzung; Trend-Analyse; OKR: < 20% Ingenieurzeit für Toil
Reifegrad-Abstufung
| Level | Bezeichnung | Kriterien |
|---|---|---|
1 |
Kein Tracking |
Operational Debt existiert aber ist nicht anerkannt oder dokumentiert. Toil wird akzeptiert. |
2 |
Informelle Awareness |
Debt wird in Retrospektiven diskutiert. Keine formale Dokumentation. Ad-hoc-Verbesserungen. |
3 |
Register gepflegt |
Version-controlled Register mit allen bekannten Einträgen. Quarterly Review. Sprint-Budget. |
4 |
Debt-Reduktions-Programm |
Toil-Reduktion als explizites OKR. Trend positiv (Abbau > Zuwachs). Postmortem-Integration. |
5 |
Kontinuierliche Verbesserung |
Toil < 20% Ingenieurzeit (Google SRE-Ziel). Automation-Coverage-Report. Debt-Trend positiv. |
Terraform Checks
waf-ops-100.tf.aws.eventbridge-ops-review-schedule
Prüft: EventBridge Scheduled Rule für quartalsliche Review-Erinnerungen konfiguriert.
| Compliant | Non-Compliant |
|---|---|
|
|
waf-ops-100.tf.aws.ssm-automation-runbook
Prüft: SSM Automation Documents für repetitive Operational Tasks existieren.
# Compliant
resource "aws_ssm_document" "rotate_instances" {
name = "RotateASGInstances"
document_type = "Automation"
document_format = "YAML"
content = file("ssm-documents/rotate-asg-instances.yaml")
}
Remediation: EventBridge Scheduled Rule für quartalsliche Review-Benachrichtigungen konfigurieren. SSM Automation Documents für alle bekannten manuellen Routineaufgaben erstellen.
Evidenz
| Typ | Pflicht | Beschreibung |
|---|---|---|
Governance |
✅ Pflicht |
Operational Debt Register (version-controlled) mit Einträgen, Severity, Toil-Schätzungen, Owners, Status. |
Process |
✅ Pflicht |
Quarterly-Review-Protokoll mit Priorisierungsentscheidungen und Sprint-Budget-Zuweisung. |
Process |
Optional |
Sprint-Kapazitäts-Report: % des Sprints für Operational-Debt-Abbau. |
Governance |
Optional |
Toil-Metriken-Report: wöchentliche Toil-Stunden pro Ingenieur, Trend der letzten 6 Monate. |
Regulatorisches Mapping
| Framework | Controls |
|---|---|
ISO/IEC 20000-1:2018 |
8.2.3 – Change management; 8.3.4 – Release management; 10.2.2 – Financial management |
ITIL 4 |
SVS – Service value system; DP – Design principle; OV – Operation value chain |
AWS Well-Architected Framework |
Operational Excellence Pillar – Prepare; Operational Excellence Pillar – Deploy |
DORA |
DORA 2024 – Technical practices; DORA 2024 – Organizational culture |
SOC 2 Type II |
CC4.1 – Monitoring activities; CC7.1 – Infrastructure and software monitoring |
Google SRE Book |
Chapter 2 – SRE: The role of an SRE; Chapter 3 – Service Level Objectives |
PCI DSS v4.0 |
Req 6.4 – Secure development lifecycle; Req 6.5 – Secure coding practices |
FinOps Foundation |
Core Module – Financial accountability; Management Layer – Cost governance |
BSI C5:2020 |
OPS-01 – Operational monitoring; OPS-02 – Operational control; OPS-03 – Operational capacity |
NIST SP 800-53 |
CM-1 – Configuration management policy; CM-2 – Configuration management |
NIST CSF 2.0 |
GV.PO – Policy; RC.RP – Recovery planning; DE.CM – Continuous monitoring |
TISAX |
Information security – Change management |
ANSSI SecNumCloud |
Domain – Change management |
BIO |
BIO – Veranderingenbeheer |
ENS High |
op.exp.6 – Gestión de cambios |
UK NCSC CAF |
A4 – Policy and assurance; A5 – Continual improvement |
CMMC 2.0 |
CM.L2-3.4.1 – Establish baseline configurations |
IRAP |
ISM – Change management |
CCCS PBMM |
CM-2 – Baseline configuration; CA-7 – Continuous monitoring |
MAS TRM |
Ch.3 – Technology risk governance; Ch.9 – Change management |
ISMAP |
Operational excellence and continuous improvement |
FISC |
Operational measures – Change management |