WAF-OPS-100 – Operational Debt Register & Review
Beschreibung
Alle bekannten Operational Debt-Posten – manuelle Prozesse, Workarounds, Toil-Quellen, veraltete Runbooks, siloed Wissen – MÜSSEN in einem version-controlled Operational Debt Register dokumentiert werden. Das Register MUSS quartalsweise mit expliziter Priorisierung und Sprint-Kapazitätszuweisung für Abbau reviewed werden.
Rationale
Operational Debt ist die Akkumulation von Shortcuts, manuellen Prozessen und technischen Workarounds, die den Betriebsaufwand über Zeit erhöhen. Untrackierter Operational Debt bedeutet: Teams kämpfen reaktiv gegen Feuer statt proaktiv die operationale Last zu reduzieren. Toil zu messen ist der erste Schritt zur Eliminierung. Was nicht sichtbar ist, kann nicht priorisiert und nicht abgebaut werden.
Bedrohungskontext
| Risiko | Beschreibung |
|---|---|
On-Call-Burnout |
Stetig wachsender Toil ohne Tracking oder Abbau führt zu Engineer-Burnout und hoher Fluktuation. |
Manuelle Prozesse als SPOF |
Manuelle Operationen werden Single Points of Failure wenn die zuständige Person fehlt. |
Stille Akkumulation |
Operational Debt wächst unbemerkt bis er einen Major Incident verursacht. |
Toil übersteigt Feature-Arbeit |
Teams verbringen mehr Zeit mit Toil als mit Produkt-Entwicklung – Wettbewerbsnachteil. |
Anforderung
-
Operational Debt Register MUSS in Version-Control gespeichert sein
-
Jeder Eintrag MUSS Severity, Toil-Stunden/Woche, Owner, Created Date und Target Date enthalten
-
Quarterly Review MUSS stattfinden: Priorisierung, Kapazitätszuweisung, Status-Update
-
Sprint-Kapazität für Debt-Abbau MUSS explizit zugewiesen sein (mindestens 10%)
-
Neue Einträge aus Postmortem-Action-Items MÜSSEN systematisch überführt werden
Implementierungsanleitung
-
Register anlegen:
ops-debt-register.ymlim Team-Repository; Schema: id, title, category, severity, toil_hours_per_week, owner, status, target_date -
Kategorien definieren:
manual-process,missing-automation,missing-runbook,configuration-drift,tech-debt,knowledge-silo -
Severity klassifizieren: Critical (>4h/Woche Toil oder wöchentliche Incidents), High (2–4h), Medium (1–2h), Low (<1h)
-
Quarterly Review etablieren: Meeting-Einladung in Kalender; Outputs: Priorisierung, Sprint-Budget-Zuweisung, Status-Updates
-
Postmortem-Integration: Action Items aus Postmortems werden systematisch in Register überführt
-
Toil-Metrik tracken: Wöchentliche Stunden-Schätzung; Trend-Analyse; OKR: < 20% Ingenieurzeit für Toil
Reifegrad-Abstufung
| Level | Bezeichnung | Kriterien |
|---|---|---|
1 |
Kein Tracking |
Operational Debt existiert aber ist nicht anerkannt oder dokumentiert. Toil wird akzeptiert. |
2 |
Informelle Awareness |
Debt wird in Retrospektiven diskutiert. Keine formale Dokumentation. Ad-hoc-Verbesserungen. |
3 |
Register gepflegt |
Version-controlled Register mit allen bekannten Einträgen. Quarterly Review. Sprint-Budget. |
4 |
Debt-Reduktions-Programm |
Toil-Reduktion als explizites OKR. Trend positiv (Abbau > Zuwachs). Postmortem-Integration. |
5 |
Kontinuierliche Verbesserung |
Toil < 20% Ingenieurzeit (Google SRE-Ziel). Automation-Coverage-Report. Debt-Trend positiv. |
Terraform Checks
waf-ops-100.tf.aws.eventbridge-ops-review-schedule
Prüft: EventBridge Scheduled Rule für quartalsliche Review-Erinnerungen konfiguriert.
| Compliant | Non-Compliant |
|---|---|
|
|
waf-ops-100.tf.aws.ssm-automation-runbook
Prüft: SSM Automation Documents für repetitive Operational Tasks existieren.
# Compliant
resource "aws_ssm_document" "rotate_instances" {
name = "RotateASGInstances"
document_type = "Automation"
document_format = "YAML"
content = file("ssm-documents/rotate-asg-instances.yaml")
}
Remediation: EventBridge Scheduled Rule für quartalsliche Review-Benachrichtigungen konfigurieren. SSM Automation Documents für alle bekannten manuellen Routineaufgaben erstellen.
Evidenz
| Typ | Pflicht | Beschreibung |
|---|---|---|
Governance |
✅ Pflicht |
Operational Debt Register (version-controlled) mit Einträgen, Severity, Toil-Schätzungen, Owners, Status. |
Process |
✅ Pflicht |
Quarterly-Review-Protokoll mit Priorisierungsentscheidungen und Sprint-Budget-Zuweisung. |
Process |
Optional |
Sprint-Kapazitäts-Report: % des Sprints für Operational-Debt-Abbau. |
Governance |
Optional |
Toil-Metriken-Report: wöchentliche Toil-Stunden pro Ingenieur, Trend der letzten 6 Monate. |