WAF++ WAF++
Back to WAF++ Homepage

WAF-OPS-100 – Operational Debt Register & Review

Beschreibung

Alle bekannten Operational Debt-Posten – manuelle Prozesse, Workarounds, Toil-Quellen, veraltete Runbooks, siloed Wissen – MÜSSEN in einem version-controlled Operational Debt Register dokumentiert werden. Das Register MUSS quartalsweise mit expliziter Priorisierung und Sprint-Kapazitätszuweisung für Abbau reviewed werden.

Rationale

Operational Debt ist die Akkumulation von Shortcuts, manuellen Prozessen und technischen Workarounds, die den Betriebsaufwand über Zeit erhöhen. Untrackierter Operational Debt bedeutet: Teams kämpfen reaktiv gegen Feuer statt proaktiv die operationale Last zu reduzieren. Toil zu messen ist der erste Schritt zur Eliminierung. Was nicht sichtbar ist, kann nicht priorisiert und nicht abgebaut werden.

Bedrohungskontext

Risiko Beschreibung

On-Call-Burnout

Stetig wachsender Toil ohne Tracking oder Abbau führt zu Engineer-Burnout und hoher Fluktuation.

Manuelle Prozesse als SPOF

Manuelle Operationen werden Single Points of Failure wenn die zuständige Person fehlt.

Stille Akkumulation

Operational Debt wächst unbemerkt bis er einen Major Incident verursacht.

Toil übersteigt Feature-Arbeit

Teams verbringen mehr Zeit mit Toil als mit Produkt-Entwicklung – Wettbewerbsnachteil.

Anforderung

  • Operational Debt Register MUSS in Version-Control gespeichert sein

  • Jeder Eintrag MUSS Severity, Toil-Stunden/Woche, Owner, Created Date und Target Date enthalten

  • Quarterly Review MUSS stattfinden: Priorisierung, Kapazitätszuweisung, Status-Update

  • Sprint-Kapazität für Debt-Abbau MUSS explizit zugewiesen sein (mindestens 10%)

  • Neue Einträge aus Postmortem-Action-Items MÜSSEN systematisch überführt werden

Implementierungsanleitung

  1. Register anlegen: ops-debt-register.yml im Team-Repository; Schema: id, title, category, severity, toil_hours_per_week, owner, status, target_date

  2. Kategorien definieren: manual-process, missing-automation, missing-runbook, configuration-drift, tech-debt, knowledge-silo

  3. Severity klassifizieren: Critical (>4h/Woche Toil oder wöchentliche Incidents), High (2–4h), Medium (1–2h), Low (<1h)

  4. Quarterly Review etablieren: Meeting-Einladung in Kalender; Outputs: Priorisierung, Sprint-Budget-Zuweisung, Status-Updates

  5. Postmortem-Integration: Action Items aus Postmortems werden systematisch in Register überführt

  6. Toil-Metrik tracken: Wöchentliche Stunden-Schätzung; Trend-Analyse; OKR: < 20% Ingenieurzeit für Toil

Reifegrad-Abstufung

Level Bezeichnung Kriterien

1

Kein Tracking

Operational Debt existiert aber ist nicht anerkannt oder dokumentiert. Toil wird akzeptiert.

2

Informelle Awareness

Debt wird in Retrospektiven diskutiert. Keine formale Dokumentation. Ad-hoc-Verbesserungen.

3

Register gepflegt

Version-controlled Register mit allen bekannten Einträgen. Quarterly Review. Sprint-Budget.

4

Debt-Reduktions-Programm

Toil-Reduktion als explizites OKR. Trend positiv (Abbau > Zuwachs). Postmortem-Integration.

5

Kontinuierliche Verbesserung

Toil < 20% Ingenieurzeit (Google SRE-Ziel). Automation-Coverage-Report. Debt-Trend positiv.

Terraform Checks

waf-ops-100.tf.aws.eventbridge-ops-review-schedule

Prüft: EventBridge Scheduled Rule für quartalsliche Review-Erinnerungen konfiguriert.

Compliant Non-Compliant
resource "aws_cloudwatch_event_rule" "ops_review" {
  name                = "quarterly-ops-debt-review"
  description         = "Quarterly Ops Debt Register review reminder"
  schedule_expression = "cron(0 9 1 1,4,7,10 ? *)"
  is_enabled          = true
}
resource "aws_cloudwatch_event_target" "ops_sns" {
  rule      = aws_cloudwatch_event_rule.ops_review.name
  target_id = "OpsReviewNotification"
  arn       = aws_sns_topic.team_notifications.arn
}
# Kein automatischer Review-Reminder konfiguriert
# Quarterly Review passiert ad-hoc oder gar nicht
# WAF-OPS-100 Violation

waf-ops-100.tf.aws.ssm-automation-runbook

Prüft: SSM Automation Documents für repetitive Operational Tasks existieren.

# Compliant
resource "aws_ssm_document" "rotate_instances" {
  name            = "RotateASGInstances"
  document_type   = "Automation"
  document_format = "YAML"
  content         = file("ssm-documents/rotate-asg-instances.yaml")
}

Remediation: EventBridge Scheduled Rule für quartalsliche Review-Benachrichtigungen konfigurieren. SSM Automation Documents für alle bekannten manuellen Routineaufgaben erstellen.

Evidenz

Typ Pflicht Beschreibung

Governance

✅ Pflicht

Operational Debt Register (version-controlled) mit Einträgen, Severity, Toil-Schätzungen, Owners, Status.

Process

✅ Pflicht

Quarterly-Review-Protokoll mit Priorisierungsentscheidungen und Sprint-Budget-Zuweisung.

Process

Optional

Sprint-Kapazitäts-Report: % des Sprints für Operational-Debt-Abbau.

Governance

Optional

Toil-Metriken-Report: wöchentliche Toil-Stunden pro Ingenieur, Trend der letzten 6 Monate.