Glossar: Operational Excellence
A
B
Blast Radius
Das Ausmaß des Schadens, den ein fehlerhaftes Deployment oder eine Änderung verursacht. Reduziert durch Progressive Delivery (Canary, Blue/Green): Eine fehlerhafte Canary-Version trifft nur 5% der Nutzer, nicht 100%.
Blameless Culture (Blameless Postmortem)
Kulturelles Prinzip: Bei Incident Reviews wird nicht nach Schuldigen gesucht, sondern nach systemischen Ursachen. Psychologische Sicherheit ist Voraussetzung. Fördert offenes Teilen von Informationen und verhindert Verstecken von Incidents.
C
Canary Release (Canary Deployment)
Deployment-Muster: Neue Version erhält schrittweise mehr Traffic (5% → 25% → 100%). Metriken werden zwischen alter und neuer Version verglichen. Automatisches Rollback wenn Fehlerrate der neuen Version über Schwellenwert steigt.
Change Failure Rate (CFR)
DORA-Metrik: Prozentualer Anteil der Deployments, die einen Incident, Rollback oder Hotfix erfordern. Elite-Teams erreichen < 5%. Misst Deployment-Qualität.
CI/CD (Continuous Integration / Continuous Delivery)
Continuous Integration: Automatisches Bauen und Testen bei jedem Commit. Continuous Delivery: Automatisches Bereitstellen von getesteten Artefakten für Deployment. Continuous Deployment: Vollautomatisches Deployment bis in Produktion ohne manuelle Freigabe.
D
Deployment Frequency
DORA-Metrik: Wie oft deployt ein Team in Produktion? Elite: Mehrfach täglich. High: Täglich bis wöchentlich. Medium: Wöchentlich bis monatlich. Low: Monatlich bis alle sechs Monate.
I
IaC (Infrastructure as Code)
Praxis, Cloud-Infrastruktur deklarativ in Code zu beschreiben. Terraform, Pulumi, AWS CDK, Azure Bicep sind verbreitete IaC-Tools. IaC ist versioniert, reviewed und durch CI/CD deployt.
L
M
O
Observability
Fähigkeit, den internen Zustand eines Systems aus seinen Ausgaben (Logs, Metriken, Traces) zu verstehen. Drei Säulen: Logs (strukturierte Events), Metriken (Zeitreihen), Traces (verteilte Anfrageverfolgung).
R
RED Metrics
Metriken-Framework für Services (von Tom Wilkie): Rate – Anfragen pro Sekunde. Errors – Fehlerrate (HTTP 5xx, Exceptions). Duration – Latenz (p50, p95, p99).
S
SLO (Service Level Objective)
Internes Ziel für die Dienstgüte: z.B. 99.9% Availability, p99 Latenz < 500ms, Fehlerrate < 0.1%. Grundlage für SLO-basiertes Alerting und Error-Budget-Management.