Prinzipien der Operational Excellence
Die sieben Prinzipien definieren die philosophische Grundlage für die Operational-Excellence-Säule. Sie sind nicht technische Anforderungen (dafür gibt es Controls), sondern Leitprinzipien für Entscheidungen auf Team- und Architekturebene.
OP1 – Automate Everything Repeatable
Tagline: Wenn du etwas zweimal manuell tust, ist es einmal zu viel.
Erklärung
Jede Aufgabe, die wiederholt ausgeführt wird, ist ein Kandidat für Automatisierung. Manuelle, wiederholbare Aufgaben sind per Definition Toil – sie sind fehleranfällig, zeitaufwändig und skalieren nicht mit dem Wachstum der Organisation.
Automatisierung schafft Freiheit: Wenn routinierte Aufgaben von Systemen erledigt werden, können Engineers an Problemen arbeiten, die menschliches Urteil erfordern.
OP2 – Infrastructure as Code First
Tagline: Wenn es nicht in Git ist, existiert es nicht.
Erklärung
Alle Infrastruktur muss aus Code reproduzierbar sein. Nicht "wir haben meistens IaC" – sondern "alle Infrastruktur ist IaC und manuelle Änderungen sind verboten".
IaC First bedeutet: Bevor die erste Ressource erstellt wird, existiert der Terraform-Code. Es bedeutet auch: Wenn eine Notfall-Änderung manuell vorgenommen wird, wird sie innerhalb von 24 Stunden in IaC überführt.
Implikationen
-
Remote-State mit Locking ist die einzige akzeptierte State-Strategie
-
Console-Zugriff für Infrastruktur-Änderungen ist eingeschränkt (SCP/IAM)
-
Drift-Erkennung ist automatisiert und alarmiert
-
Disaster Recovery ist aus IaC testbar
OP3 – Observability Before Features
Tagline: Bevor ein Feature in Produktion geht, muss es beobachtbar sein.
Erklärung
Ein System, das nicht beobachtbar ist, kann nicht zuverlässig betrieben werden. Observability ist keine nachträgliche Ergänzung – sie ist eine Grundvoraussetzung für den Produktionsbetrieb.
"Observability before features" bedeutet: Kein neues Feature wird deployed, das nicht structured Logs emittiert, Metriken exponiert und in die Tracing-Infrastruktur integriert ist.
Implikationen
-
Observability-Anforderungen sind Teil der Definition of Done für jedes Feature
-
Log-Format und Trace-ID-Propagation sind in der Service-Vorlage definiert
-
RED-Metriken (Rate, Errors, Duration) sind für jeden Service konfiguriert
-
Dashboards existieren für jeden Service bevor er kritischen Traffic erhält
OP4 – Fail Fast, Learn Faster
Tagline: Fehler sind keine Katastrophen – fehlende Lernprozesse sind es.
Erklärung
In komplexen verteilten Systemen sind Fehler unvermeidlich. Die Frage ist nicht, ob ein System ausfällt, sondern wie schnell es erkannt wird, wie schnell es wiederhergestellt wird und was die Organisation daraus lernt.
Blameless Culture ist die kulturelle Grundlage: Wenn Fehler zu Bestrafungen führen, werden sie versteckt. Wenn Fehler zu Lernprozessen führen, werden sie offen kommuniziert.
OP5 – Minimize Toil
Tagline: Toil ist der unsichtbare Feind der operativen Exzellenz.
Erklärung
Toil ist manuelle, wiederholbare, automatisierbare Arbeit ohne dauerhaften Wert. Toil ist nicht Overhead oder unerwünschte Arbeit – es ist spezifisch: repetitiv, manuell, ohne nachhaltige Wirkung, proportional zum Traffic-Wachstum.
Google SRE definiert das Ziel: weniger als 20% der Engineering-Zeit sollten für Toil verwendet werden. Wenn ein Team mehr Toil als Features produziert, ist es in der Schuldenspirale.
OP6 – Safe by Default
Tagline: Deployment-Sicherheit ist kein Opt-in – sie ist der Standard.
Erklärung
Sichere Deployments sind der Standard, nicht die Ausnahme. Progressive Delivery (Canary, Blue/Green, Feature Flags) ist nicht optional für Teams, die häufig deployen.
"Safe by Default" bedeutet: Das Team muss aktiv entscheiden, einen unsicheren Deployment-Pfad zu wählen – nicht aktiv, um einen sicheren zu aktivieren.
OP7 – Operational Debt ist technisches Risiko
Tagline: Untrackierter Operational Debt ist eine tickende Bombe.
Erklärung
Operational Debt ist wie technische Schuld – er akkumuliert Zinsen in Form von erhöhter Incident-Rate, verlängerter MTTR, On-Call-Burnout und Abhängigkeit von spezifischen Personen.
Der Unterschied: Technische Schuld ist in Code sichtbar. Operational Debt ist oft unsichtbar – er lebt in den Köpfen von Ingenieuren, in informellen Prozessen, in "das machen wir immer so"-Kulturen.
Sichtbar machen, quantifizieren, priorisieren – das ist die erste Maßnahme.
Implikationen
-
Alle bekannten Toil-Quellen und Workarounds sind im Register dokumentiert
-
Quarterly-Review stellt sicher, dass Debt nicht akkumuliert
-
Sprint-Kapazität für Debt-Abbau ist explizit zugewiesen
-
Neuer Operational Debt wird bewusst akzeptiert – nicht blind akkumuliert