Glossar: Reliability
A
B
Backup (Datensicherung)
Kopie von Daten zu einem bestimmten Zeitpunkt zur Wiederherstellung bei Datenverlust. Backups werden durch RPO-Anforderungen getaktet. Ungetestete Backups sind keine Backups.
C
Chaos Engineering (Chaos-Entwicklung)
Disziplin des Experimentierens mit Produktionssystemen durch kontrollierte Fehlerinjektion, um systemische Schwächen aufzudecken. Hypothesis-driven: "Wenn X ausfällt, passiert Y."
D
E
F
G
M
Maturity Model (Reifegrad-Modell)
Framework zur Bewertung des aktuellen Stands einer Disziplin auf einer definierten Skala. WAF++ Reliability: 5 Stufen (Chaotisch → Selbstheilend).
Mean Time Between Failures – MTBF (Mittlere Zeit zwischen Ausfällen)
Durchschnittliche Zeit zwischen zwei aufeinanderfolgenden Ausfällen. Je höher, desto zuverlässiger. Relevant für Hardware und langlebige Systeme.
Mean Time to Recovery – MTTR (Mittlere Wiederherstellungszeit)
Durchschnittliche Zeit vom Eintreten eines Fehlers bis zur vollständigen Wiederherstellung. Enthält Erkennungszeit (MTTD) + Diagnosezeit + Behebungszeit.
R
Readiness Probe
Kubernetes-Probe, die prüft, ob ein Container bereit ist, Traffic anzunehmen. Bei Fehlschlag: Pod wird aus dem Service-Endpoint entfernt, aber nicht neu gestartet. Verhindert premature Traffic Routing während Startup.
Recovery Point Objective – RPO (Wiederherstellungspunkt-Ziel)
Maximaler akzeptabler Datenverlust bei einem Ausfall, gemessen in Zeit. RPO = 1h: Bis zu 1 Stunde Datenverlust akzeptabel. Bestimmt Backup-Frequenz.
Recovery Time Objective – RTO (Wiederherstellungszeit-Ziel)
Maximale akzeptable Zeit für die vollständige Wiederherstellung nach einem Ausfall. RTO = 30min: Der Service muss innerhalb von 30 Minuten wiederhergestellt sein.
Reliability Debt (Zuverlässigkeitsschuld)
Bekannte Schwächen oder deferred Reliability-Improvements, die das Risiko von Ausfällen erhöhen. Analog zu technischer Schuld; wird im WAF-REL-100 Register erfasst.
S
Service Level Agreement – SLA (Servicelevel-Vereinbarung)
Vertragliche Vereinbarung über die Verfügbarkeit und Qualität eines Service. SLAs referenzieren SLOs und definieren Konsequenzen bei Nicht-Erfüllung.
Service Level Indicator – SLI (Servicelevel-Indikator)
Konkrete Metrik, die einen Aspekt der Service-Qualität misst. Beispiele: Verfügbarkeit (%), Latenz (p99 ms), Fehlerrate (%), Durchsatz (req/s).