SRE / Reliability

Chaos Engineering

Celowo psujesz system zanim on sam się zepsuje. Chaos Engineering to dyscyplina budowania odpornych systemów przez proaktywne odkrywanie słabości w kontrolowanych warunkach.

Netflix (2011)

Twórca

6 kategorii

Typy ataków

Litmus, Mesh

CNCF tools

Hypothesis-driven

Podejście

6 typów eksperymentów Chaos Engineering

Każdy typ chaosu testuje inny aspekt odporności systemu. Zacznij od network latency i process kill — najczęstsze scenariusze.

Network Latency

Dodaj sztuczne opóźnienie do połączeń sieciowych między serwisami.

Testuj circuit breakers, timeouty, retry logic

Packet Loss

Symuluj utratę pakietów sieciowych lub całkowite odcięcie sieciowe.

Graceful degradation, fallback mechanisms

Process Kill

Zabij losowy process lub pod w Kubernetes.

Testuj auto-restart, health checks, zero-downtime

CPU / Memory Stress

Sztucznie obciąż CPU lub pamięć konkretnego serwisu.

Autoscaling, resource limits, degraded mode

Disk Full

Zapełnij dysk na konkretnym nodzie lub kontenerze.

Log rotation, graceful error handling dla storage

AZ / Region Failure

Symuluj awarie całej Availability Zone lub regionu chmury.

Multi-AZ/multi-region resilience, data replication

Narzędzia Chaos Engineering

Wybór narzędzia zależy od platformy, dojrzałości procesu i budżetu organizacji.

Narzędzie	Typ	Platforma	Wyróżnik
Litmus Chaos	Open-source	Kubernetes	ChaosHub, CNCF Incubating
Chaos Mesh	Open-source	Kubernetes	Workflow UI, CNCF Incubating
AWS FIS	Managed	AWS	Native AWS, bez agenta
Gremlin	Commercial	Multi-platform	Enterprise, policy controls
Chaos Monkey	Open-source	AWS/Spinnaker	Netflix original, instance kills
Steadybit	Commercial	Multi-platform	eBPF-based, SLO enforcement

Często zadawane pytania

Co to jest Chaos Engineering i skąd pochodzi?

Chaos Engineering to dyscyplina eksperymentowania na systemie produkcyjnym w celu budowania zaufania do jego zdolności do wytrzymywania turbulentnych, rzeczywistych warunków. Definicja pochodzi od Netflix i Principles of Chaos Engineering (principlesofchaos.org). Historia: Netflix Chaos Monkey (2011) — pierwsze narzędzie chaos engineering, które losowo wyłączało instancje EC2 w celu testowania odporności systemu. Chaos Monkey był częścią większego Simian Army. Dlaczego Netflix: po przejściu do AWS i mikroserwisów, Netflix potrzebował metody testowania odporności rozproszonego systemu. Zamiast odkrywać słabości podczas awarii produkcyjnych, woleli je znajdować proaktywnie. Zasady Chaos Engineering (Principles of Chaos): Buduj hipotezę wokół steady state behavior. Wariuj rzeczywistymi zdarzeniami. Uruchamiaj eksperymenty na produkcji. Automatyzuj eksperymenty ciągle. Minimalizuj promień rażenia (blast radius). Chaos Engineering to NIE: losowe psowanie systemów, sabotaż, testing disaster recovery (to DR/BCP). To ustrukturyzowane eksperymenty z jasno zdefiniowaną hipotezą i oczekiwanym wynikiem.

Jak przeprowadzać eksperymenty Chaos Engineering?

Przeprowadzanie eksperymentów Chaos Engineering: Krok 1 — Zdefiniuj Steady State: co to jest normalne działanie systemu? Metryki: latency (p95, p99), error rate, throughput. Steady state = system zachowuje się normalnie według tych metryk. Krok 2 — Sformułuj hipotezę: 'Jeśli wyłączymy jeden node bazy danych, system automatycznie przełączy się na replikę bez zauważalnego wzrostu error rate.' Krok 3 — Zaplanuj eksperyment: wybierz rodzaj chaosu: network failure, latency injection, CPU spike, disk full, process kill, AZ failure. Zacznij MAŁE — staging environment, jeden region, jeden serwis. Krok 4 — Monitorowanie: przygotuj dashboardy przed eksperymentem. Ustal progi zatrzymania eksperymentu (rollback triggers). Krok 5 — Uruchom: zacznij od małego blast radius. Obserwuj metryki w czasie rzeczywistym. Krok 6 — Analiza: czy system zachował się zgodnie z hipotezą? Jeśli nie — znalazłeś słabość. Udokumentuj i napraw. Krok 7 — Automatyzuj: po ręcznym eksperymencie, automatyzuj go w CI/CD pipeline. Gameday: zorganizuj regularne 'gameday' z całym teamem — wspólne symulacje awarii.

Jakie są narzędzia Chaos Engineering?

Narzędzia Chaos Engineering: Chaos Monkey (Netflix/OSS): oryginał. Wyłącza losowe EC2 instances. Ograniczony tylko do AWS + Java. Gremlin: komercyjne, enterprise-grade. Attacks: resource (CPU/memory/disk), network (latency/packet loss/DNS), state (process kill, time travel). Scheduling, blast radius controls. Litmus Chaos (CNCF): open-source, Kubernetes-native. ChaosHub z gotowymi eksperymentami. Chaos Experiments as CRDs w Kubernetes. Chaos Mesh (CNCF): open-source, Kubernetes. Workflow-based eksperymenty. Piękny UI dashboard. Wsparcie dla network, pod, stress, IO chaos. AWS Fault Injection Simulator (FIS): managed AWS service. Native integracja z EC2, ECS, EKS, RDS. Brak potrzeby dodatkowego toolingu w AWS. Steadybit: komercyjne, multi-platform. eBPF-based attacks. Policy enforcement — nie pozwól na eksperymenty bez wymaganych SLOs. ChaosBlade (Alibaba): open-source, multi-platform. Bogate w typy ataków (JVM, Docker, K8s, OS-level). Wybór: zacznij od Litmus Chaos lub Chaos Mesh dla K8s. AWS FIS jeśli heavy AWS. Gremlin dla enterprise z budżetem.

Chaos Engineering a Game Days i Fire Drills?

Chaos Engineering, Game Days i Fire Drills: Chaos Engineering (ciągłe): automatyczne, regularne eksperymenty w CI/CD lub produkcji. Małe, targetowane. Wyniki idą do dashboardu i alertów. Game Day: zaplanowane ćwiczenie całego zespołu. Większy scope — symulacja poważnej awarii (np. AZ failure, database corruption). Cały team on-call + developers + SREs. Czas: pół dnia do pełnego dnia. Output: blameless post-mortem, lista napraw, runbooks. Fire Drill: test konkretnego procedury recovery. Np. 'czy możemy przywrócić bazę danych z backupu w ciągu 2 godzin?' Bardziej formalny, mierzony test vs. Game Day który jest bardziej 'open-ended'. DiRT (Disaster Recovery Testing) at Google: regularne, planowane testy disaster recovery. Kompleksowe, multi-team. Netflix: przeprowadza regularne Chaos Kong — symulacja całego regionu AWS offline. Jak zacząć: 1. Blameless post-mortems po każdym incydencie — fundamentalne. 2. Pierwsze Game Day na staging. 3. Chaos Monkey na non-critical serwisach. 4. Progresywnie zwiększaj scope gdy zbudujesz zaufanie i narzędzia.

Jak zbudować kulturę Chaos Engineering w organizacji?

Budowanie kultury Chaos Engineering: Prerequisity: zanim zaczniesz chaos, musisz mieć: SLOs i SLIs zdefiniowane (wiesz co mierzyć). Observability — distributed tracing, metrics, structured logging. Incident management process — wiesz jak reagować gdy eksperyment pójdzie źle. Blameless culture — ludzie nie boją się błędów i incydentów. Resistance punkty: 'Celowo psujemy system? Jesteśmy szaleni?' Odpowiedź: wolimy znajdować słabości w kontrolowanych warunkach niż podczas prawdziwej awarii. Chaos Engineering zmniejsza, nie zwiększa ryzyko długoterminowo. Buy-in leadership: pokaż ROI — koszt eksperymentu chaos vs. koszt prawdziwej awarii produkcyjnej. Przykład: 1h gameday vs. 4h outage × $X MRR/godzinę. Chaos champions: wyznacz 1-2 osoby jako chaos champions per team. Stopniowe wdrażanie: start with staging → non-critical prod services → critical services. Chaos Engineering Maturity Model (Gremlin): Level 1: ad-hoc, manual. Level 2: structured experiments. Level 3: automated chaos in CI/CD. Level 4: continuous chaos on production. Level 5: org-wide culture. Większość firm powinna dążyć do Level 3-4.

Czytaj dalej