Paris Chaos Engineering Meetup #1

Sponsorisé par
24 novembre 2017

Le Chaos Engineering dans le monde

Programme
16h : Introduction du Meetup
16h05
 Place au Chaos Engineering, une discipline
émergente
Christophe Rochefolle, Directeur Excellence
Opérationnelle – OUI.sncf
16h20
 Chaos Monkey, concept et implémentation
chez OUI.sncf
Benjamin Gakic, Expert Sûreté de Fonctionnement
& facilitateur – OUI.sncf
16h35
 Days Of Chaos, un Chaos Gameday chez
OUI.sncf
Benjamin Gakic, Expert Sûreté de Fonctionnement
& facilitateur - OUI.sncf
16h50
 ChaosToolkit,
une API ouverte pour le Chaos Engineering
Sylvain Hellegouarch / sylvain@chaosiq.io
Suivi de 20 à 30 minutes d’échanges puis
17h30 : After-work pour continuer la discussion
©chaosiq 2017

Place au
Chaos Engineering,
une discipline émergente
Christophe Rochefolle
Directeur Excellence Opérationnelle – OUI.sncf

Si ce n’est pas cassé, ne le répare
pas.
Bert Lance, Nation’s Business, 1977
Si ce n’est pas encore cassé,
essaye plus fort.
Philosophie Chaos Engineering, 2015

Pourquoi
une nouvelle discipline ?
Désordre
SIMPLE
COMPLIQUÉ
CHAOS
COMPLEXE
Procédure
Meilleures pratiques
Observer – Catégoriser – Répondre
Expert
Bonnes pratiques
Observer – Analyser – Répondre
Agilité, Devops & Management 3.0
Pratiques émergentes
Sonder – Observer – Répondre
Produit Sprint
Nouvelles Pratiques
Agir – Observer – Répondre
Chaos Engineering
Causes
Effets
?
Systémique Cause
Effet
Indus
Cause
Effet

CHAOS ENGINEERING
« Discipline de l'expérimentation sur un système distribué afin de
renforcer la confiance dans la capacité du système à résister à des
conditions turbulentes en production. »
http://principlesofchaos.org/
initiée par

La Question :
A quel point votre système
est-il proche du précipice
et peut sombrer
dans le chaos ?

Expérimenter en
production ?!?

Expérimenter
pour éprouver nos systèmes
Expérimenter
pour apprendre

Expérimenter
en production
sur un système stable et performant

Designer
l’expérimentation
1. Question
2. Périmètre
3. Mesure
4. Communiquer
5. Injecter
6. Analyser

Expérimenter
en continue
Automatiser l’expérience
pour qu’elle se réalise en continue
afin de suivre l’évolution du système

Notre histoire commence
fin 2015 …

Chaos Monkey,
Du concept à l’implémentation
Benjamin Gakic
Expert Sûreté de Fonctionnement & facilitateur - OUI.sncf

Auto-scaling:
Dimensionner son architecture aux justes
besoins du moment, c’est-à-dire de
pouvoir dynamiquement augmenter ou
réduire le nombre d’instances nécessaires
au bon fonctionnement du SI sans
pénaliser les performances.
Scale up :
le système peine, il faut créer plus
d’instances pour absorber la charge.
Scale down :
le système est en sous charge, il ne sert à
rien de disposer de trop d’instances, on les
retire pour adapter la charge.
Scale initial :
C’est le nombre d’instances optimal
devant être disponible à tout moment.
On peut tester l’implémentation
avec un tir de charge

La vrai question n’est pas de savoir si ça va tomber mais quand ça va tomber
Werner Vogels: “Everything fails all the time”
Si vous savez que ça va tomber, forcément vous en tenez compte
CTO @Amazon

Je n’ai pas d’auto scaling, je ne suis pas chez
AWS, puis-je faire du chaos monkey?

Conserver les mêmes concepts autour du Chaos Engineering
Redéfinir et adapter le Chaos Monkey à son infrastructure :
• Valider la résilience des applications sur le même symptôme
• Vérifier la présence d’effets inattendus

L’implémentation technique?...

Le plus important n’est pas
l’implémentation en elle-même mais la
manière dont on implémente

POC
Squad inter-équipe dev & ops
Développement en mode expérimental,
à base de mini-hackatons
Mars 2016
Mai 2017
Fin 2017
Janvier 2016
Octobre 2016
Février 2017

Communauté
Résilience et Tests Techniques
Objectifs :
• Proposer des outils de test de résilience
• Aider à la mise en place des outils et patterns
• Apporter un changement culturel
Mars 2016
Mai 2017
Fin 2017
Janvier 2016
Octobre 2016
Février 2017

Grâce à la communauté
nous disposons d’un bestiaire
à l’image de la Simian army
de Netflix
Mars 2016
Mai 2017
Fin 2017
Janvier 2016
Octobre 2016
Février 2017

Initiation au test en production,
La panne va-t-elle avoir un impact notable?
Pilotage et validation pour les devs Entrainement pour les ops
Chaos Monkey
Bridé
Mars 2016
Mai 2017
Fin 2017
Janvier 2016
Octobre 2016
Février 2017

Chaos Monkey en production,
La finalité
Mon appli en prod
Chaos Monkey
Libéré! Délivré!
LES DEV OPS
Même pas peur
Objectif :
Aucun impact financier
Même pas mal!
Mars 2016
Mai 2017
Fin 2017
Janvier 2016
Octobre 2016
Février 2017

Premier Chaos Monkey en production…
…et la production marche toujours
Mars 2016
Mai 2017
Fin 2017
Janvier 2016
Octobre 2016
Février 2017

Nous prévoyons 5 applications exécutant
régulièrement un chaos monkey en production
Mars 2016
Mai 2017
Fin 2017
Janvier 2016
Octobre 2016
Février 2017

#1 : Le Chaos Monkey n’est pas un outil de test

#2 : Le Chaos Monkey ce n’est pas casser la prod juste pour s’amuser

#3 : Le Chaos Monkey n’est pas un phénomène de mode, il s’inscrit
dans une démarche

Comme toute démarche, une action unique
ne suffit pas

Benjamin Gakic
Expert Sûreté de Fonctionnement & facilitateur - OUI.sncf
Days of Chaos
Chapter One
Vendredi 13 Janvier 2017

DaysofChaos
Vous allez subir des vagues de pannes en provenance des tréfonds de l’exploitation.
Votre mission est de repousser ces vagues et de
détecter, diagnostiquer et résoudre
les pannes le plus vite possible.
L’avenir de notre production dépend de vous…
Détection :
+100
Diagnostic :
+150
Résolution :
+200
Bonus 1ère proposition:
+100
Indice :
-50
Nombrederounds: 8
Récompenses:
3

Résolution Dev
Incident Ops
Détection Dev Diagnostic Dev
Remise en état...
Validation Ops
Gestion d’une panne Question bonus Vidéo explicative1 2 3

Sans ops rien n’est
possible!
Impliquer
Convaincre

113 joueurs
18 équipes 2 commentateurs
2 aides de camp
8 ops

Objectif accompli !
Détection : 87%
Diagnostic : 73%
Résolution : 45%

Supervision et alerting
Tests techniques
Partage des connaissances
Arbres d’analyse
8 -> 6 pannes
4h -> 3h30 de jeu
80% Intérêt du jeu
70% Qualité de l’organisation
74% Prise de conscience
• Disponibilité
• Préparation des pannes
• Trop peu pour gérer autant de joueurs
• Quelques ratés organisationnels
• Ambiance
• Nouveauté
• Intérêt
• Jeu bien calibré pour une première

Communication et marketing
Cohésion intra et inter-équipes
Gamification
Points forts

A vous d’organiser vos Days of Chaos!
Partagez vos expériences sur http://days-of-chaos.com

C’était le début de notre histoire…
… pour commencer la vôtre,
et si vous utilisiez un framework
pour bootstrapper ?

Continuellement
challenger le système et
nos acquis

Chaos Engineering
with the chaostoolkit

Une API ouverte pour la
chaos engineering

Le chaostoolkit n’est pas
prescriptif

Le chaostoolkit s’adapte
à vos environnements et
process

chaostookit en quelques mots
• Open-Source (Apache v2)
• Extensible (déjà Kubernetes, Gremlin, Prometheus, Kubesec…)
• Plateforme agnostique
• Python 3
• Workshop à Munich lundi 20/11 basé sur le chaostoolkit

Une interface accessible
de pilotage et
d’apprentissage
d’initiatives chaos
engineering

chaostoolkit - Collecter l’information
Probes => pour interroger et collecter de l’information durant l’expérience
"probes": {
"close": {
"title": "Fetch the CPU usage for our service",
"layer": "application",
"type": "python",
"module": "chaosprometheus.probes",
"func": "query",
"arguments": {
"query": "process_cpu_seconds_total{job='websvc'}",
"when": "2 minutes ago"
}
}
}

chaostoolkit - Agir sur le système
Actions => conditions de stress du système
"action": {
"title": "Let's max out the CPU of a node",
"layer": "application",
"type": "python",
"module": "chaosgremlin.actions",
"func": "attack",
"background": true,
"secrets": "gremlin",
"arguments": {
"command": {
"type": "cpu"
},
"target": {
"type": "Random"
}
}
}

JESSE ROBBINS
Ex-Amazon « Master of disaster »
Fondateur et CEO de OrionLabs
Ancien pompier
Créateur du concept de « GameDay »
Merci aux papas du Chaos Engineering
YURY IZRAILEVSKY
Directeur Cloud &
Infrastructure NETFLIX
ARIEL TSEITLIN
Directeur des solutions
Cloud NETFLIX
Créateurs du concept de « Chaos Monkey »
« For every dollar spent in
failure, learn a dollar’s
worth of lesson. »
“Our journey to the cloud at Netflix began in August of 2008, when we experienced a
major database corruption and for three days could not ship DVDs to our members.
That is when we realized that we had to move away from vertically scaled single points
of failure, like relational databases in our datacenter, towards highly reliable,
horizontally scalable, distributed systems in the cloud.”

Merci à la nouvelle génération

Pour continuer à échanger, rejoignez-nous sur le groupe
Paris Chaos Engineering Meetup
http://meetu.ps/c/3BMlX/xNjMx/f
Merci à
pour l’accueil et l’organisation de ce premier Meetup
et…

Paris Chaos Engineering Meetup #1

Contenu connexe

Paris Chaos Engineering Meetup #1

Notes de l'éditeur