7. Si ce n’est pas cassé, ne le répare
pas.
Bert Lance, Nation’s Business, 1977
Si ce n’est pas encore cassé,
essaye plus fort.
Philosophie Chaos Engineering, 2015
9. CHAOS ENGINEERING
« Discipline de l'expérimentation sur un système distribué afin de
renforcer la confiance dans la capacité du système à résister à des
conditions turbulentes en production. »
http://principlesofchaos.org/
initiée par
10. La Question :
A quel point votre système
est-il proche du précipice
et peut sombrer
dans le chaos ?
20. Chaos Monkey,
Du concept à l’implémentation
Benjamin Gakic
Expert Sûreté de Fonctionnement & facilitateur - OUI.sncf
21. Auto-scaling:
Dimensionner son architecture aux justes
besoins du moment, c’est-à-dire de
pouvoir dynamiquement augmenter ou
réduire le nombre d’instances nécessaires
au bon fonctionnement du SI sans
pénaliser les performances.
Scale up :
le système peine, il faut créer plus
d’instances pour absorber la charge.
Scale down :
le système est en sous charge, il ne sert à
rien de disposer de trop d’instances, on les
retire pour adapter la charge.
Scale initial :
C’est le nombre d’instances optimal
devant être disponible à tout moment.
On peut tester l’implémentation
avec un tir de charge
23. La vrai question n’est pas de savoir si ça va tomber mais quand ça va tomber
Werner Vogels: “Everything fails all the time”
Si vous savez que ça va tomber, forcément vous en tenez compte
CTO @Amazon
24. Je n’ai pas d’auto scaling, je ne suis pas chez
AWS, puis-je faire du chaos monkey?
25. Conserver les mêmes concepts autour du Chaos Engineering
Redéfinir et adapter le Chaos Monkey à son infrastructure :
• Valider la résilience des applications sur le même symptôme
• Vérifier la présence d’effets inattendus
27. Le plus important n’est pas
l’implémentation en elle-même mais la
manière dont on implémente
28. POC
Squad inter-équipe dev & ops
Développement en mode expérimental,
à base de mini-hackatons
Mars 2016
Mai 2017
Fin 2017
Janvier 2016
Octobre 2016
Février 2017
29. Communauté
Résilience et Tests Techniques
Objectifs :
• Proposer des outils de test de résilience
• Aider à la mise en place des outils et patterns
• Apporter un changement culturel
Mars 2016
Mai 2017
Fin 2017
Janvier 2016
Octobre 2016
Février 2017
30. Grâce à la communauté
nous disposons d’un bestiaire
à l’image de la Simian army
de Netflix
Mars 2016
Mai 2017
Fin 2017
Janvier 2016
Octobre 2016
Février 2017
31. Initiation au test en production,
La panne va-t-elle avoir un impact notable?
Pilotage et validation pour les devs Entrainement pour les ops
Chaos Monkey
Bridé
Mars 2016
Mai 2017
Fin 2017
Janvier 2016
Octobre 2016
Février 2017
32. Chaos Monkey en production,
La finalité
Mon appli en prod
Chaos Monkey
Libéré! Délivré!
LES DEV OPS
Même pas peur
Objectif :
Aucun impact financier
Même pas mal!
Mars 2016
Mai 2017
Fin 2017
Janvier 2016
Octobre 2016
Février 2017
33. Premier Chaos Monkey en production…
…et la production marche toujours
Mars 2016
Mai 2017
Fin 2017
Janvier 2016
Octobre 2016
Février 2017
34. Nous prévoyons 5 applications exécutant
régulièrement un chaos monkey en production
Mars 2016
Mai 2017
Fin 2017
Janvier 2016
Octobre 2016
Février 2017
35. #1 : Le Chaos Monkey n’est pas un outil de test
36. #2 : Le Chaos Monkey ce n’est pas casser la prod juste pour s’amuser
37. #3 : Le Chaos Monkey n’est pas un phénomène de mode, il s’inscrit
dans une démarche
39. Benjamin Gakic
Expert Sûreté de Fonctionnement & facilitateur - OUI.sncf
Days of Chaos
Chapter One
Vendredi 13 Janvier 2017
40. DaysofChaos
Vous allez subir des vagues de pannes en provenance des tréfonds de l’exploitation.
Votre mission est de repousser ces vagues et de
détecter, diagnostiquer et résoudre
les pannes le plus vite possible.
L’avenir de notre production dépend de vous…
Détection :
+100
Diagnostic :
+150
Résolution :
+200
Bonus 1ère proposition:
+100
Indice :
-50
Nombrederounds: 8
Récompenses:
3
49. Supervision et alerting
Tests techniques
Partage des connaissances
Arbres d’analyse
8 -> 6 pannes
4h -> 3h30 de jeu
80% Intérêt du jeu
70% Qualité de l’organisation
74% Prise de conscience
• Disponibilité
• Préparation des pannes
• Trop peu pour gérer autant de joueurs
• Quelques ratés organisationnels
• Ambiance
• Nouveauté
• Intérêt
• Jeu bien calibré pour une première
82. chaostoolkit - Collecter l’information
Probes => pour interroger et collecter de l’information durant l’expérience
"probes": {
"close": {
"title": "Fetch the CPU usage for our service",
"layer": "application",
"type": "python",
"module": "chaosprometheus.probes",
"func": "query",
"arguments": {
"query": "process_cpu_seconds_total{job='websvc'}",
"when": "2 minutes ago"
}
}
}
83. chaostoolkit - Agir sur le système
Actions => conditions de stress du système
"action": {
"title": "Let's max out the CPU of a node",
"layer": "application",
"type": "python",
"module": "chaosgremlin.actions",
"func": "attack",
"background": true,
"secrets": "gremlin",
"arguments": {
"command": {
"type": "cpu"
},
"target": {
"type": "Random"
}
}
}
86. JESSE ROBBINS
Ex-Amazon « Master of disaster »
Fondateur et CEO de OrionLabs
Ancien pompier
Créateur du concept de « GameDay »
Merci aux papas du Chaos Engineering
YURY IZRAILEVSKY
Directeur Cloud &
Infrastructure NETFLIX
ARIEL TSEITLIN
Directeur des solutions
Cloud NETFLIX
Créateurs du concept de « Chaos Monkey »
« For every dollar spent in
failure, learn a dollar’s
worth of lesson. »
“Our journey to the cloud at Netflix began in August of 2008, when we experienced a
major database corruption and for three days could not ship DVDs to our members.
That is when we realized that we had to move away from vertically scaled single points
of failure, like relational databases in our datacenter, towards highly reliable,
horizontally scalable, distributed systems in the cloud.”
88. Pour continuer à échanger, rejoignez-nous sur le groupe
Paris Chaos Engineering Meetup
http://meetu.ps/c/3BMlX/xNjMx/f
Merci à
pour l’accueil et l’organisation de ce premier Meetup
et…
Définir qu’elle est l’hypothèse que l’on veut expérimenter : souhaite-t-on tester la résilience d’un composant, d’une application, d’une organisation ?
Définir le périmètre de l’expérience : est-ce tout ou partie de la production ? est-ce uniquement l’environnement technique seul ou inclure également les interventions humaines (surveillance, exploitation, support),
Identifier précisément les métriques qui permettront de valider l’expérience et éventuellement de l’arrêter instantanément en cas d’impact critique,
Prévenir l’organisation de l’existence de l’expérimentation – pour éviter l’escalade en cas d’incident critique
Réaliser l’expérience
Analyser les résultats, mettre en place les éventuels plans d’action nécessaires
Elargir le scope pour la prochaine expérience.
Automatiser l’expérience pour qu’elle se réalise en continue afin de suivre l’évolution du système.
On veut de la séduction?
Préparons notre jeu comme un jeu vidéo avec une vrai jaquette!
Ops ont les droits et connaissent un rayon sur les pannes!
Subir ma vie d’exploitant
Transformer la relation avec les devs
Sortir de la routine
Rappel objectif :
Sdf
Devops (faire une sorte de mini subit ma vie)
Marquer les esprits
Pannes Système! Celles que vivent les ops.
Ceci aura été l’hameçonnage pour les ops. Faites subir aux devs ce que vous vivez!
Besoin d’implication forte de la partie ops.
Présentation comme un jeu mais aussi comme une opportunité de faire un « vie ma vie d’exploitant ». Permettre de sensibiliser les équipes au travail fait et aux pannes les plus fréquentes ou au besoin de bien communiquer et développer les applications.
2 ateliers de création des pannes : 20 exploitants mobilisés en 2 sessions d’une heure. 40 pannes proposées. 15 short listées pour leur pertinence. 8 sélectionnées par facilité de mise en oeuvre et possibilité de résolution par les équipes de dev (il faut rester pragmatique).
Désignation d’une équipe de choc pour gérer le scripting et la réalisation des pannes
Phase de com’ – Opération séduction
Des affiches de teasing créant une rupture avec toutes les autres opérations de com’ réalisées jusqu’à présent.
Le thème principal : le jeu de guerre en reprenant comme support culturel « Ender’s Game (la strategie Ender) » de Scott Orson card.
Des affiches posées avec très peu d’information, juste un « engagez-vous ».
Un ajout à un moment donné d’une adresse vers un site interne réalisé pour l’événement avec sa propre charte graphique et son formulaire d’engagement.
Une com’ réglementaire par mail venant compléter le tout et enfonçant le clou.
Phase de jeu – Le jour J
Début à 9h
4 + 8 + 5 personnes dédiées au déroulement. Deux commentateurs maitres de cérémonie (un à Paris, un à Nantes), une aide ops, une chargée de classement et de décompte de points, 8 ops à 150%, 2 com’ interne, 3 services généraux.
Une conf Skype avec deux commentateurs donnant des informations sur le déroulement et les avancées du jeu
Une room hipchat pour les communications officielles et les réponses
Une conf Skype dediée ops
7 pannes déroulées dont une a râté. Une dernière annulée suite à un incident sur la preprod.
Fin à 12h30
Remise des prix à 14h. Plus de 200 spectateurs
Phase de jeu – Le jour J
Début à 9h
4 + 8 + 5 personnes dédiées au déroulement. Deux commentateurs maitres de cérémonie (un à Paris, un à Nantes), une aide ops, une chargée de classement et de décompte de points, 8 ops à 150%, 2 com’ interne, 3 services généraux.
Une conf Skype avec deux commentateurs donnant des informations sur le déroulement et les avancées du jeu
Une room hipchat pour les communications officielles et les réponses
Une conf Skype dediée ops
7 pannes déroulées dont une a râté. Une dernière annulée suite à un incident sur la preprod.
Fin à 12h30
Remise des prix à 14h. Plus de 200 spectateurs
War room côté ops pour éviter une conf dédiée parallèle + effet je suis dédié à l’événement. Possibilité pour les ops de participer à la conf gobale
Prévoir plus d’ops pour faciliter le traitement des demandes des équipes.
Descendre de 4h à 3h d’événement.
Pousser peu plus loin les répétitions et les préparations des pannes.
Planifier la fin des inscriptions plus tôt. Laisser un délais de un mois entre la fin des inscriptions et l’événement.
Un sujet difficile, peu motivant rendu plus accessible par la gamification