Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Plan de Continui

Télécharger au format docx, pdf ou txt
Télécharger au format docx, pdf ou txt
Vous êtes sur la page 1sur 12

PLAN DE CONTINUITE D’ACTIVITE (INFORMATIQUE)  

: CAS DE
LA DIRECTION GENERALE

Le plan de continuité de l’activité est un document qui décrit la stratégie à adopter pour faire
face, selon leur priorisation, à des risques identifiés, selon la probabilité de leur survenance et
la gravité de leur impact. Il s’agit d’un document qui définit des procédures et les ressources
associées.

La mise en place et le maintien du PCA se réalisent en six étapes successives. Ces six étapes
sont plus ou moins difficiles à mettre en œuvre, car elles nécessitent à chaque fois la
participation de plusieurs intervenants ainsi que la validation de la direction du groupe.

1) Le cycle de vie du PCA


 L’identification des fonctions/activités essentielles à la poursuite des activités de
l’entreprise.
 L’identification des technologies maîtrisées et des choix retenus par l’entreprise.
 La définition des solutions de secours ou du Plan de Secours Informatique (PSI).
 La définition de la gestion de crise.
 Réalisation des tests.
 Maintien en condition opérationnelle

a- Définition du périmètre

Cette étape consiste à définir le périmètre des actifs critiques (activités et processus,
organisations et infrastructures) de l’entreprise à maintenir démarré en priorité en cas
d’incident ou de sinistre. Pour chacune de ces activités (applications informatiques et/ou
processus), une Durée Maximale d’Interruption Admissible (DMIA), également connu sous le
nom de Recovery Time Objective (RTO) et une Perte de Données Maximale Admissible
(PDMA) connu sous le nom de Recovery Point Objective (RP) vont être définis. La
DMIA/RTO peut se traduire par la durée maximale d’interruption d’un service offert aux
usagers que l’on juge admissible avant que l’entreprise n’en supporte des effets trop lourds, en
terme financier ou d’image de marque. La PDMA/RPO représente la durée maximum
d’enregistrement des données qu’il est acceptable de perdre, c’est-à-dire le temps qui s’est
écoulé depuis que la dernière sauvegarde a été réalisée. Il convient donc de se poser les
questions suivantes, pour calculer une DMIA et une PDMA : DMIA : Pendant combien de
temps pouvons-nous supporter de nous passer de telle application et/ou tel processus. Par
exemple, pendant combien de temps pouvons-nous supporter qu’un client n’ait pas accès à la
partie support/web du groupe et donc accès à la gestion de ses tickets. PDMA : De combien
de temps doit dater la dernière sauvegarde qui a été réalisée, pouvons-nous supporter de
perdre par exemple, les 4 dernières heures de travail, les 8 dernières heures de travail, etc.
donc plus le RPO est faible, plus la fréquence de sauvegarde des données devra être rapide.

Pour mener la réflexion plus en avant, plusieurs paramètres ont été également pris en compte
et un croisement de ces paramètres a été effectué. La criticité d’une application, une liste des
différents types de risques auxquels ces applications sont soumises, un niveau d’impact de ces
risques, une évaluation de la probabilité et de la récurrence de ces évènements et donc un
niveau d’importance qu’un risque fait courir sur notre qualité de service.

b- Enumération des fonctions de l’entreprise

 Direction Générale
 Département social et juridique
 Direction commerciale :
 Service logistique
 Service commande
 Service stock
 Service vente
 Direction administrative :
 Service finance
 Service Ressource Humaine
 Service achat
 Service comptabilité
 Service audit
 Direction technique :
 Service informatique
 Service froid et climatisation
 Service entrepôt
 Service génie civil
 Service chariot
 Service infirmerie
 Service garage
 Secrétariat

c- Listing des services et applications informatiques utilisés

Services/Applications Départements Utilités


concernés
Services
Internet Tous
Téléphonie VOIP Tous
Impression Tous
Messagerie Tous
professionnelle
Outlook
Réseau local Tous
Réseau ondulé Tous
VPN Tous
Tracking Logistique
Serveur d’application Tous
Odoo
Serveur d’application Tous
OpenERP
Biométrie Comptabilité
Applications
CongelAchat Achat Produire des bons de commande
GestRessources Achat Gestion des stocks
Congeldep_caisse Caisse Pour gérer les dépenses de caisse
Saagecomptabilité Comptabilité Gérer les opérations comptables
CongelReport Commande
ReportZone

d- Les équipements de la salle serveur


 01 Baie de brassage
 01 Onduleur principale de 5KVA
 01 Onduleur secondaire de 1.5KVA
 01 serveur HP proliant DL380 Gen10 pour Odoo
 01 serveur HP proliant DL580 G7 pour OpenERP
 01 serveur HP proliant ML350 Gen9 pour sauvegarde + comptabilité
 01 serveur HP proliant ML10 Gen9 pour petites applis
 01 routeur mikrotik RB2011 UI A5-RM pour connexion internet MATRIX
 01 routeur mikrotik RB2011 UI AS-2HND-IN pour connexion internet CAMTEL
 01 routeur cisco 2900 series pour call manager
 01 routeur cisco 2811 pour VPN
 02 switchs mikrotik CSS326-24G-2S+RM
 01 switch cisco SG-92-24
 01 Moniteur HP V213a pour vidéosurveillance
 01 Moniteur HP L1908w
 01 NVR dalua DH-XVR 5432N-X pour vidéosurveillance
 Tiroir optique
 Convertisseur optique
 Prises rackables
 Convertisseur électrique
 Coffret de distribution réseau informatique CAMTEL
 Coffrets de brassage électrique
 Coffret de protection parafoudre
 Coffret d’alimentation vidéosurveillance
 Disjoncteur tétrapolaire pour protection onduleur
 Connecteurs PoE pour alimenter les antennes Orange et MTN
 01 Climatiseur Midea

2) Analyse des risques et des différents types de menaces

RISQUES / MENACES NATURE IMPACT MESURES


CORRECTIVES
Dégât des eaux, crues : Naturelle Destruction totale ou partielle des
locaux ou équipements (ex : foudre)
Incendie : Naturelle Destruction totale ou partielle
d’équipements
Défaillance de la Naturelle/Humaine Son arrêt peut provoquer le
climatisation : dysfonctionnement ou l’arrêt du SI
Perte d’alimentation Naturelle/Humaine Arrêt de tous les services et
énergétique : activités
Perte des télécommunications Naturelle/Humaine Absence de réseau téléphonique
:
Panne matérielle : Usure, Naturelle/Humaine
vieillissement, défaut de
maintenance, mauvais emploi
Dysfonctionnement matériel : Humaine
Dégradations, erreurs de
programmation…
Dysfonctionnement logiciel : Humaine
Destruction des matériels : Ex Humaine Perte de données
: sabotage des supports de
données
Reniement d’actions : Humaine
Erreur de saisie : Ex : Humaine
données fausses
Erreur d’utilisation : Humaine
Attaque, Virus : Humaine Perte de données
Interception de signaux Humaine
parasites compromettants :
Espionnage à distance/Écoute Humaine
passive :
Vol de supports ou de Humaine
documents :
Effraction/Vol de matériels : Humaine
Divulgation interne/externe : Humaine
Informations sans garantie Humaine
d’origine : Faux ou
contrefaçons (atteinte fiabilité
des informations)
Piégeage du matériel : Humaine
Utilisation illicite du Humaine
matériel :
Abus/usurpation de droit : Humaine
Ex-administrateur réseau qui
modifie les caractéristiques
d’exploitation
Altération du logiciel : Action Humaine
visant à altérer ou détruire les
programmes
Copie frauduleuse du Humaine
logiciel : Copies pirates par le
personnel
Utilisation de logiciels Humaine
contrefaits ou copiés
Altération des données : Humaine
Atteinte à la disponibilité du Humaine
personnel : Maladie ou tout
empêchement, volontaire
(absentéisme…)

3) Choix des solutions


Il existe plusieurs méthodes pour assurer la continuité de service d'un système d'information.
Certaines sont techniques (choix des outils, méthodes de protection d'accès et
de sauvegarde des données), d'autres reposent sur le comportement individuel des utilisateurs
(extinction des postes informatiques après usage, utilisation raisonnable des capacités de
transfert d'informations, respect des mesures de sécurité), sur des règles et connaissances
collectives (protection incendie, sécurité d'accès aux locaux, connaissance de l'organisation
informatique interne de l'entreprise) et de plus en plus sur des conventions passées avec des
prestataires (copie des programmes, mise à disposition de matériel de secours, assistance au
dépannage).

Les méthodes se distinguent entre préventives (éviter la discontinuité) et curatives (rétablir


la continuité après un sinistre). Les méthodes préventives sont souvent privilégiées, mais
décrire les méthodes curatives est une nécessité car aucun système n'est fiable à 100 %.

a- Mesures préventives

Dans le cadre de l'hébergement de leurs infrastructures et/ou applications la majorité des


organisations évoquent avoir besoin des solutions suivantes afin d’assurer la continuité de
service de leurs applications métiers et infrastructures informatiques et télécoms sous -
jacentes :

 Sauvegarde et restauration de données ;


 Planning des actions à mener en cas de ;
 Conservation et archivage de données ;

Viennent ensuite, par ordre décroissant de citations, les solutions de réplication, mirroring et
secours multi-sites ou sur un autre site distant, de basculement sur un réseau de secours,
d’analyse de procédures et stratégies assurant la continuité de business, de gestion de bande
passante, de sécurité physique et logique…

 Gestion des accès

 Sauvegarde et restauration des données :


La préservation des données passe par des copies de sauvegarde régulières. Il est important de
ne pas stocker ces copies de sauvegarde à côté du matériel informatique, voire dans la même
pièce car elles disparaitraient en même temps que les données à sauvegarder en cas d'incendie,
de dégât des eaux, de vol, etc. Lorsqu'il est probable que les sauvegardes disparaissent avec le
matériel, le stockage des copies de sauvegarde peut alors être nécessaire dans un autre lieu
différent et distant. L’analyse d’impact a fourni des exigences exprimées en temps maximal
de rétablissement des ressources après un désastre (RTO: Recovery Time Objective ou Durée
maximale d'interruption admissible) et la perte maximale de données (RPO Recovery Point
Objective ou Perte de données maximale admissible). La stratégie doit garantir que ces
exigences seront observées.

 Les systèmes de secours :

Il s'agit de disposer d'un système informatique équivalent à celui pour lequel on veut limiter
l'indisponibilité : ordinateurs, périphériques, systèmes d'exploitation, programmes particuliers,
etc. Une des solutions consiste à créer et maintenir un site de secours, contenant un système
en ordre de marche capable de prendre le relais du système défaillant. Selon que le système de
secours sera implanté sur le site d'exploitation ou sur un lieu géographiquement différent, on
parlera d'un secours in situ ou d'un secours déporté.

Pour répondre aux problématiques de recouvrement de désastre, on utilise de plus en plus


fréquemment des sites délocalisés, c'est-à-dire physiquement séparés des utilisateurs, de
quelques centaines de mètres à plusieurs centaines de kilomètres : plus le site est éloigné,
moins il risque d'être touché par un désastre affectant le site de production. Mais la solution
est d'autant plus chère, car la bande passante qui permet de transférer des données d'un site
vers l'autre est alors généralement plus coûteuse et risque d'être moins performante.
Cependant la généralisation des réseaux longues distances et la baisse des coûts de
transmission rendent moins contraignante la notion de distance : le coût du site ou la
compétence des opérateurs (leur capacité à démarrer le secours rapidement et rendre l'accès
aux utilisateurs) sont d'autres arguments de choix.

Voici les différentes solutions de sites de secours, de la moins coûteuse à la plus coûteuse :

• Les salles blanches, appelées également « sites froids » Il s’agit d’une salle vide, prête à
recevoir le matériel informatique en cas de déclenchement du plan de reprise.
• Les salles oranges, appelées également « sites tièdes » Une salle orange est un intermédiaire
entre une salle blanche et une salle rouge. Dans une salle orange, seuls les serveurs, dédiés
aux applications les plus critiques du SI, sont déjà présents et prêts à fonctionner.

• Les salles rouges, appelées également « sites chauds » Dans le cas d’une salle rouge, tous les
équipements nécessaires à la reprise du SI, sont présents et prêts à fonctionner. Par contre,
selon les choix technologiques mises en œuvre en matière de sauvegarde et de stockage
(sauvegarde à distance, journalisation à distance, ou réplication asynchrone), les données
applicatives seront disponibles plus ou moins rapidement en cas de besoin.

• Les salles miroirs Une salle miroir est similaire à une salle rouge, sauf que dans le cas d’une
salle miroir, les données applicatives sont disponibles instantanément, grâce à un mécanisme
de réplication synchrone. On distingue deux catégories de salles miroirs. Soit la salle miroir
est passive et ne traite aucune donnée de production. Elle ne devient active qu’en cas de
déclanchement du plan de continuité informatique. Soit elle est pleinement active, et la
production est partagée en permanence entre les deux sites. Le choix technologique, entre ces
différents moyens, doit être fait, en fonction de la durée d’indisponibilité tolérée par le SI.
Bien entendu, cela peut varier d’une application à une autre, et des choix différents peuvent
cohabiter au sein d’un même PCI.

Plus les temps de rétablissement garantis sont courts, plus la stratégie est coûteuse. Il faut
donc choisir la stratégie qui offre le meilleur équilibre entre le coût et la rapidité de reprise.

D'autre part pour des problématiques de haute disponibilité on a recours aussi à de la


redondance mais de manière plus locale.

 Doublement d'alimentation des baies des serveurs


 Redondance des disques en utilisant la technologie RAID
 Redondance de serveurs avec des systèmes de load balancing (répartition des
requêtes) ou de heartbeat (un serveur demande régulièrement sur le réseau si son
homologue est en fonctionnement et lorsque l'autre serveur ne répond pas, le
serveur de secours prend le relais).

Il est aussi possible de recourir à un site secondaire de haute disponibilité qui se situe
généralement près du site de production (moins de 10 kilomètres) afin de permettre de les
relier avec de la fibre optique et synchroniser les données des deux sites en quasi temps réel
de manière synchrone ou asynchrone selon les technologies utilisées, les besoins et
contraintes techniques.

 Une bonne information et un bon partage des rôles :

Quel que soit le degré d'automatisation et de sécurisation d'un système informatique, la


composante humaine reste un facteur important. Pour limiter le risque de panne, les acteurs
d'un SI (service informatique) doivent adopter les comportements les moins risqués pour le
système et éventuellement savoir accomplir des gestes techniques.

 Pour les utilisateurs, il s'agit


o de respecter les normes d'utilisation de leurs ordinateurs : n'utiliser que
les applications référencées par les mainteneurs du SI, ne pas
surcharger les réseaux par des communications inutiles
(téléchargements massifs, échanges de données inutiles, rester
connecté sans nécessité), respecter la confidentialité des codes d'accès ;
o de savoir reconnaître les symptômes de panne (distinguer un blocage
d'accès d'un délai de réponse anormalement long, par exemple) et
savoir en rendre compte le plus vite possible.
 Pour les opérateurs du SI, il s'agit d'avoir la meilleure connaissance du système en
termes d'architecture (cartographie du SI) et de fonctionnement (en temps réel si
possible), de faire régulièrement les sauvegardes et de s'assurer qu'elles sont
utilisables.
 Pour les responsables, il s'agit de faire les choix entre réalisations internes et
prestations externes de manière à couvrir en totalité le champ des actions à
conduire en cas de panne (par exemple, rien ne sert d'avoir des machines de
secours si on ne prévoit pas la mise à jour de leur système d'exploitation), de
passer les contrats avec les prestataires, d'organiser les relations entre les
opérateurs du SI et les utilisateurs, de décider et mettre en œuvre les exercices de
secours, y compris le retour d'expérience.

b- Mesures curatives
Selon la gravité du sinistre et la criticité du système en panne, les mesures de rétablissement
seront différentes.

 La reprise des données :

Dans cette hypothèse, seules des données ont été perdues. L'utilisation des sauvegardes est
nécessaire et la méthode, pour simplifier, consiste à réimplanter le dernier jeu de sauvegardes.
Cela peut se faire dans un laps de temps court (quelques heures), si l'on a bien identifié les
données à reprendre et si les méthodes et outils de réimplantation sont accessibles et connus.

 Le redémarrage des applications :

À un seuil de panne, plus important, une ou des applications sont indisponibles. L'utilisation
d'un site de secours est envisageable, le temps de rendre disponible l'application en cause.

 Le redémarrage des machines :

 Provisoire : utilisation des sites de secours


 Définitif : après dépannage de la machine d'exploitation habituelle, y rebasculer les
utilisateurs, en s'assurant de ne pas perdre de données et si possible de ne pas
déconnecter les utilisateurs.

Définition et objectifs du PCA

Le plan de continuité d’activité est un processus de management qui identifie


les menaces potentielles et leurs impacts sur l’entreprise, et détaille des procédures permettant
d’assurer la continuité de l’activité en cas de problème. Le PCA ressemble beaucoup au PRA,
ou plan de reprise d’activité, mais il adopte une approche différente : le PRA a pour but
d’assurer une reprise rapide après un arrêt, tandis que le PCA vise à assurer la continuité des
activités. La différence entre les deux plans tient ainsi au temps d’indisponibilité du matériel,
moins important dans le cas du PCA.

Les différentes étapes de la mise en place d’un PCA

 Étape 1 : Étude du contexte. Tout PCA réussi prend en compte les spécificités de
l’entreprise en termes de style de pilotage et de politique de gestion des ressources
humaines et matérielles, ainsi que les contraintes liées à son secteur d’activité. On peut
ainsi dresser la liste des activités essentielles à l’activité de l’organisation, et apprécier
le niveau de risque acceptable.
 Étape 2 : Définition de la durée d’indisponibilité acceptable et du niveau de service
minimum pour chaque activité.
 Étape 3 : Identification des scénarios de crise prioritaires. Il faut quantifier l’impact
des risques selon leur nature, avec comme critères la probabilité d’occurrence et la
gravité de l’incident. Cette démarche permet de savoir quelles menaces sont les plus
critiques pour l’entreprise, et d’identifier les actions de prévention et de protection
indispensables.
 Étape 4 : Liste des moyens et procédures à mettre en œuvre. Le but est de pouvoir
continuer à utiliser des réseaux et matériels en cas de sinistre ; il peut s’agir de
ressources non-affectées par la crise ou de ressources externes. Les données critiques
doivent être dupliquées pour garantir une disponibilité maximale.
 Étape 5 : Rédaction du plan. Le document décrit en détail les réponses aux différents
scénarios de crise. Les personnes qui jouent un rôle dans ces procédures doivent être
clairement identifiées. Le texte doit être clair, afin de pouvoir être compris par des
personnes qui n’ont pas encore été formées.
 Étape 6: Contrôle et évolution du plan. Le PCA n’est pas un document figé : il doit
évoluer pour répondre aux changements de l’organisation. Des dispositifs de
vérification et de contrôle permettent de s’assurer de son efficacité et des points à
repenser.

Vous aimerez peut-être aussi