Mardi 19h. Le ciel, gris et chargé, est en phase avec la soirée délicate qui se prépare.
« Monsieur le Président, c’est ce soir que nous faisons la bascule en conditions réelles ».
« Vous êtes confiants ? »
Vous parlez si je suis confiant … Avec l’équipe, nous avons la boule au ventre. Confiants, un peu… stressés, beaucoup.
Ce soir, nous lançons le Plan de Reprise Informatique (PRI) pour la 1ère fois en conditions réelles. Isolement total du data center principal à 23h. Nous avons 2 heures max pour que le datacenter secondaire soit complètement opérationnel, avec un retour à la normale de l’ensemble des processus identifiés et une perte de données autorisée inférieure à la minute.
Nous resterons 2 semaines sur le datacenter secondaire, avant de rebasculer sur le principal. Bref, c’est du sérieux.
C’est l’aboutissement de 6 mois de tests unitaires, tests d’intégration, bascules partielles et validations en tous genres. 6 mois que l’on voit que la moindre anomalie, même minime, peut faire échouer la bascule.
Ceci fait partie de la phase d’entrainement normale d’un plan de reprise. Elle aura lieu tous les 6 mois. Nous allons corriger, progresser, peaufiner l’organisation, documenter plus à fond certains points, …. Et ainsi tendre vers les 30 mn d’interruption maximale. Applicable 24h/24 et 7 jours/7.
Mais pourquoi tout cela ?
La Sécurité du Système d’Information est un sujet complexe et les « attaques informatiques » contre les sociétés sont une (dure) réalité. Et aucune société n’est à l’abri. Il ne faut surtout pas croire que seules les sociétés du CAC40 et les sociétés ayant des données « sensibles » sont la cible des hackers. Tout le monde est visé, du moment que vous avez un système d’information, aussi petit soit-il. Et les dégâts engendrés se chiffrent rapidement en centaine de milliers d’euros.
Mais qui est en charge de la sécurité du SI ?
« Le DSI (et le RSSI), bien sûr ! C’est de l’informatique ».
Réponse trop rapide et trop facile.
La composante « Protection technologique » de la Sécurité SI est une composante purement technique et donc sous la pleine responsabilité du DSI. Mais que protège-t-on et contre quoi ? Est-il le seul concerné ?
Voir la Sécurité au travers d’une gestion du Risque
Il faut voir la Sécurité du SI (SSI) comme une assurance. Et qui dit Assurance dit Risque.
Il est utopique de croire, comme dans tout sujet autour des assurances, que l’on protège tout contre tout. La SSI doit suivre la même démarche.
Elle doit être incluse dans le plan général de gestion du risque de l’entreprise.
Sous le pilotage du COMEX, c’est aux Métiers de définir ses risques sur l’ensemble de ses processus (informatisés et non informatisés) et de travailler notamment avec le DSI sur « l’assurance technologique » pour les couvrir le cas échéant. Et c’est un travail long et complexe. Il va falloir analyser chaque processus, chaque typologie de données, chaque traitement. En définir le risque, pondérer son impact, définir son indisponibilité maximale et sa perte autorisée ou non de données, …
Ensuite, il faudra définir les solutions de protection, très souvent technologiques, mais également opérationnelles, RH, logistiques, contractuelles … Et calculer le coût global de la protection.
Et cela peut rapidement coûter cher, très cher. Il faut donc trouver un équilibre entre la protection, son coût de mise en place, sa complexité opérationnelle, l’impact financier en cas de désastre et le risque couvert.
Bref, un projet d’entreprise complexe et indispensable.
Une protection ne va pas sans prévention.
La première cause de faille des risques technologiques dans une entreprise est le facteur humain. Le point faible est souvent situé « entre le PC et le siège ». D’où la nécessité de faire un travail de fond auprès des utilisateurs pour les sensibiliser aux différentes typologies de risque qu’ils peuvent rencontrer, et leur apprendre les bonnes pratiques pour tenter d’éradiquer les causes et donc diminuer les conséquences. Si la DSI et la DRH sont souvent en charge de mettre en place ces campagnes de sensibilisation, il en est du rôle de chaque manager de les faire appliquer au quotidien, et de maintenir ce niveau de sensibilisation dans l’opérationnel au long cours.
Savoir Guérir rapidement, un gage de survie de l’Entreprise
Vous êtes protégés, vos utilisateurs sont sensibilisés. And so what ?
Comme développé précédemment, la SSI est une gestion du risque. Et le risque nul n’existant pas, vous n’êtes pas à l’abri d’une attaque, sous quelque forme que ce soit, petite ou grande.
Une fois l’attaque détectée, fixée et éradiquée ou contournée, il va falloir remettre en l’état. Soit en revenant à l’état initial, soit via des états partiellement dégradés.
Vous entrez alors dans une gestion de crise. Et ce qui fait la force d’une équipe dans une situation d’urgence, c’est la cohésion, la préparation et l’entrainement régulier.
Lorsque cet événement arrive, ce n’est plus le moment de savoir si vous avez des backups ou non, de savoir où est-ce qu’ils sont rangés, de trouver qui est en charge de la sauvegarde et de l’archivage des données, où sont les schémas d’infrastructure et les schémas d’urbanisation des données, voire de découvrir que la seule personne détentrice du savoir de l’application est en congé le jour de la tragédie. Trop tard ……
C’est le moment de dérouler vos plans de reprise et de continuité. PRA, PCA, PRI, PCI sortent de leur l’ombre pour entrer en action.
Tout d’abord, précisons la terminologie, car une grande confusion règne sur ce sujet.
Les Plans de Continuité (PCx) sont les plans d’actions qui vont décrire comment vont s’opérer les processus opérationnels, en mode dégradé, durant toute la durée de la crise, l’entreprise devant continuer à produire et à vendre.
Les Plan de Reprise (PRx) sont les plans d’action pour remettre les processus et les systèmes en ordre de marche comme initialement, ce qui peut passer par des états intermédiaires dégradés.
Une confusion est très fréquente et conduit à ne pas identifier les bons responsables de ces plans. Les PRA et PCA concernent l’Activité, c’est-à-dire les processus opérationnels ciblés par l’analyse de risque. Le PCA va définir le mode opératoire qui permet à l’entreprise de continuer son activité en mode dégradé après un incident majeur, et pas seulement informatique. Exemple : une usine n’est plus opérationnelle, un bâtiment administratif a été détruit par un incendie, …. Il est de la responsabilité du COMEX et des directions opérationnelles. Le PRA va décrire les opérations qui vont permettre à l’entreprise de retrouver l’état initial, après la résolution ou le contournement définitif du problème ayant déclenché la crise.
Les PCI et PRI (I = Informatique) concernent la DSI. Ils sont la déclinaison technologique des PCA et PRA. Le PCI est donc inclus dans le PCA, le PRI dans le PRA
La Communication, pièce maîtresse de la maîtrise de la Crise
Je ne vais pas rentrer dans le détail du déroulé de ces plans, car chacun est unique et une abondante littérature existe. Je voudrais attirer l’attention sur 3 points qui me semblent fondamentaux.
En gestion de crise, une partie de l’entreprise n’est plus opérationnelle, ou en mode fortement dégradé, et comme dit précédemment, il y a souvent un fort impact sur l’écosystème. Il est important que les opérationnels qui sont sur le pont pour remettre l’entreprise en marche puissent se concentrer sur leurs taches, et qu’ils soient le moins possible perturbés par le climat « négatif » environnant. Bref, il faut qu’ils travaillent « en paix. »
La Communication : Il convient « d’occuper le canal descendant de la communication ». C’est-à-dire de prendre les devants en diffusant régulièrement de l’information pour que l’ensemble des collaborateurs soient informés de la situation « en temps réel » (nature de l’incident, impact, actions en cours, planning de rétablissement des services, solutions de contournement, …), ainsi que des points de contact pour les questions particulières. Si vous occupez ce canal descendant, vous minimiserez le canal montant (questions des collaborateurs, plaintes, mails négatifs, …). Vous ne pouvez pas imaginer combien de fois un utilisateur peut vous demander « ça remarche quand ? ». Bref, il vaut mieux piloter que subir. Donc, vous serez plus efficients et vous rassurerez une grande partie des utilisateurs qui verront que « cela avance » et que les sujets sont adressés.
Le soutien du COMEX : Comme vu ci-dessus, ce sont des périodes de fortes tensions au sein de l’entreprise. Il est impératif que la Direction soit complètement impliquée, informée, afin qu’elle soit avec vous, et constitue un fort relais positif vers les opérationnels. Je me souviens d’une crise où le Président et le DRH passaient régulièrement voir l’équipe de la DSI pour leur apporter leur soutien. Cela a été fondamental pour le moral de l’équipe, et donc son efficacité.
L’implication de toute l’équipe : Dans une crise, le 1er réflexe est de ne mobiliser que les experts. Ce sont eux qui détiennent le savoir, donc les clés de la résolution. Pour ma part, je ratisse large, et embarque toutes les bonnes volontés. J’y vois 2 avantages : d’une part, la crise nécessite beaucoup de petites mains pour des actions simples de manipulations, surveillance, tableau d’avancement, logistique, …. pour lesquelles il est inutile de consommer du temps d’expertise ; d’autre part, cela participe fortement à la cohésion de l’équipe et à la motivation. Et quand une sortie de crise se « passe bien », une équipe en ressort fortement soudée.
Pour l’anecdote, c’est dans ces moments-là que l’on a des situations cocasses Lors d’une crise pendant laquelle la messagerie notamment n’était plus opérationnelle, un membre du COMEX m’avait glissé à l’oreille : « Ne te bouscule pas pour la redémarrer. Les collaborateurs ont découvert qu’ils suffisaient de se lever et d’aller parler à la bonne personne pour que les sujets avancent ».
Préparation et Entrainement, 2 leviers indispensables de sortie de crise
Cette chronique survole le sujet vaste et complexe de la sécurité du système d’information et des crises induites. Elle n’a qu’un seul but : sensibiliser sur le fait que les plans d’actions pour la Continuité et la Reprise sont des éléments indispensables de la vie d’une entreprise. Ils doivent être réfléchis, écrits, maîtrisés par les opérationnels et surtout répétés régulièrement. Le seul objectif est : Guérir vite.
Trop de sociétés mettent tous leurs efforts sur la protection et la prévention. Et se trouvent totalement dépourvues lorsque l’incident survient.
Il y a également beaucoup de PRx/PCx qui sont rédigés mais n’ont jamais fonctionné en environnement réel. Ils sont donc purement théoriques, et ont donc peu de chances de se dérouler correctement le Jour J.
Car le jour où la crise arrive, le stress, la pression en interne et en externe (clients, fournisseurs, autorités, …) sont tels qu’il n’y a plus de place à l’improvisation.
Et le temps d’indisponibilités des applications, des processus, voire les pertes de données induisent un impact financier et opérationnel exponentiel. Sans parler de l’impact fortement négatif sur l’Image de l’entreprise. Il en va souvent de sa survie.
Je vous souhaite de ne jamais connaitre de crise. Mais, au regard de vos responsabilités et des impacts potentiels, vous ne pouvez pas faire abstraction de ce risque. Alors entraînez-vous, entraînez vos collaborateurs, entraînez vos utilisateurs…. Vous n’en dormirez que mieux.