Reprise après sinistre

Lorsqu'un incident informatique critique se produit, le Disaster Recovery s'occupe du redémarrage, mais aussi de la restauration...

Comme son nom l'indique, la reprise après sinistre est une situation sérieuse, car il s'agit de négocier une nouvelle fois une situation de crise. Et plus précisément : lorsqu'un incident informatique critique se produit, la reprise après sinistre s'occupe du redémarrage, mais aussi de la restauration d'infrastructures, de systèmes et d'applications informatiques en panne ou endommagés par une perturbation. Pour effectuer un redémarrage ou une restauration structurée d'infrastructures, de systèmes et d'applications informatiques défaillants, il est nécessaire de planifier et d'organiser les mesures correspondantes à l'avance. La planification et l'organisation de ces mesures sont aujourd'hui appelées gestion de la continuité des services informatiques / gestion de la reprise après sinistre. Une brève clarification des termes s'impose : le terme "Disaster Recovery" date déjà des années 70 et n'est plus vraiment d'actualité aujourd'hui. La reprise après sinistre se concentrait principalement sur la gestion opérationnelle d'une urgence informatique. Aujourd'hui, on utilise plutôt le terme "IT Service Continuity Management" (en abrégé ITSCM) et c'est donc cette désignation qui sera utilisée dans la suite de cet article.

Reprise après sinistre - Définition de la crise

Les scénarios d'urgence pour la gestion de la continuité des services informatiques sont basés sur l'approche du pire scénario (panne du centre de données, panne du WAN ou de l'interconnexion des centres de données, inaccessibilité d'un centre de données). Toute situation critique est prise en compte, ainsi que l'effet néfaste qu'elle peut avoir et qui peut entraîner la défaillance des infrastructures, des systèmes et des applications informatiques et la perte de données. Les catastrophes naturelles sismiques ou climatiques, telles que les tremblements de terre, les inondations, les tempêtes et les ouragans, mais aussi les incendies ou les pannes d'électricité, sont des causes envisageables de défaillance des centres de données. Des actes criminels sont également envisageables. Tous ces facteurs peuvent à leur tour entraîner une défaillance des infrastructures, des systèmes et des applications informatiques et/ou une perte de données. L'ITSCM a alors pour mission de rétablir ces services et données informatiques ou de les faire redémarrer.

Où se trouvent exactement ces données et ces fonctions ?

De nos jours, presque tous les processus commerciaux d'une entreprise nécessitent une informatique opérationnelle. Ainsi, le Disaster Recovery ou ITSCM, en tant que système de gestion avancé, joue un rôle très important dans la capacité de travail d'une entreprise. Les systèmes pertinents pour l'ITSCM font partie de l'activité quotidienne : les infrastructures, systèmes et applications informatiques typiques sont par exemple les réseaux de données (LAN), les réseaux de stockage (SAN), les mainframes, les systèmes de serveurs, les bases de données, les middleware, les logiciels d'application et également les installations téléphoniques.

Objectif de la reprise après sinistre/ITSCM

En fin de compte, la reprise après sinistre ou l'ITSCM a pour objectif global de réduire au maximum les dommages potentiels pour l'entreprise touchée par un incident ou une panne informatique critique.

La reprise après sinistre se distingue de la gestion de la continuité des activités

Si l'on cherche une définition française de la reprise après sinistre, le terme se traduit le plus facilement par gestion des urgences informatiques. Bien que souvent utilisé comme synonyme, le Disaster Recovery ne doit pas être confondu avec le Business Continuity Management (BCM). Le BCM se réfère à un domaine beaucoup plus large et assure avant tout la continuité de l'activité commerciale. Ainsi, le BCM s'occupe de la poursuite générale et du maintien de tous les processus commerciaux critiques en temps dans un scénario d'urgence. En revanche, la reprise après sinistre se limite au redémarrage et à la restauration des infrastructures, des systèmes et des applications informatiques et de leurs données dans des situations potentielles d'urgence, de panne et de perturbation informatiques. La reprise après sinistre ou l'ITSCM n'éclairent donc qu'une partie des processus et systèmes couverts par le BCM.

À quoi ressemble un concept de reprise après sinistre judicieux ?

Tout comme le BCM, le Disaster Recovery/ITSCM a pour mission de protéger les systèmes concernés en cas d'urgence informatique, de sorte qu'il faut bien sûr déjà planifier à l'avance. L'élaboration d'un concept de reprise après sinistre ou de ce que l'on appelle des plans de reprise après sinistre est indispensable à ce stade.

Le plan de récupération après sinistre (DRP)

Le plan de reprise d'activité (Disaster Recovery Plan ou DRP en abrégé) comprend toutes les mesures et dispositions qui permettront, le cas échéant, de redémarrer avec succès. Cela signifie à l'inverse que toutes les infrastructures informatiques, les systèmes informatiques et les applications critiques pour l'entreprise doivent être identifiés au préalable.

Mesures du plan de reprise d'activité

Le plan de reprise d'activité contient toutes les mesures et dispositions nécessaires dans un scénario de panne afin de remettre en service les infrastructures, les systèmes et les applications informatiques le plus rapidement possible. En conséquence, ces mesures comprennent par exemple la mise à disposition d'un matériel de remplacement (en cas de panne ou de défaillance du matériel), mais aussi des étapes de restauration des données et autres. En outre, le plan de reprise après sinistre désigne les personnes responsables en cas d'urgence ainsi que la procédure par étapes pour la mise en œuvre des mesures afin de garantir un déroulement sans heurts.

Test grandeur nature : test de reprise après sinistre

L'efficacité réelle du DRP doit être testée et le plan doit donc être régulièrement testé et mis en pratique avec la participation authentique de tous les collaborateurs responsables. Cela permet de voir ce qui fonctionne déjà en termes de restauration et de redémarrage des infrastructures, des systèmes et des applications informatiques et ce qui peut encore être amélioré. Pour ce faire, une planification stratégique doit être mise en place avec une planification annuelle.

Indicateurs clés pour une reprise après sinistre réussie

Il existe des indicateurs qui fournissent des points de repère pour la reprise après sinistre/l'ITSCM et qui ont un impact sur la conception des mesures d'urgence ultérieures. Les valeurs les plus importantes sont le Recovery Time Objective et le Recovery Point Objective. Elles sont définies individuellement pour les processus commerciaux critiques en termes de temps et doivent être respectées par l'ITSCM.

Objectif de temps de récupération (RTO)

Facteur temps : quelle est la durée maximale d'un processus commercial critique en termes de temps ? Cet indicateur est très variable et s'avère très différent selon l'importance du système..

Objectif de point de récupération (RPO)

Facteur de perte : combien de données peut-on accepter de perdre ? Il s'agit ici des données perdues entre deux sauvegardes de données. Ainsi, plus la valeur du RPO est basse, moins il y a de perte de données.