Disaster Recovery

Wanneer zich een kritiek IT-incident voordoet, houdt disaster recovery zich bezig met de herstart, maar ook met het herstel...

De naam doet het al vermoeden: bij de zogenaamde disaster recovery wordt het menens, want er wordt opnieuw over een crisissituatie onderhandeld. En meer precies: wanneer zich een kritiek IT-incident voordoet, heeft disaster recovery betrekking op het opnieuw opstarten, maar ook op het herstel van IT-infrastructuren, IT-systemen en toepassingen die door een verstoring zijn uitgevallen of beschadigd. Voor een gestructureerde herstart of herstel van uitgevallen IT-infrastructuren, IT-systemen en -toepassingen moeten de desbetreffende maatregelen vooraf worden gepland en georganiseerd. De planning en organisatie van deze maatregelen wordt tegenwoordig IT Service Continuity Management / Disaster Recovery Management genoemd. Een korte verduidelijking van de termen: De term disaster recovery stamt uit de jaren zeventig en is niet meer helemaal van deze tijd. Disaster recovery richtte zich voornamelijk op het operationele beheer van een IT-noodgeval. In plaats daarvan wordt tegenwoordig de term "IT Service Continuity Management" (afgekort ITSCM) gebruikt en deze term wordt daarom ook in het onderstaande in dit artikel gebruikt.

Herstel van rampen - definitie van het crisisgeval

De noodscenario's voor IT-dienstcontinuïteitsbeheer zijn gebaseerd op de benadering van het worst-case scenario (falen van het datacenter, falen van het WAN of de koppeling van het datacenter, onbereikbaarheid van het datacenter). Hieronder valt elke kritieke situatie en het daardoor veroorzaakte schadelijke effect, dat kan leiden tot het uitvallen van IT-infrastructuur, IT-systemen en -toepassingen en het verlies van gegevens. Denkbare oorzaken voor het uitvallen van datacentra zijn seismische of klimatologische natuurrampen, zoals aardbevingen, overstromingen, stormen en orkanen, maar ook brand of het uitvallen van de stroomvoorziening. Criminele handelingen zijn ook denkbaar. Al deze factoren kunnen op hun beurt leiden tot het falen van IT-infrastructuur, IT-systemen en -toepassingen en/of tot gegevensverlies. En het is dan de taak van de ITSCM om die IT-diensten en -gegevens te herstellen of opnieuw op te starten.

Waar bevinden deze gegevens en functies zich precies?

Tegenwoordig vereisen bijna alle bedrijfsprocessen van een onderneming goed functionerende IT. Zo speelt disaster recovery of ITSCM als permanent beheersysteem een zeer belangrijke rol in het werkvermogen van een bedrijf. ITSCM-relevante systemen maken deel uit van de dagelijkse activiteiten: typische IT-infrastructuren, IT-systemen en -toepassingen zijn bijvoorbeeld datanetwerken (LAN), storage area networks (SAN), mainframes, serversystemen, databases, middleware, toepassingssoftware en ook telefoonsystemen.

Doel van rampherstel/ITSCM

Uiteindelijk dient disaster recovery of ITSCM het overkoepelende doel om de potentiële schade voor het bedrijf dat getroffen wordt door een kritisch IT-incident of uitval te minimaliseren.

Rampherstel, te onderscheiden van bedrijfscontinuïteitsbeheer

Als men een Duitse definitie van disaster recovery zoekt, kan de term het best worden vertaald als IT-noodbeheer. Hoewel het vaak als synoniem wordt gebruikt, mag disaster recovery niet worden verward met business continuity management (BCM). BCM heeft betrekking op een veel breder gebied en zorgt in de eerste plaats voor de continuïteit van de bedrijfsvoering. BCM heeft betrekking op de algemene voortzetting en handhaving van alle tijdskritische bedrijfsprocessen in een noodscenario. Rampherstel daarentegen is beperkt tot het opnieuw opstarten en herstellen van IT-infrastructuren, IT-systemen en -toepassingen en hun gegevens in potentiële IT-noodsituaties, IT-storingen en IT-verstoringen. Disaster recovery of ITSCM belicht dus slechts een deel van de processen en systemen die onder BCM vallen.

Hoe ziet een verstandig disaster recovery concept eruit?

Net als BCM heeft disaster recovery/ITSCM ook de taak om de relevante systemen te beveiligen voor een IT-noodgeval, dus uiteraard moet er vooraf worden gepland. Het opstellen van een rampherstelconcept of zogenaamde rampherstelplannen is op dit punt onontbeerlijk.

Het rampherstelplan (DRP)

Het disaster recovery plan (afgekort DRP) omvat alle maatregelen en voorschriften die een succesvolle herstart bij een ramp mogelijk maken. Omgekeerd betekent dit dat alle bedrijfskritische IT-infrastructuren, IT-systemen en applicaties vooraf moeten worden geïdentificeerd.

Maatregelen van het rampherstelplan

Het disaster recovery plan bevat alle noodzakelijke maatregelen en regelingen die nodig zijn in een storingsscenario om IT-infrastructuren, IT-systemen en applicaties zo snel mogelijk weer operationeel te krijgen. Onderdelen van deze maatregelen zijn bijvoorbeeld het ter beschikking stellen van vervangende hardware (in geval van storing of defect van de hardware), maar ook stappen om gegevens te herstellen en dergelijke. Bovendien worden in het rampherstelplan de personen vermeld die verantwoordelijk zijn in geval van nood, alsmede de stapsgewijze procedure voor de uitvoering van de maatregelen om een soepel proces te garanderen.

De proef op de som: ramphersteltest

De daadwerkelijke doeltreffendheid van het DRP moet worden getest en het plan moet daarom regelmatig worden getest en doorlopen met de authentieke betrokkenheid van alle verantwoordelijke werknemers. Hieruit blijkt wat al werkt op het gebied van herstel en herstart van IT-infrastructuur, IT-systemen en -toepassingen en wat nog kan worden verbeterd. Dit vereist een strategische planning met een jaarlijkse planning.

Belangrijke kerncijfers voor succesvol herstel na een ramp

Er zijn kerncijfers die aanwijzingen geven voor rampenbestrijding/ITSCM en van invloed zijn op het ontwerp van latere noodmaatregelen. De belangrijkste waarden zijn de doelstelling inzake de hersteltijd en de doelstelling inzake het herstelpunt. Zij worden afzonderlijk vastgesteld voor tijdskritische bedrijfsprocessen en moeten door het ITSCM worden nageleefd.

Hersteltijddoelstelling (RTO)

Tijdsfactor: Wat is de maximale lengte van een tijdskritisch bedrijfsproces? Dit kengetal is zeer variabel en pakt heel verschillend uit, afhankelijk van het belang van het systeem.

Herstelpuntdoelstelling (RPO)

Verliesfactor: Hoeveel gegevensverlies is aanvaardbaar? Dit gaat over de gegevens die verloren gaan tussen twee back-ups. Dus hoe lager de waarde van de RPO, hoe minder gegevensverlies er is.