Recuperación de catástrofes

Cuando se produce un incidente informático crítico, la recuperación de desastres se ocupa del reinicio, pero también de la recuperación...

El nombre ya lo sugiere: con la llamada recuperación de desastres, las cosas se ponen serias, porque se vuelve a negociar una situación de crisis. Y más concretamente: cuando se produce un incidente informático crítico, la recuperación de desastres se ocupa del reinicio, pero también de la recuperación de infraestructuras informáticas, sistemas informáticos y aplicaciones que han fallado o se han visto dañados por una interrupción. Para llevar a cabo un reinicio o recuperación estructurados de infraestructuras informáticas, sistemas informáticos y aplicaciones averiados, es necesario planificar y organizar las medidas correspondientes con antelación. La planificación y organización de estas medidas se denomina hoy en día Gestión de la Continuidad de los Servicios Informáticos / Gestión de la Recuperación en caso de Catástrofe. Una breve aclaración sobre los términos: el término recuperación de desastres se remonta a los años 70 y ya no está muy al día. La recuperación en caso de catástrofe se centra principalmente en la gestión operativa de una emergencia informática. En su lugar, hoy en día se utiliza el término "Gestión de la Continuidad de los Servicios de TI" (ITSCM, por sus siglas en inglés) y, por tanto, este término también se utiliza a continuación en este artículo.

Recuperación en caso de catástrofe: definición del caso de crisis

Los escenarios de emergencia para la gestión de la continuidad de los servicios informáticos se basan en el planteamiento del peor de los casos (fallo del centro de datos, fallo de la WAN o del acoplamiento del centro de datos, inaccesibilidad del centro de datos). Se incluyen todas las situaciones críticas y los efectos perjudiciales causados por ellas, que pueden provocar el fallo de infraestructuras, sistemas y aplicaciones informáticas y la pérdida de datos. Las causas imaginables de fallo de los centros de datos son catástrofes naturales sísmicas o climáticas, como terremotos, inundaciones, tormentas y huracanes, pero también incendios o fallos en el suministro eléctrico. Los actos delictivos también son concebibles. Todos estos factores pueden provocar a su vez el fallo de las infraestructuras informáticas, los sistemas y aplicaciones informáticos y/o la pérdida de datos. Y es entonces tarea del ITSCM restaurar esos servicios y datos informáticos o conseguir que se reinicien.

¿Dónde se encuentran exactamente estos datos y funciones?

Hoy en día, casi todos los procesos de negocio de una empresa requieren unas TI que funcionen. Así pues, la recuperación en caso de catástrofe o ITSCM como sistema de gestión continua desempeña un papel muy importante en la capacidad de trabajo de una empresa. Los sistemas relevantes para ITSCM forman parte de las operaciones diarias: las infraestructuras, sistemas y aplicaciones informáticas típicas son, por ejemplo, las redes de datos (LAN), las redes de área de almacenamiento (SAN), los mainframes, los sistemas de servidor, las bases de datos, el middleware, el software de aplicación y también los sistemas telefónicos.

Objetivo de la recuperación en caso de catástrofe/ITSCM

En definitiva, la recuperación de desastres o ITSCM sirve al objetivo global de minimizar el daño potencial a la empresa afectada por un incidente o interrupción críticos de TI.

Recuperación en caso de catástrofe, distinta de la gestión de la continuidad de las actividades

Si se busca una definición alemana de recuperación de desastres, el término se traduce mejor como gestión de emergencias informáticas. Aunque a menudo se utiliza como sinónimo, la recuperación de desastres no debe confundirse con la gestión de la continuidad del negocio (BCM). La BCM se refiere a un ámbito mucho más amplio y garantiza principalmente la continuidad de las operaciones empresariales. La BCM se ocupa de la continuación y el mantenimiento generales de todos los procesos empresariales críticos en el tiempo en un escenario de emergencia. Por su parte, la recuperación en caso de catástrofe se limita al reinicio y recuperación de infraestructuras informáticas, sistemas y aplicaciones informáticas y sus datos en posibles situaciones de emergencia informática, fallo informático e interrupción informática. Así pues, la recuperación en caso de catástrofe o ITSCM sólo ilumina un área parcial de los procesos y sistemas cubiertos por la BCM.

¿Qué aspecto tiene un concepto sensato de recuperación en caso de catástrofe?

Al igual que la BCM, la recuperación de desastres/ITSCM también tiene la tarea de asegurar los sistemas pertinentes para una emergencia de TI, por lo que, por supuesto, la planificación debe hacerse con antelación. La creación de un concepto de recuperación en caso de catástrofe o de los llamados planes de recuperación en caso de catástrofe es indispensable en este punto.

Plan de recuperación en caso de catástrofe (DRP)

El plan de recuperación en caso de catástrofe (DRP, por sus siglas en inglés) incluye todas las medidas y normas que permiten reiniciar la actividad con éxito en caso de catástrofe. A la inversa, esto significa que todas las infraestructuras informáticas, sistemas informáticos y aplicaciones críticos para la empresa deben identificarse de antemano.

Medidas del plan de recuperación en caso de catástrofe

El plan de recuperación en caso de catástrofe contiene todas las medidas y normas necesarias para que, en caso de fallo, las infraestructuras informáticas, los sistemas informáticos y las aplicaciones vuelvan a funcionar lo antes posible. En consecuencia, entre los componentes de estas medidas se incluyen, por ejemplo, el suministro de hardware de sustitución (en caso de mal funcionamiento o fallo del hardware), pero también medidas para restaurar datos y similares. Además, el plan de recuperación en caso de catástrofe especifica las personas responsables en caso de emergencia, así como el procedimiento paso a paso para aplicar las medidas con el fin de garantizar un proceso fluido.

Prueba de recuperación en caso de catástrofe

Es necesario comprobar la eficacia real del PRD, por lo que el plan debe probarse y ejecutarse periódicamente con la participación auténtica de todos los empleados responsables. Esto muestra lo que ya funciona en términos de recuperación y reinicio de infraestructuras, sistemas y aplicaciones informáticas y lo que aún puede mejorarse. Esto requiere una planificación estratégica con planificación anual.

Ratios importantes para el éxito de la recuperación en caso de catástrofe

Hay cifras clave que proporcionan indicaciones para la recuperación en caso de catástrofe/ITSCM y repercuten en el diseño de las medidas de emergencia posteriores. Los valores más importantes son el objetivo de tiempo de recuperación y el objetivo de punto de recuperación. Se definen individualmente para los procesos empresariales críticos en el tiempo y deben ser respetados por el ITSCM.

Objetivo de tiempo de recuperación (RTO)

Factor tiempo: ¿Cuál es la duración máxima de un proceso empresarial en el que el tiempo es un factor crítico? Este ratio es muy variable y resulta muy diferente según la importancia del sistema.

Objetivo de Punto de Recuperación (RPO)

Factor de pérdida: ¿Cuánta pérdida de datos es aceptable? Se trata de los datos que se pierden entre dos copias de seguridad. Por tanto, cuanto menor sea el valor del RPO, menor será la pérdida de datos.