Disaster recovery, il paracadute per la sicurezza del business

I processi di incident management e le procedure di disaster recovery rappresentano due facce della stessa medaglia; perché sono così importanti?
Quando si sottoscrive un contratto per l’hosting o per quanto riguarda servizi IT o cloud è bene considerare con attenzione la reale capacità ed esperienza del fornitore in caso di gravi problemi tecnico-strutturali. In gergo tecnico si definisce incident management quell’insieme di attività mirate al ripristino delle normali operazioni di servizio; il tutto con una particolare attenzione alla velocità di esecuzione, in modo da minimizzare ogni possibile interruzione delle attività. In questo modo è possibile assicurare una continuità di business, mantenendo elevati livelli di servizio e disponibilità.

Il concetto di incident management, va di pari passo con un’altra terminologia ampiamente utilizza: disaster recovery. I processi e le procedure DR implicano la presenza di architetture tecnologiche specifiche e misure organizzative ben precise. Abilitando puntuali attività di incident management e disaster recovery un’impresa è in grado di riabilitare piattaforme e servizi di cruciale importanza per poter lavorare in modo conforme e fluido.

Tali attività si rendono solitamente necessarie a fronte di gravi emergenze che possono colpire l’azienda (incendi, terremoti, inondazioni, attacchi informatici, attacchi terroristici, guasto hardware). Per non farsi trovare impreparate, le imprese devono perciò stilare un preciso piano d’azione e adottare le opportune contromisure, predisponendo meccanismi di controllo e verifica periodici.
Quanto più le piattaforme in uso e le procedure sono collaudati e versatili, tanto più in fretta sarà possibile ritornare “in produzione”. Per accelerare il rientro in funzione di determinati ambienti è talvolta possibile mettere in atto una correzione temporanea (workaround), utile per ripartire in tempi brevi, mentre si procede alla stabilizzazione dell’incidente.

Nel processo di incident management è importante valutare le responsabilità oggettive, a partire dalla registrazione dell’evento stesso e dalla sua classificazione. Seguono l’analisi e la diagnosi, per arrivare alla risoluzione e al ripristino, sino alla chiusura dell’incidente. Fondamentali per acquisire conoscenza e limitare futuri episodi, i processi di monitoraggio e il dialogo tra le parti interessate (cliente, fornitore, provider).
Un supporto service desk e un opportuno meccanismo di ticketing consentono di beneficiare di numerosi vantaggi, a partire dalla riduzione dell’impatto degli incidenti sul business in virtù di una più veloce risoluzione e dell’identificazione proattiva di possibili miglioramenti dell’infrastruttura in essere.
Un service desk permette inoltre di ottimizzare l’impiego dello staff e di disporre di una significativa quantità di informazioni, momento per momento; materiale utile per valutare il livello del servizio.

Tra i primi passaggi per la costituzione di un piano di continuità c’è sicuramente la definizione di quelli che vengono definiti sistemi “mission critical”. Parliamo di sistemi, infrastrutture e servizi che hanno una importanza fondamentale per il business d’impresa. Questi elementi vanno monitorati e protetti al fine di garantirne il corretto e continuo funzionamento anche in caso di interruzione improvvisa del servizio. Successivamente si procede alla scelta dell’opportuna piattaforma di disaster recovery, un’architettura preposta alla replica e alla duplicazione di servizi e applicazioni. In questo caso è possibile optare per una replica sincrona, oppure asincrona su base temporale, oppure ancora è consentita l’adozione di una infrastruttura mista che vada incontro alle esigenze di carico e prestazioni dei sistemi hardware in uso.
Entra in gioco quindi il concetto di fault tolerance, ossia la necessità di replicare dati e sistemi in modo che siano ridondati in un sito secondario, con l’obiettivo primario di garantire maggiore sicurezza e continua disponibilità. Se l’ambiente di produzione secondario è allineato e operativo sarà dunque possibile continuare le normali attività anche nel caso in cui i dati del sito primario risultino inutilizzabili (salvo minime attività di configurazione e uno stop minimo dei processi).

Come anticipato, la replica sincrona consente la specularità di entrambi i siti e permette di accelerare il processo di riattivazione dei servizi in caso di crash, anche se impone un limite di distanza ben preciso tra sito primario e secondario.
Tra le scelte più oculate, probabilmente, rientra l’adozione di una tecnica mista sincrona/asincrona, per una copia su due o più ambienti secondari anche molto distanti tra loro; un aspetto cruciale in caso di gravi calamità naturali, per esempio.
L’approccio a una piattaforma o un’altra è proporzionale al livello di servizio richiesto e alle possibilità di investimento per questa tipologia di attività. In questi casi si parla dunque di Recovery Time Objective (RTO) e si identifica la massima durata di downtime tollerata, oppure di Recovery Point Objective (RPO), con il quale ci si riferisce alla misura della massima quantità di dati che il sistema può perdere a causa di un guasto improvviso.
Indipendentemente da questo, l’importanza di un disaster recovery plan è abbastanza chiara: garantire la capacità di un’azienda di salvaguardare le proprie attività produttive e la propria immagine riducendo i rischi e le conseguenze di un fermo macchine.

In questa logica è essenziale abilitare procedure periodiche per la verifica pratica delle funzionalità del sito secondario di recovery. Potrebbe sembrare un’ovvietà, ma troppo spesso le procedure di backup e DR, una volta impostate, non vengono messe alla prova con la dovuta frequenza e accuratezza.
Un’attività adeguata non include solo la verifica dei supporti (nastri, librerie, storage NAS/SAN) ma richiede anche il controllo dell’intero piano di emergenza: tutti i sistemi, le persone e i processi. È dunque possibile eseguire test tecnici di disaster recovery su molti sistemi diversi, alternando a turno differenti workload sui siti secondari, per assicurare un reale allineamento tra i diversi siti e scongiurare blocchi o interruzioni del servizio. In questo senso è buona prassi, e molte aziende la mettono in atto scrupolosamente, eseguire differenti test ciclici con una cadenza trimestrale o almeno due volte l’anno.

In tutto questo processo, come detto in precedenza, la scelta di un partner affidabile è cruciale e può determinare il successo delle attività DR, o il rallentamento del business aziendale.
Il team di esperti Aruba offre ampie garanzie in questo senso e si occupa di definire, di concerto con i clienti, i singoli parametri operativi, per poter intervenire tempestivamente in caso di guasti o incidenti.
La posizione strategica delle differenti strutture DC consente ad Aruba di mettere in atto misure tecnologiche e organizzative per il ripristino dei sistemi, anche nell’eventualità di calamità intense. A seconda delle esigenze dei clienti, viene redatto il Disaster Recovery Plan (DRP) in relazione alle diverse realtà infrastrutturali da proteggere. Il documento permette di definire RTO e RPO, oltre alle procedure di ripristino, che sono preparate preventivamente, secondo il livello di servizio richiesto, per poter assicurare tempi certi di recovery.
Grazie a queste attività mirate e a strutture certificate e altamente resilienti, Aruba è in grado di far fronte a qualsiasi emergenza che possa coinvolgere l’infrastruttura primaria, assicurando il regolare svolgimento delle attività e intervenendo tempestivamente per il ripristino di tutti i sistemi, fino a tornare alla normale erogazione dei servizi dei nostri clienti.

Related Posts: