QNAP High Availability, sicurezza e continuità aziendale

Con le soluzioni QNAP High Availability è possibile ridurre al minimo i tempi di inattività e preservare l’integrità delle operazioni aziendali in ogni momento.

High Availability, cos’è?

Prima ancora di analizzare le funzionalità e le modalità di lavoro dei sistemi QNAP HA è opportuno mettere a fuoco “cosa significa lavorare in Alta Disponibilità”.

I sistemi e i cluster ad alta disponibilità sono server raggruppati per funzionare come una infrastruttura unificata. Noti anche come cluster di failover, condividono lo stesso spazio di archiviazione ma utilizzano reti diverse. Condividono anche la stessa missione, in quanto possono eseguire gli stessi carichi di lavoro del sistema primario che supportano. In caso di errore di un server nel cluster, un altro server o nodo può subentrare immediatamente per garantire che l’applicazione o il servizio supportato rimanga operativo. L’utilizzo di cluster ad alta disponibilità consente di garantire l’assenza di un singolo punto di errore critico, riducendo o eliminando i tempi di inattività.

I sistemi e i servizi IT ad alta disponibilità sono progettati per essere disponibili il 99,999% del tempo durante le interruzioni pianificate e non pianificate. Conosciuto come affidabilità a cinque nove, il sistema è essenzialmente sempre attivo. Se l’infrastruttura IT critica si guasta, ma è supportata da un’architettura ad alta disponibilità, il sistema o il componente di backup prende il sopravvento. Ciò consente agli utenti e alle applicazioni di continuare a operare regolarmente.

L’infrastruttura IT ad alta disponibilità offre ridondanza hardware, ridondanza software e applicazioni e ridondanza dei dati. Ridondanza significa che i componenti IT in un cluster ad alta disponibilità, come server o database, possono eseguire le stesse attività. La ridondanza è essenziale anche per la tolleranza ai guasti, che integra l’alta disponibilità e il ripristino di emergenza IT.
La replica dei dati è essenziale per ottenere un’elevata disponibilità. I dati devono essere replicati e condivisi con gli stessi nodi di un cluster. I nodi devono comunicare tra loro e condividere le stesse informazioni, in modo che ognuno di essi possa intervenire per fornire un servizio ottimale quando il server o il dispositivo di rete che stanno supportando si guasta.

I dati possono anche essere replicati tra cluster per garantire sia l’alta disponibilità che la continuità aziendale in caso di guasto di un data center.
Analogamente, un failover si verifica quando un processo eseguito dal componente primario in cui si è verificato l’errore viene spostato in un componente di backup in un cluster ad alta disponibilità. Una procedura consigliata per l’alta disponibilità e il ripristino di emergenza consiste nel mantenere un sistema di failover al di fuori della sede. Gli amministratori IT che monitorano l’integrità dei sistemi primari critici possono trasferire rapidamente il traffico al sistema di failover quando i sistemi primari si sovraccaricano o si guastano.

QNAP HA protegge dati e continuità

Come rilevato dall’Uptime Institute (dati 2023), oltre il 60% delle aziende ha subìto una interruzione dei servizi negli ultimi tre anni. Non solo, le imprese hanno dovuto sostenere perdine nette fino a 300mila dollari l’ora, proprio a causa dei tempi di inattività e del blocco non previsto dei propri sistemi.
Va da sé che, dopo la protezione dei dati, la protezione dell’operatività quotidiana rappresenta un fattore cruciale per tutte le tipologie di business.

QNAP supporta ogni tipo di impresa proponendo soluzioni HA scalabili. A listino, NAS con doppio controller in grado di assicurare prestazioni elevate e continuità di servizio, secondo la logica HA “attivo-attivo”.
Quali vantaggi comporta? Questa architettura incorpora in un solo chassis due sistemi indipendenti con funzionamento simultaneo, così da distribuire i workload attivi. Grazie a una progettazione ad hoc, una simile macchina consente failover istantaneo e un RPO quasi pari a zero, per la massima continuità aziendale. Tra i plus, l’interfaccia SAS dual-path, il supporto multiprotocollo e una base QES per funzionalità ZFS avanzate (self-healing e riduzione dei dati in-line, per esempio).

Tra le possibilità offerta da un determinato numero di NAS QNAP c’è anche la capacità di gestione in modalità HA “attivo-passivo”, che si realizza affiancando due unità identiche con failover automatico, per garantire i servizi mission critical.
Si tratta di una soluzione che consente anche alle imprese con budget più limitato di poter gestire efficientemente situazioni critiche.

Per realizzare una simile configurazione occorrono due unità QNAP compatibili con questa infrastruttura (al momento 24 modelli tra quelli a listino attuale o già in distribuzione) e in grado di eseguire QuTS hero. La base ZFS di questo ambiente operativo è un aspetto imprescindibile per garantire integrità e resilienza dei dati. Grazie alla suite High Availability Manager è possibile configurare e monitorare lo stato dei sistema, così come l’unità attiva e quella passiva.
Si configura così una soluzione relativamente economica, ideale anche per le piccole imprese, laddove è possibile sostenere un fermo di produzione di pochi minuti. L’intera infrastruttura consente tempi di ripristino dichiarati inferiori ai 60 secondi!

Per stabilizzare le comunicazioni e l’infrastruttura di rete, sono poi disponibili switch con ridondanza MC-LAG per una High Availability Network.

QNAP High Availability Manager

Per le nostre prove abbiamo ricevuto e configurato due NAS TVS-h674T (leggi la nostra prova approfondita) con un array RAID 1 costituito da due drive Seagate ST4000VN006-3CW104 da 4 TByte.

Dopo aver installato e configurato la base di QuTS hero h5.3.0.3115 abbiamo provveduto a installare la suite High Availability Manager. Questo software integrato consente di creare un cluster HA con due NAS QNAP identici: uno sarà usato come server attivo, mentre l’altro sarà configurato come server passivo. In caso di anomalie, guasti o impossibilità di raggiungere il server primario, il server passivo è in grado di intervenire in pochi istanti, per offrire una protezione immediata (failover automatico). All’atto pratico, per le imprese, questo si traduce in continuità del servizio storage e disponibilità del sistema immediata. Endpoint e altri apparati di rete lavoreranno in modo trasparente sul server passivo, sino al rientro in funzione della macchina primaria, il tutto senza dover effettuare impostazioni sui client.
Usando High Availability Manager è poi possibile definire, ricostruire o cancellare il cluster in uso, così come controllare lo stato di salute dell’infrastruttura hardware, le velocità di trasmissione e la latenza sia del server attivo che di quello di backup.

In questo tipo di configurazione, come si può facilmente intuire, la sfida principale consiste nel garantire la coerenza dei dati tra i due NAS, minuto per minuto, secondo per secondo. La sincronizzazione in tempo reale passa dalla tecnologia SnapSync: con questo tipo di replica i dati critici sono completamente protetti da un backup completo e immediato. Le aziende possono così abilitare il failover dei dati dal sito secondario in caso di disastri sul sito primario, garantendo continuità di servizio e accesso a documenti, condivisioni e repository.

L’adattatore di rete 10 GbE accelera le operazioni di sincronia tramite HeartBeat

SnapSync è configurato tramite una relazione di mirroring tra cartelle condivise/LUN sul NAS primario e NAS secondario. Una volta creati i processi di SnapSync, le cartelle condivise e le LUN nel NAS secondario diventano di sola lettura per garantire la protezione dei dati.
Il sistema può lavorare su scheduling, creando snapshot a livello di blocco e registrando unicamente le parti di dati variabili. Il vantaggio consiste in una gestione più snella anche in presenza di una larghezza di banda limitata (NAS geograficamente distanti o connessi su LAN standard 1 Gbps).
Se invece si desidera un allineamento in tempo reale si può abilitare SnapSync per una operatività “real-time”, per una sincronia immediata e un RPO pari a 0.

Configurazione

Dopo aver installato e aggiornato QuTS hero, i due NAS, già connessi alla rete locale via switch Gbit, sono stati interconnessi tra loro grazie alla scheda interna a 10 GBps, per abilitare la comunicazione diretta tra gli apparati tramite Heartbeat.

Si tratta di un meccanismo che consente ai server ridondanti di monitorare lo stato dell’altro e garantire un failover senza interruzioni in caso di errore di un server. Questa comunicazione avviene tramite una connessione di rete privata dedicata ed è fondamentale per mantenere un funzionamento continuo dell’intera infrastruttura.
I due NAS, già raggiungibili sulla rete aziendale tramite l’adattatore di rete primario, possono ora dialogare direttamente su un’altra classe di IP.

L’installazione di High Availability Manager sui due NAS e l’esecuzione dei passaggi per una configurazione basilare rappresentano attività alla portata di un IT manager con conoscenze di rete di medio livello. L’interfaccia è infatti particolarmente facile da comprendere e l’individuazione dei pool da proteggere e dei due NAS in rete è semplificata.

Il NAS primario “in produzione”, è ora pronto per la creazione di un nuovo cluster HA. La procedura guidata ci ricorda che gli storage impiegati devono essere del medesimo tipo e modello, con identici firmware, memoria e release di High Availability Manager. Lo stesso vale per i drive utilizzati, che dovranno essere uguali e installati nei medesimi slot per i due NAS.

Una volta realizzate queste connessioni fisiche e avviato il wizard di HA Manager, l’utente è guidato nella configurazione degli IP e nell’attivazione del servizio, consegnando gli accessi di admin delle macchine e abilitando un nuovo nome e IP per il cluster. Lo step successivo include l’effettiva creazione del cluster, durante questo periodo i servizi del nodo primario saranno sospesi e i dati sul nodo secondario saranno azzerati e sincronizzati.

High Availability Manager, uso e setup

Le operazioni preliminari richiedono 5-7 minuti, successivamente è possibile tornare al desktop QuTS hero e monitorare la situazione direttamente da High Availability Manager. Una volta connessi al nuovo IP definito per il cluster è possibile accedere alla schermata riguardante lo stato dell’infrastruttura e osservare lo stato della sincronia dello storage pool e il grado di impegno di risorse per il NAS primario e il NAS passivo.

In qualsiasi momento, il cluster può essere riavviato o disattivato e, allo stesso modo, può essere disaggregato. Dato che ora i NAS lavorano all’unisono, l’aggiornamento del firmware dei due dispositivi deve avvenire in contemporanea, per questo motivo, HA Manager dispone di una impostazione su misura.

Grazie al gestore HA messo a punto da QNAP, gli IT manager possono avere sotto controllo lo stato di entrambe le macchine ed effettuare analisi e monitoraggio in modo centralizzato. Nodo attivo e nodo passivo possono essere spenti o riavviati da una singola interfaccia utente.

Gli amministratori più avveduti possono attivare il server quorum, un apparato terzo capace di monitorare i nodi del cluster per evitare anomalie di sincronizzazione. Queste potrebbero verificarsi, per esempio, in caso di connessione instabile o interrotta tra i nodi. In queste condizioni, i nodi potrebbero essere inabilitati al rilevamento dello stato reciproco e potrebbero, pertanto, assumere il ruolo di primario, causando incoerenza e interruzioni di servizio.
In generale, un server quorum previene lo “split-brain” precedentemente descritto, migliora l’accuratezza delle decisioni e del tempismo in Failover e nei cambi di ruolo e, non ultimo, migliora la stabilità complessiva del sistema.
QNAP ha previsto l’impiego di DNS o gateway locali, in luogo di altre app o sistemi terzi. Nel nostro caso abbiamo individuato come server il router/gateway che, nel caso della rete di test, assume anche il ruolo di DNS.

Test e considerazioni

Da notare che i due NAS mantengono il loro IP statico attivo in rete e risultano singolarmente indirizzabili. Il nodo passivo, tuttavia, risulta totalmente asservito alle funzioni del cluster e, accedendo all’interfaccia locale è possibile notare come le uniche applicazioni disponibili siano HA Manager, QULog Center e il centro notifiche.

All’atto pratico, quando si lavorano file e cartelle sul cluster, con condivisioni di rete SMB o di altra natura, il nodo secondario viene automaticamente aggiornato sfruttando la più veloce connessione HeartBeat. Lavorando con file di grandi dimensioni (30 – 50 GByte ciascuno) è possibile vedere come la sincronia sia avviata istantaneamente, non appena si avvia la copia da endpoint al cluster. La sincronia è diretta e avviene parallelamente al processo di copia PC -> cluster, non al termine.

Si può anche notare come la velocità di trasferimento a 10 Gbps consenta di sfruttare al massimo il potenziale dei dischi per la sincronia. Le velocità di trasferimento stabili di circa 300/350 MB/s sul canale HeartBeat (latenza media di 60 microsecondi), il massimo che i due drive SATA usati per l’array mirror sono in grado di garantire (considerando buffering e caching di rete). Utilizzando drive con maggiori prestazioni, SSD o NVMe, il processo di sincronia può essere ulteriormente velocizzato e reso più efficiente.
Questo permetterebbe di massimizzare il throughput per trasferimenti particolarmente esigenti. Con due soli drive meccanici, come nella nostra configurazione di prova, infatti, la velocità di trasferimento da e verso il cluster risente lievemente delle prestazioni intrinseche delle unità e del doppio accesso in corso (copia da endpoint a cluster e copia tra nodo attivo e passivo).

Grazie all’efficiente processo di gestione file di QuTS hero e ZFS, la replica e la copia interna di file (per esempio tramite File Station) avvengono in una manciata di secondi, agevolando il processo di sincronia del cluster e senza pesare sugli altri task e sugli accessi multi-client degli endpoint attivi in rete.

… E se salta tutto? Nessuna paura!

La prova decisiva riguarda la simulazione di un guasto di rete e della mancata comunicazione tra i due NAS. Ipotizzando un guasto sulla sola rete d’ufficio e della temporanea mancanza di connessione per il nodo primario, abbiamo constatato come l’attivazione e il passaggio al nodo secondario siano del tutto automatici. Con la nostra configurazione il passaggio da NAS attivo a NAS passivo ha richiesto circa 92 secondi. Il procedimento inverso, che si verifica automaticamente quando il primo NAS torna disponibile, è avvenuto in 87 secondi.

Interessante notare come un ammanco di connettività di rete inferiore ai 2-3 secondi non porta all’attivazione del meccanismo di High Availability, grazie a una gestione intelligente del file system e delle cache di rete. Il primo allarme di subentro di ruolo da parte del nodo passivo è emesso entro i primi 20-22 secondi.

Cosa succede se la connessione HeartBeat si interrompe? Nulla.
Il cluster continua a essere raggiungibile al suo IP designato, senza interruzioni di servizio per gli utenti connessi e le share di rete. In queste condizioni il cluster rimane disallineato sino al ripristino della connessione, per poi risincronizzarsi in automatico, senza il necessario intervento dei tecnici.
Questa configurazione assicura una elevata resilienza e automatismi che mettono le imprese al riparo da anomalie di breve o lunga durata. Il cluster è solido, anche in assenza di connessione con il nodo attivo e in assenza di connessione interna HeartBeat. In questo improbabile scenario, i tempi di resync si allungano sino a 125 secondi ma restano ampiamente sopportabili per numerosissimi possibili scenari operativi.

Conclusioni

La soluzione QNAP High Availability, qui messa alla prova nella configurazione “attivo-passivo”, con due NAS identici TVS-h674T, si è dimostrata particolarmente valida. L’aspetto più impressionante, al di là dell’effettiva e comprovata efficacia, riguarda la facilità d’uso, configurazione e manutenzione nel tempo.
L’architettura è stata pesantemente messa alla prova durante tutte le settimane di test e non ha mai mostrato un singolo punto debole. I dati sono stati mantenuti al sicuro, nonostante le ripetute e improvvise simulazioni di danneggiamento del pool, mancata alimentazione, mancata connessione di rete, blackout totale.

La piattaforma è alla portata degli admin di rete che già conoscono i sistemi QNAP ed è comunque facile da imparare per chi non ha mai installato apparati del brand. Grazie alla possibilità di installare HA Manager su un’ampia varietà di NAS, questa soluzione può essere facilmente avvicinata anche dalle piccole imprese, con budget limitati.