La generazione dei dati avviene a ritmi sempre più sostenuti; come evidenziato da Toshiba, è essenziale sviluppare sistemi di archiviazione in grado di reggere il passo.
Un recente report Toshiba Electronics Europe GmbH Storage Lab evidenzia vantaggi e opportunità. Questi i parametri chiave nella scelta, nello sviluppo e nella progettazione di soluzioni di storage:
- Controllo dei costi: a causa dell’enorme quantità di dati, il criterio più importante è il costo per capacità (USD per TByte).
- Dimensioni fisiche: lo spazio nei data center è un altro fattore di costo significativo. L’utilizzo di hard disk con la massima capacità disponibile, all’interno di rack con fattore di forma compatto da 19”, consente di ridurre al minimo lo spazio richiesto.
- Dissipazione di potenza: come suggerisce la definizione stessa, l’archiviazione “online” necessita di essere sempre attiva.
Pertanto, il consumo di energia contribuisce direttamente al costo totale delle attività. Inoltre, ogni Watt consumato nel sistema di archiviazione deve essere compensato dal sistema di raffreddamento del data center. Un particolare che comporta costi aggiuntivi per quanto riguarda l’approvvigionamento elettrico. - Prestazioni: i sistemi di archiviazione online devono garantire un determinato grado di performance, nessuno vuole attendere a lungo per poter accedere ai propri dati.
Nel caso di applicazioni di backup, la finestra temporale disponibile per i salvataggi è limitata, pertanto è necessario disporre di una quantità definita di larghezza di banda, affinché i dati possano essere scritti in un determinato momento. Quando si verificano errori o problemi, i dati di backup devono essere raggiunti il più rapidamente possibile. Ciò permette alle aziende di tornare alla normalità in tempi ristretti.
In questo studio, Toshiba si è focalizzata sull’ottimizzazione dei costi, sulla dissipazione di potenza e la possibilità di minimizzare le dimensioni meccaniche dell’intero sistema adottato.
L’ottimizzazione delle prestazioni non era un obiettivo primario, ma è stata misurata per fornire valori di riferimento. Se le prestazioni elevate fossero un obiettivo primario, potrebbero essere utilizzate altre soluzioni, come gli SSD, ma il loro “costo per capacità” è molte volte superiore a quello degli HDD.
Architetture di archiviazione – la scelta dell’hard disk
Le unità a disco rigido offrono di gran lunga un “costo-per-capacità” più basso per l’archiviazione online. Rappresentano quindi un’ovvia scelta per questo genere di applicazioni.
Per quanto riguarda il costo USD / TByte, gli attuali modelli di punta da 12, 14 e 16 TByte si collocano in un intervallo molto ristretto. Per questo motivo, non sussistono particolari preferenze durante il processo di ottimizzazione dei costi. Tuttavia, quando si utilizzano hard disk da 16 TByte, sono necessari meno dischi per una determinata capacità rispetto ai modelli da 12 e 14 TByte.
Ciò ha un impatto su un altro criterio di ottimizzazione: un numero minore di dischi occupa meno spazio e consente di ridurre la dissipazione della potenza assorbita a parità di capacità complessiva, come mostrato nella Tabella 1.
I criteri per la dissipazione totale della potenza e i requisiti di spazio suggeriscono quindi l’uso di hard disk con la massima capacità attualmente disponibile, in questo caso 16 TByte.
I corrispondenti dischi da 16 TByte della serie MG08 di Toshiba sono disponibili con interfacce SAS o SATA. L’interfaccia SAS ha due canali da 12 GB/s, che la rendono adatta per architetture in cui la velocità e, soprattutto, l’alta disponibilità sono importanti.
Questo a svantaggio della dissipazione di potenza (gli hard disk SAS consumano circa 1-2 W di energia in più rispetto alla controparte SATA, a causa del maggiore assorbimento dell’interfaccia stessa). Poiché uno degli obiettivi del progetto era quello di ottimizzare la dissipazione di potenza, è stato scelto il modello MG08ACA16TE con interfaccia seriale.
La scheda tecnica di questo modello riporta i seguenti valori di dissipazione di potenza:
- Lettura casuale di blocchi da 4 KByte, QD = 16 8,60 W
- Scrittura casuale di blocchi da 4 KByte, QD = 16 5,83 W
- Lettura sequenziale: 7,50 W
- Scrittura sequenziale: 6,83 W
- Idle_A: 4,00 W
- Spin Up massimo in 500 ms: 16,85 W
Architetture di archiviazione – La scelta dell’alloggiamento per gli hard disk
I modelli a carica superiore da 45-100 alloggiamenti, con una dimensione standard 4U offrono il miglior utilizzo dello spazio per hard disk da 3,5” enterprise di tipo nearline. Questo genere di dispositivi è disponibile nella variante server, con relativa motherboard, oppure come unità di espansione SAS (enclosure JBOD), singole o doppie.
Per questo progetto è stato selezionato un modello a 60 alloggiamenti di AIC, che si adatta a qualsiasi rack esistente da 1.000 mm, grazie al suo design compatto. Da notare che i modelli con più di 60 unità sono talvolta molto lunghi, quindi non possono essere inseriti in rack da 1 metro e necessitano di armadi più profondi e costosi.
Questa variante JBOD è stata scelta perché consente una facile misurazione della dissipazione di potenza degli hard disk, nonché un cablaggio agevole (backplane ed expander).
La scelta di un modello con singolo expander consente di ridurre costi e dissipazione di potenza, e si adatta agli hard disk SATA scelti (dotati di interfaccia con un solo canale dati). Nel dettaglio, il modello AIC selezionato è l’AIC-J4060-02 (enclosure JBOD, 4 unità di altezza, 60 alloggiamenti, versione 02 con espansore singolo).
Il sistema si collega direttamente all’adattatore bus host (HBA) o al controller RAID del server, tramite un cavo mini-SAS-HD.
Architetture di archiviazione – Configurazioni
Il consumo energetico del dispositivo JBOD da 60 alloggiamenti completamente riempito è stato misurato sui terminali 220 V degli alimentatori ridondanti. Tutte le misurazioni sono state eseguite a una temperatura ambiente di 24°C.
Innanzitutto, è stata misurata la dissipazione di potenza del JBOD alimentato, ma senza gli HDD installati:
- JBOD attivo, nessun drive connesso, SAS link connesso: 80 W
Il passo successivo è stato quello di installare una singola unità ed eseguire misurazioni in diverse condizioni di carico di lavoro. Sono stati scritti blocchi sequenziali da 64 Kbyte (equivalenti al carico di lavoro di archiviazione, registrazione e backup video), insieme a letture sequenziali di blocchi da 64 KByte (equivalenti al carico di lavoro di recupero di backup e streaming multimediale).
Come riferimento, è stato anche misurato il consumo di energia durante la lettura/ scrittura casuale di blocchi da 4 KByte, corrispondente al carico di lavoro dello storage per la gestione di “hot data” nei database.
Trattandosi di test preliminari e non coincidenti con l’effettiva destinazione d’uso di configurazioni con array estesi, questi valori sono stati archiviati come puro riferimento. Per tutte le configurazioni di test è stata misurata la dissipazione di potenza e le prestazioni risultanti (IOPS casuale, MB/s sequenziali).
Oltre a questi casi limite è stato effettuato un test con un carico di lavoro che approssimare schemi realistici. Un mix di blocchi di diverse dimensioni è stato letto e scritto in modo casuale (4 KByte: 20%, 64 KByte: 50%, 256 KByte: 20%, 2 MByte: 10%).
Per ottenere le massime prestazioni possibili, tutti i carichi simulati sono stati eseguiti con una profondità di coda (Queue Depth) di 16. Oltre a questi test, è stato avviato un processo di copia standard su un’unità logica in ambiente Windows e, contemporaneamente, è stata misurata la dissipazione di potenza.
I valori che si riferiscono al singolo drive (in pratica, la differenza rispetto al consumo di 80 W del box JBOD non popolato) sono costantemente inferiori ai valori nella scheda tecnica.
È evidente che, contrariamente a quanto segnalato nella documentazione di riferimento per il singolo disco, i valori per carichi sequenziali sono più alti che per carichi casuali. Ciò è dovuto al maggiore consumo di energia degli expander SAS dell’enclosure JBOD, capaci di gestire una maggiore larghezza di banda durante il funzionamento in modalità sequenziale.
Con tutti gli slot riempiti con hard disk da 16 TByte, è stato possibile registrare la massima dissipazione di potenza all’avvio, così come il consumo di energia in modalità inattiva (senza attività di lettura/scrittura sulle unità).
- JBOD attivo, tutti i drive connessi, Spin Up massimo in 500 ms: 720 W
- JBOD inattivo: 420 W
Il consumo massimo di energia all’avvio è inferiore al valore calcolato dei componenti, presi singolarmente (80 W + 60x 16,85 W = 1.100 W). Questo perché gli hard disk non vengono accesi tutti allo stesso momento, ma subiscono un avvio ritardato.
Diversamente, il valore minimo dell’enclosure JBOD è risultato superiore a quello calcolato (80W + 60x 4W = 320 W). Questo perché il controller indirizza periodicamente le singole unità, anche in modalità di standby.
Architetture di archiviazione – 60 hard disk in modalità JBOD con carichi paralleli
Nel passaggio successivo, tutti e 60 gli hard disk sono stati indirizzati direttamente e in parallelo dal sistema operativo, adottando carichi di lavoro simulati. Le attività (già dettagliate in precedenza) sono state eseguite per consentire la registrazione dei parametri di dissipazione di potenza e prestazioni.
Come possiamo vedere, il consumo di energia è costantemente inferiore ai 500 W.
Configurazione in RAID locale
In un ulteriore passaggio, i 60 hard disk sono stati combinati in un’unica unità virtuale, utilizzando un controller RAID impostato in modalità RAID10 con 5 sub-array. Sul risultante spazio di archiviazione netto di 480 TByte, due unità logiche da 240 TByte sono state formattate in ambiente operativo Windows Server 2016.
Architetture di archiviazione – Software-defined storage
Il test conclusivo ha coinvolto i 60 hard disk per la configurazione di un pool di archiviazione in un ambiente software-defined. Per le prove si è scelta la piattaforma JovianDSS di Open-E e il file system ZFS.
La ridondanza è stata implementata effettuando il mirroring dei dati, realizzando un pool composto da 5 sub-array dotati di un SSD enterprise da 800 GByte come cache di lettura. Un secondo SSD identico è stato invece usato come buffer del registro di scrittura.
La capacità di archiviazione è stata messa a disposizione del server tramite il protocollo iSCSI. In quest’area sono state installate unità logiche da 240 TByte.
A questo punto è stato possibile portare a termine i test per le unità logiche su un set RAID locale (prove di lettura e scrittura casuale, scrittura e lettura sequenziale, carico di lavoro misto e copia).
È bene considerare che le prestazioni di un’unità logica resa disponibile da ZFS tramite iSCSI dipendono fortemente dalla larghezza di banda della rete e, soprattutto, dalla configurazione con cache di lettura SSD e scrittura SSD. Per questo motivo, i valori per i carichi di lavoro sintetici sono indicati solo come riferimento.
Conclusioni
È oggi possibile rendere disponibile 1 PByte di capacità online adottando hard disk di ultima generazione da 16 TByte e unità 4U-JBOD, il tutto con un consumo energetico inferiore ai 500 W. Il consumo varia tra i 420 W (standby, nessuna attività di lettura/scrittura) e i 480 W (lettura/scrittura continua di blocchi di dimensioni diverse).
In configurazioni di archiviazione tipiche, come mirroring o RAID, sono disponibili capacità di archiviazione nette comprese tra 480 TByte (RAID10 / striped mirroring) e 800 TByte (RAID 60 / striped double parity), utilizzando 60 unità da 16 TByte.
Osservando il sistema nel suo complesso, ciò si traduce in un consumo energetico di circa 1 W per TByte di capacità netta (mirroring), scendendo fino a 0,5 W per TByte in modalità RAID con parità.
Sviluppi futuri per le architetture di archiviazione
Secondo le stime di Toshiba Electronics Europe GmbH, la capacità totale degli hard disk enterprise (nearline) spediti nel 2019 ammonta a circa 500 Exabyte (500.000 Petabyte).
Se tutte queste unità fossero gestite come modelli da 16 TByte in JBOD a 60 bay, ciò comporterebbe un consumo energetico continuo di 225 MW (equivalente a una centrale elettrica a carbone di medie dimensioni). Tuttavia, poiché la maggior parte degli HDD consegnati nel 2019 aveva capacità ancora inferiori, si può presumere che il consumo di energia sia ancora più elevato.
E, poiché si prevede che la quantità di dati aumenterà ancora di più in futuro, il consumo di energia necessario per archiviare questi dati avrà un ruolo sempre più importante.
Proprio per questo motivo è responsabilità del settore storage, oltre ad essere uno degli obiettivi di Toshiba, quello di sviluppare hard disk con capacità sempre più elevate, in grado di assicurare una dissipazione di potenza altamente ottimizzata.