
La piattaforma OpenFlex Data24 4000 Series NVMe-oF dimostra eccellente scalabilità, semplicità e capacità di trasferimento dati per lo storage dedicato all’IA.
Con la crescente complessità e dimensione dei workload di intelligenza artificiale, la capacità dei sistemi di storage di tenere il passo con le infrastrutture di calcolo accelerate è diventata un fattore determinante per le prestazioni complessive. Western Digital ha annunciato oggi i risultati della propria partecipazione a MLPerf Storage V2, che confermano le capacità reali della piattaforma di storage OpenFlex Data24 4000 Series NVMe-oF.
I risultati attestano la capacità di OpenFlex Data24 EBOF (Ethernet Bunch of Flash) di soddisfare le rigorose esigenze dei workload di intelligenza artificiale di nuova generazione. Garantendo alte prestazioni, efficienza e scalabilità, all’interno di una soluzione economicamente vantaggiosa per le moderne infrastrutture di intelligenza artificiale.
Test concreti per l’AI su larga scala
La piattaforma di storage OpenFlex Data24 NVMe-oF di Western Digital estende le elevate prestazioni del flash NVMe attraverso la fabric Ethernet. Abilitando uno storage condiviso a bassa latenza per infrastrutture AI scalabili e disaggregate. Progettata per semplificare l’implementazione, ridurre i costi e crescere in linea con la domanda di GPU. OpenFlex Data24 consente di scalare in modo indipendente storage e capacità di calcolo, offrendo maggiore flessibilità.
Per rispecchiare scenari di implementazione realistici e complessi, in cui i sistemi di storage devono tenere il passo con le infrastrutture GPU accelerate, Western Digital ha collaborato con PEAK:AIO. Fornitore di soluzioni SDS (Software-Defined Storage) ad alte prestazioni, in grado di acquisire, preparare e distribuire grandi volumi di dati ad alta velocità.
La validazione è stata realizzata utilizzando gli KIOXIA CM7-V Series NVMe SSDs, scelti per le loro eccezionali caratteristiche prestazionali nei workload di AI più impegnativi. Integrati nell’enclosure OpenFlex Data24, consentono un’erogazione di dati disaggregata, ad alte prestazioni e continua, a numerosi nodi client GPU.
Risultati del benchmark MLPerf Storage V2
MLPerf è ampiamente riconosciuto come il punto di riferimento del settore per le attività di benchmarking nell’ambito dell’intelligenza artificiale. I risultati ottenuti da Western Digital con MLPerf Storage V2 dimostrano come questa architettura non solo offra prestazioni su larga scala. Ma lo faccia anche con particolare attenzione all’efficienza e alla sostenibilità economica delle implementazioni. Sia con che senza un livello di software-defined storage (SDS).
MLPerf Storage utilizza nodi client GPU – sistemi che simulano il comportamento di un server AI durante le fasi di training o inferencing nell’accesso allo storage, generando schemi di carico I/O tipici dei workload GPU reali – per valutare quanto efficacemente una piattaforma di storage supporti ambienti AI distribuiti con più client GPU simultanei. I test di training AI inclusi nella suite MLPerf Storage misurano l’efficacia con cui il sistema gestisce workload AI che mettono sotto pressione diversi aspetti dell’I/O dello storage,. Tra cui throughput e concorrenza, su vari modelli di deep learning.
I due principali benchmark di workload utilizzati da MLPerf
Workload 3D U-Net
3D-UNet è un modello di deep learning utilizzato nell’imaging medico e nella segmentazione volumetrica. Questo modello impone un carico molto più elevato ai sistemi di storage, a causa dei suoi ampi dataset tridimensionali in input e degli schemi di lettura intensivi legati allo streaming dei dati. Per questo motivo rappresenta un benchmark particolarmente rigoroso per dimostrare prestazioni sostenute in termini di banda elevata e bassa latenza in workflow AI multi-nodo.
In questo modello:
- OpenFlex Data24 di Western Digital ha raggiunto un throughput di lettura sostenuto pari a 106,5 GB/s (99,2 GiB/s). Saturando 36 GPU H100 simulate distribuite su tre nodi client fisici. Dimostrando la capacità di EBOF di gestire con facilità workload di training ad alta intensità di banda e parallelismo.
- Con il PEAK:AIO AI Data Server, OpenFlex Data24 è stato in grado di garantire 64,9 GB/s (59,6 GiB/s). Saturando 22 GPU H100 simulate a partire da un singolo head server e un singolo nodo client.
Workload ResNet-50
ResNet-50 è una rete neurale convoluzionale ampiamente utilizzata per la classificazione delle immagini. Rappresenta un benchmark per il throughput di training, grazie al suo equilibrio tra capacità di calcolo e movimento dei dati. Con schemi di I/O sia casuali che sequenziali, basati sulla lettura di immagini di medie dimensioni, è particolarmente utile per valutare quanto efficacemente un sistema gestisca accessi ad alta frequenza a file di dimensioni ridotte e cicli rapidi di iterazione.
In questo modello:
- OpenFlex Data24 di Western Digital ha garantito prestazioni ottimali su 186 GPU H100 simulate e tre nodi client. Con un eccellente rapporto GPU-to-drive che riflette l’efficienza della piattaforma nell’utilizzo del supporto fisico.
- Con il PEAK:AIO AI Data Server, OpenFlex Data24 è stato in grado di saturare 52 GPU H100 simulate utilizzando un singolo head server e un singolo nodo client.
Che le aziende si trovino all’inizio del proprio percorso verso l’utilizzo dell’intelligenza artificiale o siano già nella fase di scaling verso centinaia di GPU, OpenFlex Data24 di Western Digital – grazie alla connettività leader di settore abilitata dagli adattatori di rete Western Digital RapidFlex – consente di collegare fino a 12 host senza la necessità di uno switch. La piattaforma di storage offre una crescita dell’infrastruttura AI semplificata, prevedibile e ad alte prestazioni. Senza i costi iniziali o le elevate richieste energetiche di altre soluzioni. Rendendola ideale per le aziende che desiderano scalare i propri workload AI con la massima sicurezza.