Evoluzione dei data center, automazione e impatto dell'AI

Juniper Networks è specializzata nello sviluppo di reti sicure basate su AI, ampiamente scalabili per soddisfare le esigenze di calcolo più elevate. James Kelly, Product Management Senior Director di Juniper Networks, ha incontrato la stampa per parlare dell’evoluzione dei data center, dell’automazione e dell’impatto dell’intelligenza artificiale.

Le esigenze dell’intelligenza artificiale

Il ciclo di vita di un’AI è composto sostanzialmente da tre fasi: la raccolta dei dati, che vanno preparati e verificati in modo che siano affidabili e consistenti, l’addestramento con i dati raccolti e compiuto tramite una rete di deep learning basata su cluster di GPU, l’inferenza, ovvero la generazione di risposte pertinenti alle richieste dell’utente.

Questo ciclo è iterativo e continuamente affinato, perché l’AI impara anche dai riscontri ottenuti per le sue risposte e dagli aggiornamenti dei dati di partenza.

Dal punto di vista tecnologico, l’esecuzione degli algoritmi che compongono un’AI è sfidante, in quanto i data set per l’addestramento sono molto grandi ed è richiesta una grande potenza di calcolo per elaborarli. Servono quindi grandi reti con centinaia, migliaia di processori (di solito GPU, più performanti delle CPU) e archivi molto capienti, il tutto collegato da una rete con un’ampiezza di banda molto elevata, perché naturalmente è necessario che i dati siano letti nel minor tempo possibile. Tutto questo comporta la necessità di hardware molto performante, costoso, che richiede grandi quantità di energia e che va raffreddato in maniera adeguata.

Per un’azienda, implementare e far funzionare un’intelligenza artificiale è soprattutto una questione di tempi e costi. È quindi fondamentale scegliere le soluzioni più adatte per avere l’AI in funzione nel minor tempo possibile, con un impegno economico che sia proporzionato alla dimensione e alla tipologia dell’hardware e alla grandezza del data set da usare per l’addestramento.

Un altro aspetto critico dell’AI è la necessità di evitare colli di bottiglia nella rete, soprattutto durante la fase di addestramento. In caso di strozzature, il training non è più limitato dalla potenza dei processori (che sono i componenti più costosi di un cluster e che sarebbero sottoutilizzati) ma dalla larghezza di banda della rete. L’ottimizzazione di quest’ultima è quindi un fattore fondamentale.

Anatomia di cluster e reti per l’AI

L’addestramento, l’inferenza e la gestione della base dati sono fatti tramite cluster, ovvero gruppi dedicati di processori. Questi cluster sono collegati da una rete divisa in due sezioni, frontend e backend. Il frontend è usato dal cluster di inferenza (che può essere limitato a un singolo server) e dall’archivio dei dati, ed è basato sulla tecnologia Ethernet. Il backend serve per il cluster di addestramento (molto più grande ed esteso di quello per l’inferenza, può includere centinaia o migliaia di GPU) e per lo storage dedicato. In questo caso si usa una rete Ethernet oppure InfiniBand se servono prestazioni elevate.

Il costo di una rete InfiniBand è superiore a quello di una Ethernet, quindi si cerca di implementare la seconda, magari con tecnologie avanzate come Remote Direct Memory Access (RDMA) over Converged Ethernet (RoCE), che permette di ampliare la banda di comunicazione e avvicinarsi alle prestazioni di una InfiniBand.

Le soluzioni Juniper Networks per l’AI

L’azienda ha fondato il Juniper AI Lab a Sunnyvale, California, per sviluppare le tecnologie necessarie per le reti dedicate all’intelligenza artificiale. Il fulcro dell’offerta di Juniper Networks per le reti per l’AI è Apstra, un software di rete intent-based che automatizza e convalida il ciclo di vita della rete del data center. Apstra – giunto alla versione 4.2.0 – traduce le intenzioni aziendali e gli obiettivi tecnici in policy essenziali e configurazioni specifiche per la rete, inoltre risolve i problemi per garantire la conformità. Le sue funzionalità di automazione multivendor forniscono un livello di astrazione basato su progetti logici di diversi fornitori, consentendo di automatizzare e gestire le reti praticamente in qualsiasi configurazione.

Juniper Networks è al lavoro per portare Apstra alla versione 4.2.1, che avrà come novità una soluzione per raccogliere e visualizzare i flussi di dati, l’impiego della tecnologia AI sviluppata per Marvis, la nuova interfaccia utente Apstra Central (implementata come prototipo).

A proposito di Marvis, si tratta di un altro strumento che Juniper Networks ha messo a punto per i data center dedicati all’intelligenza artificiale. È un assistente virtuale di rete che usa Mist AI – una combinazione di AI, machine learning e data science che ottimizza l’esperienza utente e semplifica le operazioni nella rete – per trasformare il modo in cui le persone dell’IT interagiscono con le reti aziendali. Marvis impiega il linguaggio naturale per sostenere vere e proprie conversazioni con lo scopo di aiutare gli utenti, proprio come fosse un membro virtuale della squadra IT.

Per l’hardware, Juniper Networks ha sviluppato soluzioni per l’intelligenza artificiale basate sugli switch QFX5K e PTX10K, dotati di schede di rete 400G (400 Gbps) ma pronti per l’upgrade a 800G (800 Gbps). La società ha certificato i processori prodotti da Nvidia, Intel e AMD, mentre per i server i marchi approvati sono Supermicro, Dell, Fujitsu e Lambda. I sistemi di storage ufficialmente compatibili con le soluzioni di Juniper Networks sono di Dell, PureStorage, Weka.

Perché scegliere Juniper Networks

Le soluzioni dell’azienda si distinguono dalla concorrenza sia per le elevate prestazioni sia per la possibilità di scalarle con relativa facilità a reti composte da migliaia di nodi. Le proposte di Juniper Networks sono reti complete, che richiedono poco tempo (una manciata di giorni) per passare dalla progettazione alla produzione. La società è specializzata in AIOps, ovvero nell’impiego dell’intelligenza artificiale per automatizzare e semplificare i flussi di lavoro tipici del settore IT.

Due user case

SambaNova Systems è una società fondata nel 2017 e specializzata nella produzione di hardware e sistemi integrati per l’intelligenza artificiale, dal data center al cloud. Per supportare le implementazioni AI più avanzate, SambaNova Systems sviluppa piattaforme di livello enterprise, che necessitano di reti a bassa latenza e con una grande ampiezza di banda. Juniper Networks ha fornito gli switch di rete ad alte prestazioni delle serie QFX e PTX, capaci di un’elevata scalabilità e in grado di veicolare grandi quantità di dati. L’implementazione di Apstra ha consentito di automatizzare tutte le operazioni relative alla gestione della rete. Grazie ai sistemi di Juniper Networks, l’attivazione in produzione dell’intelligenza artificiale richiede solo giorni, non mesi, inoltre le prestazioni dell’architettura di rete implementata sono cinque volte superiori a quelle di una rete tradizionale basata su GPU.

Vijay Tatkar, Director of Product Management of SambaNova Systems
Nel campo dell’intelligenza artificiale, il flusso di dati è fondamentale. Noi abbiamo bisogno della latenza di rete più bassa e della larghezza di banda più elevata possibile. Le prestazioni degli switch Juniper QFX5200 sono state fenomenali.

Il secondo user case è relativo a una società che si occupa della condivisione su larga scala di video in ambito social. In questo caso l’addestramento dell’intelligenza artificiale è risultato particolarmente pesante dal punto di vista computazionale, con flussi di dati così intensi da mettere in crisi la rete tradizionale del data center a disposizione dell’azienda. Le operazioni necessarie per l’AI sono risultate rallentate in maniera non accettabile, con costi elevati e un’efficienza troppo bassa. Juniper Networks ha proposto l’implementazione della sua rete ad alte prestazioni, basata su switch della serie PTX, con connessioni 400G (aggiornabili a 800G) e organizzati secondo un’architettura a tre livelli. Con questa rete sono stati eliminati i colli di bottiglia, così tutte le GPU possono lavorare a pieno regime e massimizzare il rapporto prestazioni/costi. Per contenere l’impegno economico, la soluzione di Juniper Networks è basata su connessioni Ethernet e RoCE v2 (RDMA over Converged Ethernet), che consente di massimizzare l’efficienza del data center e ridurre al contempo la complessità.