Data center e supercomputer, Alex Troshin di AMD

Intervistiamo Alex Troshin, Product Marketing Manager – EMEA, Enterprise e HPC Server BU, che ci parla dell’impegno di AMD nel settore data center e supercomputer.

– AMD è sempre in prima linea nello sviluppo di soluzioni sempre più veloci e affidabili. Quali sono le peculiarità delle più recenti piattaforme introdotte per il mercato data center?

AMD offre un ampio portfolio di soluzioni per data center destinate a carichi di lavoro AI, enterprise, cloud e ibridi:

• I nuovi processori AMD EPYC serie 9005 assicurano prestazioni da record per soluzioni di calcolo ottimizzate per le diverse esigenze dei data center. Progettata sulla più recente architettura “Zen 5”, la linea offre fino a 192 core e sarà disponibile in un’ampia gamma di sofisticate soluzioni OEM e ODM.
• Con il lancio annuale di AMD Instinct MI325X, proseguiamo la produzione di acceleratori AI, che garantiscono ottime performance e capacità di memoria per i carichi di lavoro AI più intensivi. Abbiamo inoltre condiviso nuovi dettagli sugli acceleratori di nuova generazione della serie AMD Instinct MI350, attesi per la seconda metà del 2025, che estenderanno ulteriormente la capacità di memoria e le prestazioni dell’AI generativa di questa linea e compiuto progressi significativi nello sviluppo degli acceleratori della serie AMD Instinct MI400 basati sull’architettura AMD CDNA Next, probabilmente disponibili nel 2026.
• Continuiamo a migliorare il pacchetto software AMD ROCm, raddoppiando le prestazioni dell’acceleratore AMD Instinct MI300X per l’inferenza e l’addestramento su un’ampia gamma dei modelli di intelligenza artificiale. Ad oggi, sono oltre un milione i moduli che vengono eseguiti su AMD Instinct, un numero triplicato rispetto al momento del lancio di MI300X.

AMD per HPC, data center e supercomputer

L’azienda ha, inoltre, ampliato il proprio portfolio di networking ad alte prestazioni per rispondere all’evoluzione dei requisiti di rete per l’infrastruttura AI, ottimizzando CPU e GPU per garantire performance, scalabilità ed efficienza all’intero sistema. AMD Pensando Salina DPU offre una rete front-end ad alte prestazioni per i sistemi di AI, mentre AMD Pensando Pollara 400, la prima NIC pronta per il Consorzio Ultra Ethernet, riduce la complessità della regolazione delle prestazioni e contribuisce a migliorare il time-to-production.

– Come favorire la modernizzazione del data center seguendo logiche di sostenibilità?

Innanzitutto, indipendentemente dall’impegno profuso, non si può raggiungere la sostenibilità se l’energia utilizzata non proviene da fonti rinnovabili. Pertanto, è fondamentale essere consapevoli delle fonti utilizzate per generare e alimentare energia pulita e sostenibile.

A mio avviso, questa considerazione dovrebbe essere centrale nei dibattiti riguardanti l’evoluzione dell’intelligenza artificiale e dei data center. Si parla di efficienza a 360°, volta a garantire che l’hardware utilizzato, così come il tasso di utilizzo e il raffreddamento siano adeguati. Un esempio di eccellenza è rappresentato dalla Finlandia, che ospita il primo supercomputer al mondo, terzo in Europa: LUMI, la cui domanda energetica è interamente soddisfatta da fonti idroelettriche.

Processori AMD per HPC, data center e supercomputer

Il calore generato da LUMI costituisce circa il 20% del teleriscaldamento della città circostante di Kajaani, riducendo in modo sostanziale l’impronta di carbonio annua dell’intero centro urbano: 12.400 tonnellate, una quantità che equivale alla produzione di quasi 4.000 autovetture. L’obiettivo di AMD “30×25” è di aumentare di 30 volte l’efficienza energetica dei propri processori e acceleratori che alimentano i server per supercomputer e l’addestramento dell’intelligenza artificiale (AI) nel periodo 2020-2025.

Questo traguardo equivale a una riduzione del 97% del consumo di energia per calcolo. Se tutti i server AI e HPC a livello globale dovessero ottenere risultati simili, nel 2025 si potrebbero risparmiare miliardi di chilowattora di elettricità rispetto all’andamento di partenza.

– Prestazioni e consumi, come equilibrare l’equazione?

Considerando anche le limitazioni economiche, la questione per l’utente finale risulta complessa: tutto ruota attorno alle prestazioni realmente necessarie e alla potenza sostenibile, sia finanziariamente che in termini di capacità del data center. Il consiglio è quello di modernizzare quest’ultimo il più possibile, poiché le performance ottenibili con le nuove tecnologie sono notevolmente superiori rispetto a quelle offerte dai prodotti più datati.

A prima vista può sembrare piuttosto lineare, non è vero? Tuttavia, quando si esaminano i dettagli delle prestazioni richieste, emergono complessità e compromessi. Optando per performance più elevate, il dispendio energetico cresce: si dispone del budget adeguato? Se il consumo di energia rimane invariato a fronte di prestazioni superiori, come nel caso dei prodotti Zen 5 di AMD, è economicamente vantaggioso? In caso contrario, quali sono i compromessi tra prestazioni e consumi? Gli utenti possono accettare tempi di attesa uguali o superiori per ottenere i risultati delle loro ricerche? L’elenco degli interrogativi potrebbe allungarsi all’infinito.

Grazie alle CPU AMD EPYC per data center forniamo performance eccezionali, consentendo ai nostri clienti di soddisfare gli stessi requisiti prestazionali utilizzando fino al 68% di energia in meno, l’87% di server in meno e tutto questo con un TCO a 3 anni inferiore del 67%. In AMD ci impegniamo per fornire il massimo valore, indipendentemente dal numero di core, dalla potenza o dalle prestazioni richieste. In altre parole, sia che si scelga una CPU a 8 core o a 192 core della recente serie 9005, si ottiene il massimo dal proprio investimento, grazie alla nostra architettura Zen.

Soluzioni efficienti per HPC, data center e supercomputer

Quest’ultima ci permette di spingere al massimo le prestazioni, la scalabilità e l’efficienza delle nostre CPU destinate ai server. In altre parole, forniamo le massime performance per core, possiamo scalare, a parità di potenza, il numero di core e fornire allo stesso tempo maggiori prestazioni/Watt in tutto il sistema. Questa è la filosofia progettuale alla base dell’architettura Zen di AMD e in 5 generazioni di prodotti abbiamo già fornito un numero di core 6 volte superiore (Zen5 192c rispetto a Zen1 32c), prestazioni >11x e prestazioni/W 4,1x per le CPU con un miglioramento IPC di ~17% per i carichi di lavoro aziendali e ~37% per i carichi di lavoro HPC e AI nella transizione da Gen5 a Gen4.

– Molte infrastrutture data center si stanno specializzando per la gestione di carichi di lavoro legati all’intelligenza artificiale. Quali necessità individuate per questo tipo di infrastrutture? Quali criticità?

Innanzitutto, è importante notare che il percorso dell’intelligenza artificiale non prevede soluzioni uguali per tutti, sia per quanto riguarda l’hardware che il software, il che lo rende complesso ma allo stesso tempo entusiasmante. È possibile eseguire l’inferenza LLM o l’apprendimento automatico classico su CPU, GPU e altri acceleratori. Non mi soffermo troppo su talento e competenze, specificità dei dati, tolleranza al rischio e altri elementi del dibattito sull’AI.

Mettendo insieme l’immensa crescita dei dati generati e i requisiti di calcolo per elaborarli con tutte le altre implicazioni legate allo spazio fisico o all’energia necessaria per farlo, si arriva ancora una volta a parlare di modernizzazione dei data center, poiché vediamo che molti clienti si trovano ad affrontare vincoli di spazio o di energia nei data center attuali già con le loro operazioni quotidiane.

Il mondo dei supercomputer e i sempre più diffusi data center sono alla ricerca di soluzioni efficaci ed green.

Ho già menzionato l’eccezionale TCO e il valore che possiamo offrire nel settore delle CPU: con i nostri processori AMD EPYC siamo in grado di ridurre drasticamente il numero di server necessari per ottenere il livello di prestazioni stabilito, oltre a diminuire OPEX e CAPEX e il consumo energetico. Ad esempio, 7 a 1, 5 a 1, 11 a 6 e così via. Questo può aiutare i nostri clienti a diminuire notevolmente lo spazio e l’energia necessari per eseguire i carichi di lavoro attuali e futuri, liberando risorse per le installazioni dell’intelligenza artificiale e scalando ulteriormente le capacità di calcolo.

Offriamo, inoltre, prestazioni elevate nel settore degli acceleratori con la linea di prodotti AMD Instinct per l’addestramento e l’inferenza dell’AI su scala e continuiamo a lavorare sull’ecosistema aperto, tra cui l’Ultra Ethernet Consortium (UEC) e le nuove NIC Pensando Pollara, nonché l’Ultra Accelerator Link (UALink), con l’obiettivo di creare un’interconnessione aperta e standard incentrata sull’AI basata su un fabric per la comunicazione GPU-GPU. Le esigenze principali per questi carichi di lavoro sono la facilità d’uso e di implementazione e l’efficienza. Tutte le iniziative citate sono state progettate per affrontare problemi critici come i colli di bottiglia delle prestazioni e l’efficienza di calcolo per raggiungere, ancora una volta, i migliori livelli di efficienza delle performance, nonché offrire a partner e clienti massima possibilità di scelta grazie a un ecosistema aperto che semplifica la creazione di soluzioni accelerandole il più possibile.