L'Agentic AI sta reinventando l’equilibrio tra CPU e GPU

AMD Agentic AI, intelligenza artificiale, CPU, GPU, calcolo, integrazione, data center

Dan McNamara, Senior Vice President and General Manager, Compute & Enterprise AI di AMD, ci spiega come l’Agentic AI stia reinventando l’equilibrio tra CPU e GPU.

Nelle riunioni di pianificazione delle infrastrutture si sente spesso dire “L’IA agentica cambierà il rapporto tra CPU e GPU. Quindi, sarà sufficiente aggiungere più CPU ai nostri server GPU, giusto?”.

Un ragionamento apparentemente logico. Ed è proprio qui che si annida l’errore.

Il passaggio dall’IA conversazionale a quella agentica non si riduce all’inserimento di qualche processore nel rack delle GPU. La questione è ben più profonda: richiede un cambiamento strutturale nell’architettura dei data center. L’agentic AI riscrive completamente l’equazione dell’infrastruttura.

In AMD abbiamo seguito questa trasformazione con grande attenzione. Laddove in precedenza stimavamo una crescita annua del mercato delle CPU per server pari al 18%, l’aumento strutturale della domanda di capacità di calcolo – trainato dall’adozione degli agenti – ridisegna radicalmente le proiezioni. Oggi prevediamo che il mercato potenziale totale per le CPU per server crescerà a un tasso superiore al 35% annuo, superando i 120 miliardi di dollari entro il 2030.

La prima ondata: l’IA conversazionale come sistema di risposta basato su modelli

La prima ondata dell’IA generativa si fondava su uno schema relativamente semplice. L’utente formulava una domanda; l’applicazione inoltrava un prompt al modello; quest’ultimo generava una risposta e l’applicazione la restituiva.

Tale architettura ha orientato naturalmente i progetti verso un approccio incentrato sulle GPU. In tali implementazioni, una CPU svolgeva il ruolo di nodo principale all’interno di un server dotato di quattro-otto GPU: gestiva la pianificazione, l’I/O e l’amministrazione del sistema, lasciando alle GPU l’elaborazione dei carichi dei calcoli più intensivi.

Schema dell’architettura AI di un chatbot che illustra il flusso di lavoro di domanda, inferenza e risultato con “1 CPU: 4–8 GPU”.

L’Agentic AI non è semplicemente “chat potenziata con strumenti”

Siamo oggi agli albori dell’era dell’IA agentica. In questo nuovo paradigma, la natura stessa del carico di lavoro muta radicalmente. Anziché rispondere a un singolo prompt, un agente scompone un obiettivo in una sequenza di passi, valuta le azioni successive, richiama più modelli, interroga database, si interfaccia con API esterne, esegue applicazioni aziendali, verifica le autorizzazioni, recupera dati dalla memoria, convalida l’output e riavvia l’intero ciclo da capo. Si tratta di un profilo infrastrutturale profondamente diverso rispetto a quello dell’IA conversazionale, basata sul paradigma “prompt-in-answer-out”.

Le GPU rimangono componenti fondamentali per l’inferenza dei modelli, ma il carico di lavoro in produzione è ora a elevata intensità di CPU. Queste ultime sono chiamate a gestire:

Orchestrazione: gestione del motore che pianifica le attività complesse.
Esecuzione degli agenti e chiamate agli strumenti: attivazione di API e applicazioni software aziendali legacy.
Policy e sicurezza: esecuzione di controlli nel mondo reale su ogni azione autonoma intrapresa dall’agente.

Diagramma dell’architettura dell’IA agentica che mostra richiesta, agente, inferenza, elaborazione dei dati, uso degli strumenti e risultato con “1+ CPU : 1 GPU”.

La risposta al nuovo equilibrio tra CPU e GPU non consiste semplicemente nell’aggiungere più CPU

A differenza del precedente rapporto CPU-GPU di 1:4-8 che caratterizzava l’IA conversazionale, quella autonoma si sta orientando verso un rapporto di 1:1 e, in alcuni casi, verso una predominanza del lato CPU.

Il punto cruciale è il seguente: tale risultato non si raggiunge semplicemente affiancando ulteriori CPU a un sistema concepito attorno alle GPU. Lo si ottiene aggiungendo un livello di elaborazione CPU di nuova concezione.

Per i responsabili IT aziendali, è proprio su questo fronte che la pianificazione deve evolvere.

L’infrastruttura IA di riferimento per i prossimi anni non sarà un singolo sistema monolitico. Assumerà piuttosto la forma di un ambiente distribuito: rack di GPU dedicati all’elaborazione ad alta densità dei modelli, reti veloci e uno stack software in grado di garantire osservabilità, sicurezza ed efficienza dell’intero ecosistema. A questi si affiancheranno rack di CPU agentiche deputati a orchestrazione, elaborazione dei dati ed esecuzione degli strumenti.

In questo scenario, un’architettura bilanciata diventa più determinante che mai. Se il livello della CPU è sottodimensionato, le GPU restano in attesa. Se la rete è trattata come elemento secondario, gli agenti si bloccano. Se il percorso dei dati non è ottimizzato, la latenza aumenta. Se il livello di orchestrazione non è progettato per gestire l’elaborazione concorrente, costi e complessità si moltiplicano.

Diagramma che confronta i rack CPU e GPU esistenti con i nuovi rack CPU agentici per l’inferenza AI, il caching, le app e l’esecuzione degli strumenti.

Conclusione pratica per i responsabili IT

L’IA agentica sta riscrivendo l’equazione dell’infrastruttura.

Il nostro invito ai responsabili IT aziendali è questo: mentre l’IA agentica transita dalla fase pilota alla produzione, non dimensionate l’infrastruttura come se steste semplicemente integrando un chatbot nella vostra organizzazione. Dimensionatela come se steste introducendo una nuova categoria di forza lavoro digitale, capace di pianificare, agire, controllare, recuperare informazioni, richiamare strumenti ed eseguire flussi di lavoro in modo continuativo.

Ciò significa pianificare una capacità di CPU superiore rispetto a quanto suggerito dalle precedenti assunzioni sull’IA. Significa guardare oltre il server GPU e ragionare in termini di rack, fabric di rete, software ed equilibrio operativo complessivo. Nell’era dell’IA agentica, le prestazioni non deriveranno da un unico processore omnicomprensivo, ma dall’architettura corretta: quella in cui CPU e GPU collaborano in modo sinergico per portare l’IA dalle risposte all’azione.