Akamai Inference Cloud, implementazione su scala globale di Nvidia AI Grid

Può distribuire i carichi di lavoro AI tra infrastrutture edge, regionali e centrali, bilanciando latenza, costi e prestazioni.

Nvidia AI

Importante traguardo nell’evoluzione dell’intelligenza artificiale per Akamai  che lancia la prima implementazione su scala globale del reference design Nvidia  AI Grid. Integrando l’infrastruttura Nvidia AI nella propria piattaforma e sfruttando un’orchestrazione intelligente dei carichi di lavoro su tutta la rete, Akamai intende portare il settore oltre le “AI factory” isolate, verso una rete unificata e distribuita per l’inferenza AI. L’iniziativa rappresenta una tappa fondamentale nell’evoluzione di Akamai Inference Cloud, lanciato a fine 2025. In qualità di prima azienda ad aver reso operativa l’AI Grid, Akamai sta implementando migliaia di GPU NVIDIA RTX PRO 6000 Blackwell Server Edition. Offrendo così una piattaforma che consente alle imprese di eseguire modelli di AI agentica e fisica con la reattività dell’elaborazione locale e la scalabilità del web globale.

Akamai Inference Cloud, quale il suo ruolo nelle AI factory

Adam Karon, Chief Operating Officer & General Manager, Cloud Technology Group di Akamai
Le AI factory sono state progettate specificamente per i carichi di lavoro di training e per i modelli di frontiera. E un’infrastruttura centralizzata continuerà a garantire la migliore ‘tokenomics’ per questi casi d’uso. Tuttavia, video in tempo reale, AI fisica ed esperienze personalizzate altamente simultanee richiedono inferenza nel punto di contatto. Non un viaggio di andata e ritorno verso un cluster centralizzato. La nostra orchestrazione intelligente AI Grid consente alle AI factory di scalare l’inferenza verso l’esterno. Sfruttando la stessa architettura distribuita che ha rivoluzionato la distribuzione dei contenuti per instradare i carichi di lavoro AI in 4.400 sedi, al giusto costo e nel momento giusto.

L’architettura della ‘tokenomics’

Al centro dell’AI Grid si trova un orchestratore intelligente che funge da broker in tempo reale per le richieste AI. Applicando l’esperienza di Akamai nell’ottimizzazione delle prestazioni applicative al campo dell’AI, questo piano di controllo sensibile al carico di lavoro ottimizza la ‘tokenomics’, migliorando il costo per token, il tempo al primo token e il throughput. Un elemento distintivo di Akamai è la possibilità per i clienti di accedere a modelli ottimizzati o semplificati attraverso la sua vasta rete globale edge, che offre un vantaggio in termini di costi e prestazioni per la ‘long tail’ dei carichi di lavoro AI.

Alcuni esempi significativi dei vantaggi dell’orchestratore

  • Efficienza dei costi su larga scala: le aziende possono ridurre drasticamente i costi di inferenza abbinando automaticamente i carichi di lavoro al livello di elaborazione più adeguato. L’orchestratore utilizza tecniche come il caching semantico e l’instradamento intelligente per indirizzare le richieste verso risorse dimensionate correttamente. Riservando i cicli GPU premium ai carichi più esigenti. Alla base Akamai Cloud, costruito su infrastruttura open source con ampie capacità di traffico in uscita per supportare operazioni AI ad alta intensità di dati.
  • Reattività in tempo reale: gli sviluppatori di videogiochi possono offrire interazioni NPC basate su AI in pochi millisecondi, mantenendo l’immersione del giocatore. Gli istituti finanziari possono eseguire rilevamento frodi personalizzato e fornire raccomandazioni di marketing nel breve intervallo tra login e prima schermata. Le emittenti possono transcodificare e doppiare contenuti in tempo reale per un pubblico globale. Tutto ciò è reso possibile dalla rete edge globale di Akamai, con oltre 4.400 sedi dotate di caching integrato, elaborazione serverless edge e connettività ad alte prestazioni. Questa processa le richieste direttamente nel punto di contatto con l’utente, evitando la latenza dei cloud dipendenti dall’origine.
  • IA di livello produttivo al core: LLM, post-training continuo e carichi di lavoro di inferenza multimodale richiedono capacità computazionale sostenuta e ad alta densità, fornita solo da infrastrutture dedicate. I cluster Akamai con migliaia di GPU, basati su NVIDIA RTX PRO 6000 Blackwell Server Edition, garantiscono la potenza necessaria per i carichi più impegnativi. Integrando lcosì ’edge distribuito con la scalabilità centralizzata.

Il continuum dell’elaborazione: dal core al far-edge

La piattaforma è basata su Nvidia AI Enterprise e sull’architettura  Nvidia Blackwell, oltre che sulle DPU Nvidia BlueField per networking e sicurezza accelerati via hardware. Consente ad Akamai di gestire SLA complessi sia nelle sedi edge sia in quelle centrali:

  • The Edge (4,400+ sedi): garantisce tempi di risposta rapidi per AI fisica e agenti autonomi. Sfrutta caching semantico e funzionalità serverless come Akamai Functions (basate su WebAssembly) ed EdgeWorkers per assicurare affinità dei modelli e prestazioni stabili nel punto di contatto con l’utente.
  • Akamai Cloud IaaS e GPU Clusters dedicati: l’infrastruttura cloud pubblica di base garantisce portabilità e risparmi sui costi per carichi su larga scala. Mentre i pod basati su GPU NVIDIA RTX PRO 6000 Blackwell supportano elaborazioni post-training intensive e inferenza multimodale.

Chris Penrose, Global VP – Business Development – Telco at Nvidia
Le nuove applicazioni native AI richiedono latenza prevedibile ed efficienza dei costi su scala globale. Con l’implementazione operativa di Nvidia AI Grid, Akamai sta creando il tessuto connettivo per l’AI generativa, agentica e fisica. Portando l’intelligenza direttamente ai dati e abilitando la prossima ondata di applicazioni in tempo reale.

Verso la nuova generazione di AI in tempo reale con Akamai Inference Cloud

Akamai sta già registrando una forte adozione iniziale di Akamai Inference Cloud nei settori ad alta intensità computazionale e sensibili alla latenza:

  • Gaming. Gli sviluppatori stanno implementando un’inferenza con tempi inferiori ai 50 millisecondi per NPC basati su AI e interazioni in tempo reale con i giocatori.
  • Servizi finanziari. Le banche si affidano alla rete per un marketing iper-personalizzato e per fornire consigli rapidi nei momenti critici in cui i clienti effettuano l’accesso.
  • Media e video. Le emittenti utilizzano la rete distribuita per la transcodifica basata sull’intelligenza artificiale e il doppiaggio in tempo reale.
  • Retail ed Ecommerce. I rivenditori stanno adottando la rete per applicazioni di AI in negozio e strumenti di produttività associati presso il punto vendita.

Dalle architetture centralizzate a quelle distribuite nelle AI factory

La prima generazione di infrastrutture AI era caratterizzata da grandi cluster GPU concentrati in poche sedi, ottimizzati per il training. Tuttavia, con l’inferenza che diventa carico predominante e le aziende impegnate nello sviluppo di agenti AI, questo modello centralizzato affronta gli stessi limiti di scalabilità già riscontrati nelle precedenti generazioni di infrastrutture Internet. Akamai affronta la sfida con un approccio basato su reti distribuite, orchestrazione intelligente e sistemi progettati. Per portare contenuti e contesto il più vicino possibile al punto di contatto digitale. Il risultato è una migliore esperienza utente e maggiore ritorno sull’investimento.

Akamai Inference Cloud applica questa architettura collaudata alle AI factory, abilitando una nuova fase di scalabilità e crescita grazie alla distribuzione della potenza computazionale dal core all’edge. Per le imprese, significa implementare agenti AI consapevoli del contesto e capaci di adattare la propria reattività. Per il settore, un modello di riferimento per l’evoluzione delle AI factory da sistemi isolati a servizio distribuito su scala globale.