Qualcomm AI200 e AI250, inferenza AI per i data center

Qualcomm si prepara a lanciare le schede acceleratrici e i rack basati sui chip AI200 e AI250, soluzioni di nuova generazione ottimizzate per l’inferenza di AI nei data center. Queste soluzioni offrono prestazioni su scala rack e più capacità di memoria, garantendo un’inferenza di AI generativa rapida ed efficiente. Con un rapporto prestazioni per dollaro per watt ai vertici del settore. Un passo importante verso un’intelligenza artificiale generativa scalabile, efficiente e flessibile, applicabile a un’ampia gamma di settori.

AI200 e AI250: peculiarità e utilizzi

Qualcomm AI200 introduce una soluzione di inferenza AI a livello di rack, progettata per garantire un basso costo totale di proprietà (TCO) e prestazioni ottimizzate per l’inferenza di modelli di grandi dimensioni (LLM, LMM) e altri carichi di lavoro AI. Ogni scheda supporta 768 GB di LPDDR, offrendo più capacità di memoria a costi ridotti, scalabilità e flessibilità eccezionali per le applicazioni di inferenza nei data center. Qualcomm AI250 debutta con un’architettura di memoria basata sul near-memory computing migliorando il sistema in termini di prestazioni ed efficienza per i carichi di lavoro di inferenza AI. Grazie a una larghezza di banda di memoria effettiva oltre 10 volte superiore e a un consumo energetico significativamente ridotto, consente un’inferenza AI disaggregata che sfrutta l’hardware in modo efficiente.

Migliorano flessibilità e sicurezza

Entrambe le soluzioni rack sono dotate di raffreddamento a liquido diretto per una maggiore efficienza termica, supportano PCIe ed Ethernet per l’espansione. . Inoltre offrono elaborazione riservata per carichi di lavoro AI sicuri e garantiscono un consumo energetico di 160 kW a livello di rack.

Durga Malladi, SVP e GM, Pianificazione tecnologica, Edge Solutions & Data Center, Qualcomm
Con Qualcomm AI200 e AI250 stiamo ridefinendo le possibilità di inferenza dell’AI su scala rack. Queste soluzioni infrastrutturali permettono ai clienti di implementare l’AI generativa a un TCO senza precedenti. Mantenendo al contempo la flessibilità e la sicurezza richieste dai moderni data center. Grazie al nostro ricco stack software e al supporto di un ecosistema aperto, è più semplice che mai per sviluppatori e aziende integrare, gestire e scalare modelli di AI già addestrati sulle nostre soluzioni di inferenza ottimizzate. Con la piena compatibilità con i principali framework di intelligenza artificiale e la possibilità di implementare modelli con un solo clic, Qualcomm AI200 e AI250 sono progettati per un’adozione senza intoppi e per favorire una rapida innovazione.

Quando saranno disponibili AI200 e AI250

Lo stack software di intelligenza artificiale di Qualcomm, progettato per ambienti hyperscaler e che si estende end-to-end dal livello applicativo a quello di sistema, è ottimizzato per l’inferenza AI. Lo stack supporta i principali framework di machine learning, motori di inferenza, strumenti di GenAI e tecniche di ottimizzazione per LLM e LMM, incluso il servizio disaggregato.

Gli sviluppatori possono beneficiare di un onboarding fluido dei modelli e dell’implementazione con un clic dei modelli Hugging Face. Il tutto grazie alla Qualcomm Efficient Transformers Library e alla Qualcomm AI Inference Suite. Il software offre inoltre applicazioni e agenti AI pronti all’uso, strumenti completi, librerie, API e servizi per rendere operativa l’intelligenza artificiale nei data center. La disponibilità commerciale di Qualcomm AI200 è prevista per il 2026, mentre AI250 arriverà nel 2027.