Snowflake metterà a disposizione in Cortex AI la libreria LLM open source Llama 3.1: le aziende potranno sviluppare facilmente efficaci App in ambiente Enterprise.
Questa offerta include il più grande e performante LLM open source di Meta, Llama 3.1 405B. In questo progetto, Snowflake si è occupata di sviluppare e rendere open source il sistema di inferenza in modo da poterlo utilizzare in tempo reale ed inoltre democratizzare ulteriormente le potenti applicazioni di linguaggio generativo. Il team di ricerca AI di Snowflake, leader nel settore, ha ottimizzato Llama 3.1 405B sia per l’inferenza che per il fine-tuning, supportando un’enorme “contex window” di 128K fin dal primo giorno e consentendo l’inferenza in tempo reale con una latenza end-to-end fino a 3 volte inferiore e un throughput 1,4 volte superiore rispetto alle soluzioni open source esistenti. Inoltre, consente di eseguire il fine-tuning del modello utilizzando un singolo nodo GPU direttamente all’interno di Cortex AI, eliminando costi e sprechi a sviluppatori e clienti.
Grazie alla collaborazione con Meta, Snowflake offre alle aziende clienti un modo semplice, efficiente e affidabile per accedere, ottimizzare e distribuire senza problemi i modelli più recenti di Meta nell’AI Data Cloud, con un approccio globale di protezione e sicurezza integrato sin dalle basi.
Snowflake realizza l’inferenza e il fine-tuning open source
Il team di ricerca AI di Snowflake continua a spingersi oltre i confini dell’innovazione open source attraverso i suoi regolari contributi alla comunità AI e alla trasparenza su come sta sviluppando le tecnologie LLM all’avanguardia. In concomitanza con il lancio di Llama 3.1 405B, il team preposto sta ora rendendo open source il suo Massive LLM Inference and Fine-Tuning System Optimization Stack in collaborazione con DeepSpeed, Hugging Face, vLLM e la più ampia comunità AI. Questo risultato stabilisce un nuovo standard per i sistemi di inferenza e ottimizzazione open source per modelli con centinaia di miliardi di parametri.
L’elevata dimensione del modello e i requisiti di memoria rappresentano una sfida significativa per gli utenti che desiderano ottenere un’inferenza a bassa latenza per le applicazioni in tempo reale, un throughput elevato e il supporto per utilizzi di lunga durata dell’intelligenza artificiale generativa di livello enterprise comportano molti sforzi anche dal punto di vista economico. I requisiti di memoria per la conservazione del modello e degli stati di attivazione rendono inoltre estremamente onerosa l’ottimizzazione, mentre i cluster di GPU di grandi dimensioni necessari per l’adattamento degli stati del modello per l’addestramento sono spesso inaccessibili ai data scientist.
Massive LLM
Lo stack di ottimizzazione del sistema Massive LLM Inference and Fine-Tuning di Snowflake affronta tutte queste sfide. Utilizzando tecniche avanzate di elaborazione in parallelo e ottimizzazione della memoria, Snowflake consente una progettazione veloce ed efficiente dell’AI, senza bisogno di infrastrutture complesse e costose. Nel caso di Llama 3.1 405B, lo stack di sistema di Snowflake offre prestazioni in tempo reale e ad alto rendimento su un solo nodo GPU e supporta un’enorme context window da 128k in configurazioni multinodo.
Questa flessibilità si estende sia all’hardware di nuova generazione che a quello preesistente, rendendo Snowflake accessibile a una più ampia gamma di aziende. Inoltre, i data scientist possono fare tuning di Llama 3.1 405B utilizzando tecniche di mixed precision su un numero inferiore di GPU, eliminando la necessità di disporre di cluster di GPU di grandi dimensioni. Di conseguenza, le organizzazioni possono adattare e distribuire potenti applicazioni di AI generativa di livello enterprise in modo semplice, efficiente e sicuro.
Il team di AI di Snowflake ha inoltre sviluppato un’infrastruttura ottimizzata per il fine-tuning che comprende la differenziazione dei modelli, controlli di sicurezza, retrieval augmented generation (RAG) e la generazione di dati sintetici, in modo che le aziende possano facilmente iniziare a utilizzare questi casi d’uso all’interno di Cortex AI.