
Basato su vLLM e potenziato dalle tecnologie Neural Magic, AI Inference Server di Red Hat è un passo avanti verso la democratizzazione della genAI nel cloud ibrido. Con questa nuova offerta, parte di Red Hat AI, Red Hat fornisce un inference server di livello enterprise basato sul progetto comunitario vLLM e alimentato dalle tecnologie Neural Magic di Red Hat. Grazie a ciò, offre agli utenti più velocità, efficienza degli acceleratori e convenienza economica. La soluzione contribuisce a realizzare la visione di Red Hat: eseguire qualsiasi modello di AI generativa su qualsiasi acceleratore AI, in qualsiasi ambiente cloud.
Quando velocità e accuratezza delle risposte sono essenziali
Questa piattaforma rivoluzionaria consente alle organizzazioni di implementare e scalare l’AI generativa in produzione in modo più sicuro. Sia che venga implementata autonomamente che come componente integrata di Red Hat Enterprise Linux AI (RHEL AI) e Red Hat OpenShift AI. L’inferenza rappresenta il motore cruciale di esecuzione dell’AI, il processo in cui i modelli pre-addestrati trasformano i dati in risultati concreti.
È il punto di contatto fondamentale con l’utente, dove la velocità e l’accuratezza delle risposte sono essenziali. Con la crescente complessità dei modelli di AI generativa e l’espansione delle implementazioni in produzione, l’inferenza può diventare un collo di bottiglia, consumando ingenti risorse hardware, compromettendo la reattività e aumentando i costi operativi.
AI Inference Server, la risposta di Red Hat alle nuove sfide
Quindi i server di inferenza robusti non sono più un optional, ma una necessità per sfruttare appieno il potenziale dell’AI su vasta scala, semplificando la gestione delle complessità sottostanti. Red Hat risponde direttamente a queste sfide con Red Hat AI Inference Server, soluzione di inferenza open progettata per offrire prestazioni elevate e dotata di strumenti all’avanguardia per la compressione e l’ottimizzazione dei modelli. Questa innovazione permette alle organizzazioni di liberare il pieno potenziale trasformativo dell’AI generative. Garantendo in questo modo esperienze utente significativamente più reattive e una libertà senza precedenti nella scelta di acceleratori AI, modelli e ambienti IT.
Una soluzione che coniuga prestazioni e minori costi
Joe Fernandes, vicepresidente e direttore generale della AI Business Unit di Red Hat
L’inferenza è il punto in cui la promessa dell’AI generativa si concretizza, offrendo interazioni utente caratterizzate da risposte rapide e accurate fornite da un modello specifico. Tuttavia, è fondamentale che ciò avvenga in modo efficace ed efficiente in termini di costi. Red Hat AI Inference Server è progettato per soddisfare la crescente domanda di inferenza reattiva e ad alte prestazioni su vasta scala. Riducendo però al minimo il consumo di risorse e fornendo un livello di inferenza comune che supporta qualsiasi modello, eseguibile su qualsiasi acceleratore in qualsiasi ambiente.
vLLM: ampliare l’innovazione nell’inferenza
Red Hat AI Inference Server si fonda sul progetto vLLM, leader del settore e avviato dall’UC Berkeley a metà 2023. Questo progetto comunitario offre inferenza AI generativa ad alta velocità, supporto per contesti di input estesi, accelerazione di modelli multi-GPU, supporto per il batching continuo e molto altro. Vanta un ampio supporto per i modelli disponibili pubblicamente e un’integrazione immediata dei principali modelli di frontiera, tra cui DeepSeek, Gemma, Llama, Mistral, Phi e altri.
Oltre a modelli di ragionamento aperti e di livello enterrise some Lllama Nemotron. Per questo vLLM si posiziona come standard de facto per la futura innovazione nell’inferenza AI. I principali fornitori di modelli di frontiera stanno adottando sempre più vLLM, consolidandone il ruolo chiave nel definire il futuro dell’AI generativa.
Introduzione ad AI Inference Server
Red Hat AI Inference Server integra l’innovazione di vLLM, trasformandola nelle funzionalità di livello enterprise che lo contraddistinguono. Red Hat AI Inference Server è disponibile come offerta containerizzata autonoma oppure come parte integrante di RHEL AI e Red Hat OpenShift AI. Indipendentemente dall’ambiente di implementazione, Red Hat AI Inference Server offre agli utenti una distribuzione di vLLM rafforzata e supportata, unitamente a:
- strumenti intelligenti di compressione LLM. Questo per ridurre drasticamente le dimensioni dei modelli AI, sia di base che ottimizzati. Minimizzando così il consumo di risorse di calcolo e, al contempo, preservando e potenzialmente migliorando l’accuratezza del modello.
- Un repository di modelli ottimizzato, ospitato nell’organizzazione Red Hat AI su Hugging Face. Offre accesso immediato a una raccolta convalidata e ottimizzata di modelli AI leader, pronti per l’implementazione dell’inferenza. Contribuendo ad accelerare l’efficienza di 2-4 volte senza compromettere l’accuratezza del modello.
- Il supporto enterprise di Red Hat, frutto di decenni di esperienza nel portare progetti comunitari in ambienti di produzione.
- Supporto di terze parti per una flessibilità di implementazione ancora maggiore. Questo consente l’implementazione di Red Hat AI Inference Server su piattaforme Linux e Kubernetes non Red Hat, in conformità con la politica di supporto di terze parti di Red Hat.
La visione di Red Hat: qualsiasi modello, qualsiasi acceleratore, qualsiasi cloud
Il futuro dell’AI deve essere caratterizzato da opportunità illimitate, non vincolato da silos infrastrutturali. Red Hat immagina un futuro in cui le organizzazioni possano implementare qualsiasi modello, su qualsiasi acceleratore, in qualsiasi cloud, offrendo un’esperienza utente eccezionale e coerente, senza costi eccessivi. Per sbloccare il vero potenziale degli investimenti nell’AI generativa, le aziende necessitano di una piattaforma di inferenza universal. Una piattaforma che operi da standard per un’innovazione AI più fluida e ad alte prestazioni, sia oggi che in futuro.
Rendere vLLM lo standard aperto definitivo per l’inferenza nel cloud ibrido
Proprio come Red Hat ha aperto la strada all’open enterprise trasformando Linux nella base dell’IT moderno, l’azienda è ora pronta a plasmare il futuro dell’inferenza AI. Il potenziale di vLLM è quello di fungere da fulcro per l’inferenza AI generativa standardizzata. E Red Hat si impegna a costruire un ecosistema fiorente non solo attorno alla comunità vLLM, ma anche a llm-d per l’inferenza distribuita su larga scala. La visione è chiara: indipendentemente dal modello AI, dall’acceleratore sottostante o dall’ambiente di implementazione, Red Hat punta a rendere vLLM lo standard aperto definitivo per l’inferenza nel nuovo cloud ibrido.