Da Red Hat inferenza AI efficiente su AWS

Red Hat ha annunciato l’ampliamento della collaborazione con AWS per potenziare la GenAI su AWS con Red Hat AI e AWS AI silicon. Grazie all’estensione della partnership, Red Hat fornisce ai responsabili IT la flessibilità per eseguire inferenze AI efficienti e ad alte prestazioni su larga scala, indipendentemente dall’hardware sottostante. L’ascesa della GenAI e la conseguente necessità di un’inferenza scalabile stanno spingendo le organizzazioni a rivalutare la propria infrastruttura IT.

La necessità di soluzioni ottimizzate

IDC prevede che “entro il 2027, il 40% delle organizzazioni utilizzerà chip personalizzati, inclusi processori ARM o chip specifici per AI/ML. Così da soddisfare le crescenti esigenze di ottimizzazione di prestazioni, efficienza dei costi e calcolo specializzato”. Questa tendenza sottolinea la necessità di disporre di soluzioni ottimizzate in grado di migliorare la potenza di elaborazione, ridurre al minimo i costi. Oltre a consentire cicli di innovazione più rapidi per applicazioni AI ad alte prestazioni.

Gli aspetti chiave della collaborazione tra Red Hat e AWS

L’estensione della collaborazione offre una strategia GenAI a tutto tondo, combinando le funzionalità complete della piattaforma Red Hat con l’infrastruttura cloud AWS e i chipset AI AWS Inferentia2 e AWS Trainium3. Tra gli elementi principali:

Red Hat AI Inference Server su chip AWS AI. Basato su vLLM, potrà essere eseguito con i chip AWS AI, tra cui AWS Inferentia2 e AWS Trainium3. Sarà in grado di fornire un livello di inferenza comune per supportare qualsiasi modello di GenAI. Oltre a consentire ai clienti di ottenere prestazioni più elevate, minore latenza e convenienza economica per il ridimensionamento delle implementazioni AI di produzione. Il tutto con un rapporto prezzo/prestazioni fino al 30-40% inferiore rispetto alle attuali istanze comparabili Amazon EC2 basate su GPU.
Abilitazione dell’AI su OpenShift. L’azienda ha collaborato con AWS per sviluppare un operatore AWS Neuron Operator per OpenShift, OpenShift AI e OpenShift Service su AWS. Quest’ultima è una piattaforma applicativa completa e completamente gestita su AWS, che fornisce ai clienti un percorso più fluido e supportato per eseguire carichi di lavoro AI con gli acceleratori AWS.
Facilità di accesso e implementazione. Grazie al supporto dei chip AI di AWS, Red Hat offrirà ai clienti Red Hat su AWS un accesso migliore e più semplice agli acceleratori ad alta capacità e high-demand. Inoltre, Red Hat ha recentemente rilasciato la collezione Ansible certificata amazon.ai per Red Hat Ansible Automation Platform per consentire l’orchestrazione dei servizi AI su AWS.
Contributo alla comunità upstream. Red Hat e AWS stanno collaborando per ottimizzare un plugin AWS AI chip in upstream su vLLM. Come principale contributore commerciale a vLLM, Red Hat si impegna ad abilitare vLLM su AWS per accelerare l’inferenza e l’addestramento dell’AI. vLLM è anche alla base di llm-d, progetto open source incentrato sulla fornitura di inferenze su larga scala. Attualmente è disponibile come funzionalità supportata commercialmente in Red Hat OpenShift AI 3.
Una risposta alle esigenze aziendali in costante evoluzione
La società vanta una lunga storia di collaborazione con AWS volta a supportare i clienti dal data center fino all’edge. Questo più recente annuncio mira ora a rispondere alle esigenze in continua evoluzione delle organizzazioni che integrano l’AI nelle loro strategie di cloud ibrido per ottenere risultati gen AI ottimizzati ed efficienti.

Red Hat e AWS alleati per una genAI più accessibile ed economica

Joe Fernandes, vice president e general manager, AI Business Unit, Red Hat
Abilitando il nostro Red Hat AI Inference Server di livello enterprise basato sull’innovativo framework vLLM con i chip AWS AI, consentiamo alle aziende di implementare e scalare i carichi di lavoro AI con maggiore efficienza e flessibilità. Facendo tesoro della tradizione open source di Red Hat, questa collaborazione mira a rendere l’AI generativa più accessibile ed economica in tutti gli ambienti cloud ibridi.

Colin Brace, vice president, Annapurna Labs, AWS
Le aziende richiedono soluzioni che offrano prestazioni eccezionali, efficienza dei costi, libertà di scelta operativa per i carichi di lavoro AI mission-critical. AWS ha progettato i chip Trainium e Inferentia per rendere l’inferenza e l’addestramento dell’AI ad alte prestazioni più accessibili ed economici. La nostra collaborazione con Red Hat fornisce ai clienti un percorso supportato per l’implementazione della GenAI su larga scala. Combinando la flessibilità dell’open source con l’infrastruttura AWS e acceleratori AI appositamente progettati per accelerare il time-to-value dalla fase pilota alla produzione.