ROCm 6.3 è un punto di svolta per l’open source AMD e introduce strumenti avanzati per potenziare carichi di lavoro AI, ML e HPC su acceleratori GPU Instinct.
È progettato per supportare un’ampia gamma di clienti, dalle startup innovative di intelligenza artificiale alle industrie basate sull’HPC, migliorando la produttività degli sviluppatori e offrendo prestazioni eccezionali.
La piattaforma assicura la perfetta integrazione SGLang per l’inferenza accelerata dell’intelligenza artificiale, un FlashAttention-2 riprogettato per l’addestramento e l’inferenza, l’introduzione della trasformata di Fourier veloce (FFT) multinodo per rivoluzionare i flussi di lavoro HPC e altro ancora
SGLang in ROCm 6.3: inferenza superveloce e modelli di intelligenza artificiale generativa (GenAI)
GenAI sta trasformando i settori, ma l’implementazione di modelli di grandi dimensioni spesso significa affrontare sfide di latenza, throughput e utilizzo delle risorse. SGLang è un nuovo runtime supportato da ROCm 6.3, costruito appositamente per ottimizzare l’inferenza di modelli generativi all’avanguardia come LLM e VLM su GPU AMD Instinct.
Il sistema offre throughput 6 volte superiore e grande facilità d’uso grazie all’integrazione e preconfigurazione Python.
FlashAttention-2 riprogettato su AMD Instinct
I modelli di trasformatori sono al centro dell’intelligenza artificiale moderna, ma le loro elevate esigenze di memoria e calcolo ne hanno tradizionalmente limitato la scalabilità. Con FlashAttention-2 ottimizzato per ROCm 6.3, AMD affronta questi punti deboli, consentendo un addestramento e un’inferenza più rapidi ed efficienti.
Il sistema offre una accelerazione 3X e lunghezze di sequenza estese per l’utilizzo efficiente della memoria e il ridotto sovraccarico di I/O.
Compilatore AMD Fortran
Le aziende che eseguono applicazioni HPC legacy basate su Fortran possono ora sfruttare la potenza della moderna accelerazione GPU con gli acceleratori AMD Instinct, grazie al nuovo compilatore AMD Fortran introdotto in ROCm 6.3. Tra i benefici: offload diretto della GPU, compatibilità con le versioni precedenti e integrazioni semplificate con i kernel HIP e le librerie ROCm.
Nuova FFT multi-nodo in rocFFT
I settori che si affidano ai carichi di lavoro HPC, dal petrolio e gas alla modellazione climatica, richiedono soluzioni di elaborazione distribuite scalabili in modo efficiente. ROCm 6.3 introduce il supporto FFT multi-nodo in rocFFT, consentendo calcoli FFT distribuiti ad alte prestazioni. Ciò assicura Integrazione MPI (Message Passing Interface) e scalabilità senza soluzione di continuità su enormi set di dati.
Librerie di visione artificiale migliorate: AV1, rocJPEG
Gli sviluppatori di intelligenza artificiale che lavorano con i media e i set di dati moderni richiedono strumenti efficienti per la preelaborazione. ROCm 6.3 introduce miglioramenti alle sue librerie di visione artificiale, rocDecode, rocJPEG e rocAL, consentendo alle aziende di affrontare carichi di lavoro diversi, dall’analisi video all’aumento dei set di dati. È così garantito il supporto codec AV1, la decodifica JPEG con accelerazione GPU e la preelaborazione migliorata per un robusto addestramento del modello in ambienti rumorosi con la libreria rocAL.
Oltre a queste caratteristiche distintive, vale la pena sottolineare che Omnitrace e Omniperf, introdotti in ROCm 6.2, sono stati rinominati ROCm System Profiler e ROCm Compute Profiler. Questo rebranding contribuirà a migliorare l’usabilità, la stabilità e la perfetta integrazione nell’attuale ecosistema di profilazione ROCm.