Chatbot Arena Italia, piattaforma di comparazione di LLM

Lanciata da indigo.ai , debutta anche in Italia la piattaforma crowdsourced gratuita Chatbot Arena, che permette di interagire in italiano con i principali modelli linguistici, comparandoli. Gli utenti potranno sottoporre i loro prompt ai diversi LLM disponibili, ricevere risposte e votare quelle migliori. Contribuendo così a determinare la qualità dei modelli, specificamente per la lingua italiana.

In crescita esponenziale i LLM di grandi dimensioni

L’AI Index Report 2024 ha evidenziato come, solo nel 2023, il numero di LLM di grandi dimensioni rilasciati a livello mondiale sia raddoppiato rispetto all’anno precedente. Si tratta di un trend destinato a crescere. Basti pensare che nelle ultime settimane sono stati annunciati nuovi modelli sia globali (come o3-mini di OpenAI, DeepSeek R1 o xAI Grok 3), sia specifici per l’Italia (come Modello Italia di Igenius, Velvet di Almawave o Vitruvian-1 di ASC27). Tale fenomeno conferma, dunque, la necessità di strumenti di valutazione che permettano di confrontare i diversi modelli di linguaggio. Così da favorirne l’ulteriore miglioramento e poterne sfruttare appieno le potenzialità.

Chatbot Arena Italia supera il limite della lingua

Lanciata nel 2023, la piattaforma globale Chatbot Arena è nata proprio a questo scopo. Attestandosi nel tempo come punto di riferimento della community AI mondiale per il testing e la classificazione dei modelli linguistici di grandi dimensioni. Ricevendo prompt in tutte le lingue, tuttavia, le valutazioni possono non rispecchiare appieno l’efficacia dei diversi modelli sui singoli idiomi. Ora, con Chatbot Arena Italia, sarà possibile superare questa limitazione. Questo darà la possibilità ai contributor della comunità AI locale di testare e comparare i più potenti modelli di linguaggio disponibili, per la prima volta in maniera diretta relativamente alla lingua italiana, I feedback raccolti alimenteranno la classifica dei diversi modelli, fornendo così una guida sia a chi voglia orientarsi in un panorama in evoluzione, sia agli sviluppatori AI stessi.

Sviluppare un ecosistema della Gen AI nel nostro Paese

Enrico Bertino, Co-founder e Chief AI Officer di indigo.ai
In indigo.ai lavoriamo con l’intelligenza artificiale già dal 2016. Per questo siamo consapevoli del ruolo attivo che la community svolge in ambito AI. Abbiamo quindi scelto di avviare il progetto Chatbot Arena Italia per coinvolgerla attivamente anche sul nostro territorio. Colmando in questo modo la mancanza di una classifica solida e affidabile per le performance dei modelli di linguaggio in italiano. N

ostro obiettivo è quello di favorire lo sviluppo di un vero e proprio ecosistema della Gen AI in Italia, promuovendo un confronto trasparente e collaborativo tra i suoi protagonisti. Siamo convinti che la piattaforma possa diventare un vero e proprio punto di riferimento per appassionati ed esperti del settore, poiché rappresenta uno strumento essenziale per mappare in modo chiaro e trasparente lo stato dell’arte degli LLM nel nostro Paese.

Il modus operandi di Chatbot Arena Italia

Gli utenti possono mettere alla prova i modelli scegliendo fra 3 modalità di interazione:

Arena (battaglie): consente di inviare un prompt e ricevere risposte da due modelli anonimi, scelti randomicamente dalla piattaforma. Solo dopo aver votato la risposta migliore tra quelle in output, sarà possibile scoprire con quali modelli si è interagito.
Arena (fianco a fianco): consente di selezionare due modelli specifici tra quelli disponibili sulla piattaforma, da interrogare con lo stesso prompt. Non essendo condotte con modelli anonimi, tuttavia, queste interazioni non contribuiscono alla classifica di Chatbot Arena Italia.
Chat diretta: consente di avviare una conversazione con uno specifico modello linguistico, valutandola.

Una piattaforma in costante evoluzione

La classifica dei modelli di linguaggio più efficaci per la lingua italiana, calcolata sulla base dei voti degli utenti raccolti in forma anonima tramite la piattaforma, è disponibile nel tab Leaderboard. I modelli linguistici disponibili su Chatbot Arena Italia, in continuo aggiornamento, sono già più di 30. Includono, tra gli altri, Deepseek R1, GPT-4o, Claude 3.5, e il nuovissimo o3-mini, otre agli italiani Minerva e Modello Italia.