Gli italiani e gli assistenti vocali evoluti: indigo.ai

Secondo il report Customer Experience Unlocked 2025 di indigo.ai , la maggioranza degli italiani usa gli assistenti vocali abitualmente e con soddisfazione, in particolare le versioni più evolute. Infatti quando si interfacciano con voicebot di prima generazione, solo il 35% apprezza questo tipo di interazioni. Spesso compromesse da risposte non accurate (64%) e dalla complessità dei passaggi necessari per arrivare a una soluzione (46%). Partendo da questo divario tra aspettative e realtà l’azienda ha analizzato l’attuale scenario tecnologico, guardando a come le evoluzioni future potranno abilitare conversazioni del tutto naturali con assistenti virtuali vocali basati sullo’AI

La sfida futura sarà conquistare la fiducia degli utenti nell’AI

Gianluca Maruzzella, CEO e Co-Founder di indigo.ai.
Gli utenti di oggi sono pronti a interagire con gli agenti AI vocali. Ma si aspettano esperienze molto più naturali e affidabili rispetto a quelle offerte dagli assistenti vocali di prima generazione. Oggi, possiamo già contare su modelli molto più avanzati che, se governati correttamente, possono ridurre la latenza e abilitare interazioni soddisfacenti. Offrendo al contempo livelli elevati di monitoraggio e controllo delle conversazioni. In indigo.ai, l’innovazione è da sempre al cuore delle nostre soluzioni.

Abbiamo integrato la funzionalità vocale circa un anno fa e, da allora, stiamo osservando ancora più da vicino lo sviluppo di un canale che diventerà via via più pervasivo per la CX, identificandone le potenzialità. Per il futuro, la sfida non sarà avvicinare i consumatori all’AI, ma conquistarne ancora di più la fiducia abilitando un’esperienza del tutto affine a quella della comunicazione umana, capace di anticipare le richieste pur lasciando alle aziende gli stessi livelli di visibilità.

Per gli assistenti vocali la complessità sta nell’aspettare

Nel contesto delle interazioni vocali, la qualità dell’esperienza dipende in modo determinante dalla rapidità con cui un sistema risponde. A differenza della comunicazione testuale, infatti, la voce rende la percezione dei tempi di attesa più immediata e sensibile. Anche brevi ritardi possono incidere negativamente sulla fluidità dello scambio e soddisfazione dell’utente. Tempi di risposta contenuti vengono generalmente percepiti come naturali, mentre ritardi progressivamente più lunghi introducono un senso di interruzione, fino a compromettere l’interazione stessa.

Le risposte

Si stima che risposte entro i 2 secondi facciano sì che l’interazione sia considerata perfetta, tra 2 e 4 secondi migliorabile ma accettabile. Mentre tra i 4 e gli 8 secondi il dialogo inizia a diventare difficoltoso e oltre i 10–12 secondi può essere percepito come fallimentare. Una criticità evidente soprattutto quando gli assistenti vocali vengono adottati in contesti ad alto volume di traffico: è a quel punto che la latenza emerge come una delle principali fonti di frizione.

L’importanza dell’orchestrazione

Oggi, i sistemi vocali presenti sul mercato si basano su un’architettura costruita su tre passaggi sequenziali. Ovvero: ascoltare (Speech-to-Text), capire (grazie ai Large Language Models) e rispondere (Text-to-Speech). Si tratta di un modello nato per garantire affidabilità e controllo sulla qualità delle conversazioni. F ondamentale soprattutto in ambienti complessi come quelli enterprise, dove la conversazione può richiedere molto contesto e la connessione con sistemi complessi. Tuttavia, seguire un’architettura tradizionale ‘a cascata’ – ogni componente attende che il precedente finisca il lavoro – rischia di creare vuoti inaccettabili.

L’accumulo di tempi tecnici

La sequenzialità dei processi, infatti, può generare un accumulo di tempi tecnici che rende difficile mantenere la fluidità necessaria a un’interazione naturale. Il vero collo di bottiglia non risiede nei singoli modelli, ma nella loro orchestrazione. Per abbattere la latenza e rendere l’esperienza davvero naturale, è necessario andare oltre la semplice somma dei componenti, dotandosi invece di uno strato proprietario di regia, indipendente da logiche esterne standardizzate.

Parallelizzazione, predittività e latenza ridotta per i futuri assistenti vocali

Tale livello di governance interviene sull’interazione end-to-end, decidendo quando attivare ogni capacità e come farla lavorare insieme alle altre. Ottimizzando così la conversazione con il massimo controllo e con una precisione misurabile. Per il futuro, le evoluzioni in termini di Voice AI punteranno su un ripensamento radicale dei processi di elaborazione, con un approccio che privilegia la simultaneità delle operazioni e riduce i tempi di attesa. La parallel execution consente ai sistemi di elaborare informazioni e preparare una risposta mentre l’utente sta ancora parlando, rendendo più fluido l’intero scambio comunicativo. A questa si affiancano meccanismi avanzati di semantic caching, che permettono di recuperare e riutilizzare rapidamente contenuti già elaborati in precedenza. Inoltre, modelli di predictive prefetching potranno anticipare i possibili sviluppi della conversazione.

Voice2Voice, il modello basato sull’AI che rivoluzionerà le interazioni

La nuova frontiera degli Agenti AI vocali sarà rappresentata dall’introduzione dei modelli Audio-to-Audio, che permetteranno di superare la classica alternanza tra voce e testo. Grazie a questa architettura, lo scambio tra utente e Agente AI avverrà tramite un flusso continuo di audio elaborato e generato in tempo reale. Sulla base di una dinamica Multi-Agent, le conversazioni verranno gestite interamente da Agenti AI vocali. Questi decideranno quando coinvolgere Agenti AI testuali per azioni complesse restando ‘in silenzio’ così da dare poi un riscontro all’utente in modalità esclusivamente audio.

Tale approccio permetterà agli Agenti AI vocali di intervenire con tempestività e maggiore qualità dell’interazione, più simile a quella tipica della comunicazione umana. L’obiettivo non sarà solo il ridurre i tempi di risposta, ma di ottenere una ‘latenza percepita negativa’, ossia l’impressione che l’Agente AI sia in grado di anticipare le richieste.

Più velocità richiederà più governance, ma genererà più fiducia

L’evoluzione degli Agenti AI vocali verso tempi di risposta sempre più rapidi renderà indispensabile un rafforzamento proporzionale delle dinamiche di controllo delle conversazioni. La velocità, infatti, non può prescindere dalla capacità di garantire piena affidabilità, soprattutto in contesti aziendali complessi e altamente regolamentati. Per questo, anche le architetture più avanzate dovranno integrare strumenti che consentano di tracciare in modo puntuale ogni fase del ragionamento. Assicurando così trasparenza, verificabilità e aderenza ai requisiti di sicurezza. Grazie a livelli elevati di osservabilità, simulazioni continue, funzionalità come guardrails ed evaluators, sarà possibile monitorare e governare il comportamento degli Agenti AI. E questo anche quando l’elaborazione avverrà in tempi estremamente ridotti.

Necessario investire in architetture e competenze

È sull’equilibrio tra rapidità e controllo, infatti, che si costruisce la fiducia dell’utente finale. Più un assistente vocale sarà veloce, più dovrà essere tracciabile, affidabile e sicuro, affinché l’esperienza risulti non solo naturale, ma anche conforme agli standard attesi dalle organizzazioni.

Gianluca Maruzzella, CEO e Co-Founder di indigo.ai
Il modello Voice2Voice rappresenterà la frontiera più avanzata dell’interazione vocale basata sull’AI. Oggi non si è ancora arrivati a quel livello di maturità tecnologica, che richiederà tempo per essere tradotta in soluzioni pienamente operative. Tuttavia, è fondamentale continuare a guardare avanti, investendo in architetture e competenze per non farsi trovare impreparati.