Dati e observability IT: l’evoluzione secondo S2E e Grafana

S2E, in partnership con Grafana, ha organizzato un evento dedicato all’observability IT nei settori FSI e insurance. L’incontro – condotto da Davide delle Cave, Business Line Manager S2E, ed Edoardo Stella, Senior Enterprise Account Executive Grafana – ha offerto un approfondimento sull’evoluzione delle esigenze di monitoraggio, illustrando il percorso che porta da un approccio tradizionale verso sistemi strutturati di lettura e interpretazione dei dati, capaci di abilitare funzionalità predittive e di sicurezza preventiva attraverso machine learning e intelligenza artificiale.

S2E e Grafana

S2E è una società di consulenza in ambito business technology fondata in Italia nel 2008, con un organico di 360 professionisti IT e un fatturato di 34 milioni di euro nel 2025. Il perimetro di competenza dell’azienda spazia dal data analytics all’intelligenza artificiale, dall’hyperautomation e robotic process automation ai data center e alla cybersecurity, con una capacità di intervento che copre sia le architetture cloud più recenti sia i sistemi legacy basati su mainframe e AS/400.

Grafana nasce come dashboard open source concepita per aggregare molteplici data source e visualizzare in tempo reale l’andamento delle infrastrutture IT. Nel corso degli anni la piattaforma si è evoluta in una suite completa per il monitoraggio infrastrutturale, applicativo e front end, estendendo la copertura all’intero stack tecnologico delle imprese. Oggi Grafana conta oltre 7.000 clienti nel mondo, supera i 20 milioni di utenti attivi e ha registrato un fatturato di 650 milioni di dollari nel 2025.

L’observability

L’observability non è più una funzione ausiliaria del monitoraggio IT, è diventata un elemento fondamentale delle imprese digitali. La transizione verso architetture cloud-native, l’adozione massiva di microservizi e, soprattutto, la proliferazione di sistemi basati su agentic AI stanno imponendo un cambio di paradigma profondo: non basta più sapere se un sistema è attivo, occorre comprendere perché si comporta in un determinato modo.

I dati emersi da un’indagine condotta da Grafana restituiscono un quadro eloquente. Il 77% delle aziende intervistate punta all’open source per garantire elevata observability dei propri processi IT, mentre il 92% impiega già l’intelligenza artificiale per rilevare le anomalie prima che si traducano in interruzioni operative. Sul fronte degli agenti AI autonomi, il 77% del campione esprime un giudizio positivo, sebbene il 15% dichiari ancora riserve fiduciarie. Sul versante architetturale, il 49% adotta soluzioni SaaS per l’observability e il 77% si orienta verso sistemi centralizzati. Tuttavia, il 38% segnala la complessità come fattore critico e considera la semplificazione una priorità strategica.

Edoardo Stella
La piattaforma Grafana – fondata su architettura open source – è progettata per rispondere direttamente a queste esigenze. Uno degli obiettivi centrali è la dissoluzione dei silos informativi, che rappresentano ancora oggi uno degli ostacoli principali all’analisi integrata dei dati. Un secondo obiettivo è il contenimento dei costi operativi legati all’analisi, raggiunto attraverso tecniche di campionamento selettivo intelligente che isolano i dati significativi ed eliminano il rumore di fondo.

Quest’ultimo aspetto assume rilevanza crescente: la proliferazione di applicazioni e sensori che generano dati, combinata con il ricorso a soluzioni SaaS in cloud – i cui costi di abbonamento sono proporzionali ai volumi di dati elaborati – rende imperativo un approccio selettivo alla raccolta delle informazioni. La soluzione Grafana interviene proattivamente su questa leva, suggerendo quali metriche possono essere ignorate e quali log richiedono solo un campionamento parziale, preservando esclusivamente le informazioni utili per l’incident management e scartando tutto ciò che non contribuisce alla diagnosi operativa.

Le priorità degli alert

Le organizzazioni più avanzate sul piano della modernizzazione IT dispongono già di sistemi di monitoraggio dei flussi informatici composti da applicazioni real-time non intrusive. Tuttavia, questo livello di presidio non è più sufficiente: la sfida attuale consiste nell’ottenere indicazioni accurate sul reale stato di funzionamento dell’infrastruttura, così da identificare nel minor tempo possibile rallentamenti, malfunzionamenti e blocchi. Ovvero tutte quelle condizioni che impediscono la continuità operativa e possono generare perdita di clienti, come nel caso di una procedura di onboarding eccessivamente lenta.

Davide delle Cave
Altrettanto critica è la capacità di assegnare un grado di priorità agli alert, affinché l’operatore – o il sistema automatico – possa intervenire tempestivamente sugli allarmi a più alto impatto, relegando in secondo piano le notifiche meno rilevanti. La prioritizzazione è fatta tramite soglie dinamiche definite dall’AI in collaborazione con l’operatore, a partire da uno storico specifico del sistema monitorato. Tale storico può coprire diversi anni, mesi o anche solo poche settimane, in funzione del processo aziendale e della sua ciclicità.

Ma il dato grezzo non è sufficiente. Per consentire una diagnosi efficace, le informazioni devono essere arricchite con il contesto interpretativo necessario, in modo che lo specialista IT o il sistema di intelligenza artificiale possa localizzare il problema e risalirne alla causa radice. I processi di data enrichment e di interpretazione sono per definizione specifici dell’organizzazione cliente, che si distingue non solo per il settore di appartenenza ma per la peculiarità dei propri flussi di lavoro.

Il vantaggio dell’intelligenza artificiale

Tra i trend più rilevanti nel dominio dell’observability spicca il ricorso crescente all’intelligenza artificiale, in particolare nella forma di agenti autonomi. L’AI offre un vantaggio concreto nell’analisi ad alta velocità dei dati di telemetria, individuando correlazioni che un operatore umano – anche altamente specializzato – difficilmente riuscirebbe a identificare in tempi utili. Il sistema supporta la valutazione della situazione sia per diagnosticare l’anomalia sia per attivare l’azione correttiva più appropriata. Attraverso il machine learning, il modello acquisisce progressivamente capacità predittive, rendendo gli alert sempre più anticipatori rispetto all’insorgenza effettiva del malfunzionamento.

L’AI integrata nella piattaforma Grafana – basata su un modello di Anthropic ampiamente personalizzato – elimina la necessità di competenze specifiche da parte dell’operatore, sia sulla piattaforma stessa sia sui sistemi monitorati, grazie alla correlazione automatica dei segnali di telemetria eterogenei. Un caso d’uso emblematico è quello di BlackRock: grazie alla soluzione di analisi potenziata dall’AI di Grafana, l’istituto ha ridotto del 40% il Mean Time To Repair (MTTR) e aumentato del 50% l’efficienza in termini di Full-Time Equivalent (FTE) necessari per mantenere operativi i suoi sistemi.

Un ulteriore livello di accessibilità è garantito dall’integrazione dell’AI generativa: lo specialista IT dispone di un’interfaccia conversazionale in linguaggio naturale tramite cui ottenere indicazioni precise per localizzare rapidamente il componente in anomalia e identificare la procedura di remediation più adeguata.

Va sottolineato, tuttavia, che l’intelligenza artificiale non è infallibile. Secondo l’esperienza operativa di Grafana, in circa il 20% dei casi le prestazioni del modello risultano inferiori a quelle di un operatore umano. Per questa ragione, il coinvolgimento di uno o più specialisti nel processo di training continuo rimane imprescindibile. Il modello, peraltro, opera in modo compartimentato all’interno dell’ambiente del cliente, garantendo che le informazioni aziendali non vengano mai condivise con soggetti esterni. In ogni caso, l’efficacia del sistema cresce in modo diretto con il volume di feedback – positivi o negativi – che gli vengono forniti nel tempo.