La strategia investigativa è stata condurre un monitoraggio sintetico per scoprire se il problema era visibile in Internet e da quali aree geografiche. Così è arrivata la prima conferma ufficiale dei sospetti: il tempo di risposta per la transazione di business più importante, volta a fornire il costo dell’assicurazione scelta, era molto alto, circa 12 secondi. Personalmente, avrei effettuato un refresh della pagina già dopo 5 secondi, e le ricerche mostrano che di solito la maggior parte degli utenti fa altrettanto. In questa situazione, tra l’altro, non solo gli utenti sono frustrati ma il sistema stesso è sovraccaricato.
Finalmente era chiaro a tutti: c’era una criticità. Il passo successivo era capire se e quanti utenti finali fossero effettivamente coinvolti. Per fare questo l’Application Aware Network monitoring è stato distribuito sul front end dell’applicazione. La scoperta è stata “elementare”, gli utenti finali reali erano stati pesantemente colpiti dal malfunzionamento.
La situazione non era ammissibile. Trattandosi di un mercato estremamente competitivo, nel quale anche un singolo click fa la differenza, tempi di risposta crescenti di questo tipo non erano accettabili. Inoltre, la compagnia di assicurazioni aveva in essere in un accordo di partnership con una banca che riteneva che le transazioni volte a fornire il costo del servizio assicurativo non dovessero richiedere più di 4 secondi. Dal momento che l’adempimento a tale SLA non era mai stato misurato, nessuno sapeva di non essere in regola.