L’opinione di Alois Reitbauer, Chief Technology Strategist di Dynatrace, su come possono fare le aziende ad evitare la minaccia di gravi disservizi applicativi .
Evitare gravi disservizi applicativi è un obiettivo essenziale dei piani di resilienza aziendale in qualsiasi settore. Come hanno dimostrato gli eventi recenti, i disservizi applicativi sono una minaccia sempre presente nel nostro mondo sempre più digitale. Dalle operazioni commerciali alle comunicazioni personali, la dipendenza dal software e dall’infrastruttura cloud è in costante aumento.
Dynatrace – gestire i gravi disservizi applicativi
I disservizi possono sospendere i servizi, causare perdite finanziarie e danneggiare la reputazione di un brand. Comprendere le cause di questi disservizi è fondamentale per prevenirli e garantire operazioni tecnologiche più affidabili e fluide. È inoltre fondamentale disporre di una strategia per affrontare questi disservizi, che comprenda processi di rimedio documentati e funzionalità di osservabilità che consentano di identificare e risolvere i problemi in modo proattivo per ridurre al minimo l’impatto sui clienti e sull’azienda.
Le cause più comuni secondo Dynatrace
- Eliminare i bug del software. I bug del software e i rilasci di codice errati sono i comuni responsabili dei disservizi tecniche. Questi problemi possono derivare da errori nel codice, da test insufficienti o da interazioni impreviste tra i componenti del software. Inoltre, la complessità dei moderni sistemi software aggrava il rischio di interruzioni. Man mano che le applicazioni diventano più interconnesse, aumenta il potenziale di guasti. Un bug apparentemente minore in un componente può avere conseguenze di vasta portata, con il rischio di far fallire interi sistemi o servizi.
- Per prevenire i disservizi causati da bug del software, le organizzazioni devono implementare procedure di test approfondite, compresi test automatizzati e pratiche di integrazione continua. Anche le revisioni regolari del codice e un solido processo di quality assurance sono fondamentali per aiutare a identificare i problemi prima che raggiungano la produzione.
- Prevenire i cyberattacchi. I cyberattacchi comportano attività malevole volte a interrompere i servizi, rubare i dati o causare danni. Questi attacchi possono essere orchestrati da hacker, criminali informatici o persino da soggetti governativi/statali. Il panorama delle minacce informatiche è in continua evoluzione e gli aggressori sviluppano metodi sempre più sofisticati per sfruttare le vulnerabilità. Ransomware e Remote Code Execution (RCE) sono esempi in cui i malintenzionati sfruttano le vulnerabilità dei sistemi. Inoltre, gli attacchi DDoS (Distributed Denial of Service), pur non sfruttando direttamente le vulnerabilità, sono attacchi informatici dannosi che possono essere altamente impattanti per le organizzazioni.
Il parere di Dynatrace
- Per far fronte al rischio di attacchi informatici, le aziende devono implementare solide misure di sicurezza che combinino misure preventive proattive, come l’analisi delle vulnerabilità a runtime, con una protezione completa delle applicazioni e del perimetro attraverso firewall, sistemi di rilevamento delle intrusioni e controlli regolari della sicurezza. Anche la formazione dei dipendenti sulle migliori pratiche di cybersecurity e il costante aggiornamento di software e sistemi sono fondamentali.
- Orientarsi nella domanda elevata. Picchi improvvisi della domanda possono sopraffare i sistemi che non sono progettati per gestire tali carichi, portando a interruzioni. Ciò si verifica spesso durante eventi importanti, promozioni o picchi di utilizzo imprevisti. Esempi reali di interruzioni legate alla domanda sono comuni e spesso di alto profilo.
- Allo stesso modo, i servizi di streaming online hanno subito tempi di inattività durante le anteprime di spettacoli molto attesi, poiché milioni di spettatori entusiasti tentano di accedere ai contenuti contemporaneamente. Questi incidenti sottolineano l’importanza fondamentale di prepararsi agli scenari di picco della domanda, anche se si verificano raramente. Per gestire la domanda elevata, le aziende dovrebbero investire in infrastrutture scalabili, bilanciamento del carico e tecnologie di scalabilità del carico.
- Eseguire test di backup e ripristino. Gli errori nel processo di backup possono causare interruzioni. Soprattutto quando i sistemi primari si guastano e i backup non si attivano come previsto. Ciò può essere dovuto a backup non correttamente configurati, a dati danneggiati o a test insufficienti. L’impatto dei malfunzionamenti dei backup può essere particolarmente devastante, poiché spesso vengono alla luce in situazioni già critiche. Ad esempio, un’azienda sanitaria potrebbe perdere l’accesso alle cartelle cliniche dei pazienti durante un guasto al sistema principale.
Dynatrace spiega come gestire i disservizi
Questi scenari sottolineano l’importanza non solo di disporre di sistemi di backup. Ma anche di assicurarsi che siano perfettamente funzionanti, aggiornati e in grado di soddisfare le esigenze di ripristino dell’organizzazione. È fondamentale eseguire regolarmente test di backup e ripristino per garantire che i sistemi siano configurati correttamente. Le aziende devono assicurarsi di disporre di una serie di opzioni di ripristino, tra cui snapshot, repliche e backup per fornire una serie di opzioni in termini di RTO e RPO. Un piano di disaster recovery completo con test coerenti è fondamentale anche per garantire che i ripristini di grandi dimensioni funzionino come previsto.
- Attenuare i problemi di rete. I problemi di rete comprendono problemi con i provider di servizi Internet, i router o altri dispositivi di rete. Possono essere causati da guasti hardware, da errori di configurazione o da fattori esterni come il taglio dei cavi. L’impatto dei problemi di rete può variare da piccoli inconvenienti a gravi interruzioni operative. Una bassa velocità di Internet può ostacolare la produttività, mentre un’interruzione completa può bloccare del tutto le attività aziendali.
- Secondo Dynatrace, nel mondo interconnesso di oggi, anche un breve periodo di inattività della rete può comportare perdite finanziarie significative e danni alla reputazione di un’organizzazione. Soprattutto per le aziende che si affidano in larga misura a servizi online o ad applicazioni basate su cloud. Per mitigare i problemi di rete, le organizzazioni devono garantire pratiche solide di monitoraggio e gestione della rete.
- Proteggersi dall’errore umano. L’errore umano rimane una delle cause principali delle interruzioni tecniche. Può trattarsi di errori commessi durante la manutenzione ordinaria, configurazioni errate o cancellazioni accidentali. In ambienti ad elevata criticità, anche i professionisti più esperti possono commettere errori, soprattutto quando si tratta di sistemi complessi o di scadenze stringimenti. Un singolo passo falso, come un comando sbagliato o un dettaglio di configurazione trascurato, può trasformarsi in una grave interruzione, con conseguenze su più sistemi e servizi.
- Attenuare le cause dei disservizi applicativi. Comprendere le diverse cause dei disservizi è essenziale per sviluppare strategie per prevenirli, ma è solo l’inizio. Una strategia di mitigazione efficace richiede una soluzione di osservabilità che fornisca una visione completa end-to-end di tutte le applicazioni e i servizi. La sfortunata realtà è che i disservizi applicativi sono comuni.