Cristian Meloni, Country Manager Italia di Rubrik, spiega come sfruttare al meglio i Data Lake, evidenziando il ruolo cruciale del database administrator.
Il decision making basato sui dati sta trasformando il modo di lavorare, sia dei responsabili di business che del reparto IT. Le aziende mirano ad accedere a tutti i tipi di informazioni e necessitano di esperti di infrastrutture per sfruttare appieno il vero potenziale dei dati. Questo ruolo può essere ricoperto dal Database administrator (DBA) che ha l’occasione di diventare un esperto interno all’azienda, di operare come partner strategico per la gestione dei dati e per garantire che questi siano disponibili a chi ne ha bisogno.
Per ottenere ciò, oltre alla creazione del proprio cloud e allo sviluppo di capacità DevOps, i DBA possono fare affidamento sul data lake, una grande repository dove i dati, raw, vengono salvati da diverse fonti. Gli utenti nell’organizzazione potranno quindi accedere e analizzare i dati centralizzati.
Il vero vantaggio dei data lake si evidenzia quando se ne massimizza l’adozione in azienda e, quindi, le decisioni aziendali vengono influenzate dall’analisi dei big data. Per creare il proprio data lake bisogna decidere che piattaforme e che fonti dati utilizzare, ma è ancora più importante stabilire come presentare questo strumento agli stakeholder in modo da massimizzarne l’adozione in tutta l’azienda.
Cos’è un Data Lake e perché è così importante?
Imprese di tutte le dimensioni e in mercati differenti stanno creando data lake per affrontare le più difficili decisioni aziendali. Una tendenza confermata dal continuo aumento dei dati analizzati, in parallelo con le richieste degli analisti di differenti business unit.
In linea teorica, dipartimenti IT e data scientist dovrebbero condurre le analisi dei dati, ma la richiesta odierna è molto superiore rispetto alle capacità d’analisi. I reparti IT spesso respingono queste richieste perché non hanno le risorse necessarie, e ciò si traduce in decisioni che vengono prese senza tutte le informazioni disponibili.
La soluzione è abilitare l’accesso ai dati raw e consentire la conduzione di specifiche analisi agli utenti che ne hanno bisogno. La funzione primaria del data lake è proprio quella di raggruppare tutti i dati raw aziendali e consentire a molteplici utenti di entrare nella repository e trarre le proprie conclusioni. Questi strumenti consentono ricerche self-service, con l’utilizzo di tool di analisi che continuano a migliorare: il risultato è che non serve più una laurea in data science per acquisire informazioni da dati raw a supporto di una decisione di business.
Nel caso in cui una realtà sia sommersa da dati e relative richieste d’analisi, l’implementazione di un data lake per ottimizzare il data management diventa una scelta obbligata.
Sfruttare il potenziale dei Big Data
Per garantire che le persone utilizzino il data lake, è necessario selezionare un’interfaccia che parli a diversi livelli di competenza. Includere opzioni per classificare i dati in base alla loro qualità e consentire agli utenti di scegliere il set di dati che desiderano in base ai campi disponibili o alle caratteristiche degli stessi.
Senza garantire la facilità d’uso, sarà impossibile raggiungere la piena adozione da parte degli utenti, il che trasformerà il data lake in una “palude” con tonnellate di dati, non classificati e non organizzati che gli utenti non sanno come leggere o interpretare. Le paludi di dati sono tipicamente un sintomo di una cattiva governance e della mancanza di metadati contestuali.
Oltre all’interfaccia, è necessario scegliere:
• la piattaforma che più si adatta all’azienda
• le fonti di dati tra i silos dell’azienda
Molte soluzioni cloud sono disponibili come una piattaforma per data lake, motivo per cui sfruttare un servizio cloud può essere vantaggioso anche in termini di scalabilità e rapporto costi/benefici rispetto alla creazione da zero di un’infrastruttura on-prem.
È fondamentale capire quali sono gli ostacoli che impediscono di analizzare il massimo numero di fonti. Alcune business unit possono essere restie a condividere i propri dati, ma è necessario che tutti i dati siano disponibili per creare un efficace data lake.
I vantaggi derivanti dalla creazione e dall’utilizzo di un data lake nell’ambito di una strategia collaudata e mirata a ottimizzare la gestione dei dati aziendali sono molti e significativi, legati sia all’efficacia e tempestività delle proprie decisioni di business, che a indicatori concreti e ancor più immediati.
Tra questi:
• massimizzare il numero delle decisioni basate sull’analisi di dati
• ottenere risparmi dal 30% al 50%
• ridurre il tempo di gestione quotidiana fino al 60%