Data virtualization, come Denodo centralizza i dati aziendali

Andrea Zinno, Data Evangelist di Denodo illustra come la data virtualization possa risolvere i problemi creati dall'archiviazione dei dati in repository separati

data virtualization

La data virtualization è la soluzione che Denodo propone ai problemi di data management e di analytics che crea l’ancora troppo diffusa archiviazione delle informazioni in repository separati, in location diverse e talvolta con differenti protocolli di accesso. Per sapere in cosa consiste l’approccio seguito da Denodo abbiamo intervistato Andrea Zinno, Data Evangelist dell’azienda.

– Chi è Denodo, di cosa si occupa e qual è il segmento di riferimento?

Denodo è un’azienda nata nel 1998 in Spagna a seguito di una sorta di spin off di un professore universitario dell’Università de La Coruna che decise di approcciare in maniera diversa il tema dell’integrazione dei dati e del data management affrontandolo con un approccio virtualizzato. L’azienda in seguito si è trasferita negli Stati Uniti e da allora continua a occuparsi esclusivamente di data management e data integration nello spirito della data virtualization.

Denodo ha sempre creduto che la strategia migliore per integrare i dati fosse quella di connetterli piuttosto che collezionarli, quindi passare da un approccio tradizionale, in cui i dati venivano raccolti in qualche contenitore, a una sorta di magazzino intermedio per poi essere messi a disposizione di qualcuno.

Denodo Italia ha aperto nel 2018. Oggi si compone di una decina di persone distribuite fra Roma e Milano, con clienti che vanno un po’ su tutti i mercati in quanto una caratteristica della nostra soluzione, che è di taglio enterprise, è di essere agnostica rispetto all’uso. Infatti, siamo una vera e propria piattaforma di integrazione dati a disposizione dei “data consumer”, ovvero chi deve usare i dati per fini specifici come analisi, accessi oppure utilizzi più transazionali. Di fatto siamo una piattaforma che fa delivery dei dati a chi ne ha bisogno.

La release 16.2 di Red Hat OpenStack aiuta i provider ad aumentare la resilienza alla periferia della rete e gestire i workload containerizzati e virtuali.

– Quali vantaggi porta questa “piattaforma di delivery”?

Il nostro mantra è di essere un punto unico di accesso al dato, in modo tale che chi ne abbia bisogno sappia dove andarli a cercare e quindi non debba districarsi fra dati distribuiti in un’azienda. Questo significa avere un catalogo centralizzato dove i dati possano essere cercati e indagati, che sia facile da navigare e che dia tutte e sole quelle informazioni che sono di interesse per l’utilizzatore. Come per esempio sapere da dove proviene un dato perché spesso conoscendone l’origine si può creare fiducia sul dato stesso perché è un elemento di qualità ma poi tanti altri eventi, come la possibilità di categorizzare i dati, di etichettarli con dei tag che possono rappresentare degli ulteriori criteri di ricerca. E questo per noi è fondamentale, perché avere un punto unico di accesso permette anche di creare il modello semantico unificato.

– Cosa significa modello semantico unificato?

Un problema che spesso rileviamo è che in dipartimenti diversi della stessa azienda si usano gli stessi termini per identificare concetti che sono differenti fra loro. Pensiamo per esempio al concetto di cliente, il modo con cui l’amministrazione guarda al cliente è sicuramente diverso dal modo usato dal marketing, dalle vendite, dal customer care e così via. Quindi va evitato il rischio di chiamare cose diverse con lo stesso nome, perché poi, nel momento in cui si utilizzano questi dati per fare delle analisi e si inizia a metterli insieme si creano dei problemi. Mentre avere un punto unico dove un significato è chiaro e dove si può usare ciò che è già stato definito rende possibile creare ulteriori oggetti continui, semanticamente adiacenti.

Poi, applicando tecniche di intelligenza artificiale che cercano sulla base dei dati delle sorgenti dati da taggare automaticamente o caratterizzare automaticamente si possono derivare altre viste del cliente.

In alcuni contesti esiste un gruppo centralizzato che si occupa di gestire il dato attraverso modelli nuovi. Per esempio, il data mesh, che è un tema del quale si sta parlando molto e che riconosce nelle diverse strutture aziendali il luogo dove è massima la conoscenza dei dati, che naturalmente appartengono a quel dominio. Denodo ultimamente sta spingendo molto su questo approccio che riconosce le capacità dei singoli gruppi che gestiscono i dati, con la possibilità poi di creare un’infrastruttura tecnica che consenta a tutti questi dipartimenti di fare fronte comune per fornire una rappresentazione unica e condivisa del dato.

Il 2018 per Avanade, tra realtà aumentata e assistenti virtuali

– In generale, quale settore è più incline all’uso di uno strumento come la data virtualization di Denodo?

Siamo una piattaforma di integrazione dati agnostica rispetto all’utilizzo che si fa dei dati. È chiaro che certi mercati, per tendenza o per storia, sono più data centric di altri. Al momento a livello mondiale non c’è una reale prevalenza di un settore sull’altro. In Italia, invece, abbiamo una buona presenza nel pubblico (ISTAT è nostro cliente) e anche in ambito bancario (serviamo quattro dei 10 principali istituti di credito). Abbiamo un cliente nel mondo farmaceutico, altri nel mondo finanziario allargato, quindi aziende che offrono servizi al mondo bancario.

Abbiamo poi come cliente un rilevante gruppo nell’automotive dove la virtualizzazione gli ha consentito di risolvere un problema di integrazione a fronte di un’importante fusione da gestire alcuni mesi, mettendo insieme concetti che avevano lo stesso nome, ma che nelle due realtà avevano rappresentazioni diverse.

– Cosa intende Denodo con virtualizzazione dei dati?

La risposta per Denodo è nella connessione, quindi la capacità di connettersi a una sorgente dati senza portarne subito fuori i dati e raccogliendogli in un magazzino, in una qualche struttura intermedia che poi è quella dalla quale vengono effettivamente presi i dati e consegnati. L’obiettivo è separare questa attività di integrazione dati in due parti, una logica e una fisica, dove la parte logica è la connessione a una sorgente dati al solo scopo di capire che tipo di dati sono contenuti.

Quindi si connette a una sorgente dati ne legge la struttura logica e porta all’interno del catalogo la sintesi di ciò che è quella sorgente, ma i dati rimangono dove sono. Questa fase logica è quella che serve inizialmente a capire se ci sono i dati di cui si può avere bisogno. Non pensiamo solo al dato grezzo che sta nelle varie sorgenti dati, ma a tutti i dati che sono stati via via costruiti.

Una volta individuati, penserà il virtualizzatore a interrogare le sorgenti e a prende i dati. Questa è la fase fisica. Va sottolineato che una soluzione di data virtualization non detiene mai internamente un suo magazzino dove raccogliere dati, ma li fa solo transitare quando sono richiesti.

– A che tipi di fonti dati può accedere la data vitualization?

A qualsiasi sorgente dati. Data warehouse e data lake, che spesso vediamo come fondamentali sorgenti dati, sono strutture che lavorano per copia e duplica del dato. L’aspetto fondamentale della data virtualization è che non necessita di un’ulteriore replica dei dati al solo fine di renderli disponibili, ma accede a tutte le sorgenti creando un livello logico virtualizzato che sta al di sopra di tali sorgenti, le quali restano quindi separate, ognuna con le sue caratteristiche, la sua efficienza, la sua sicurezza.

Quando Denodo si connette alle sorgenti dati per leggere la struttura logica al loro interno la rappresentata con un linguaggio unico, che poi è quello relazionale. E questo indipendentemente dal fatto di come il dato è rappresentato. Così chi poi deve esplorare il dato deve conoscere un unico formalismo di rappresentazione, non deve farsi carico di trasformarlo in altri formati.

– Come sono gestiti i dati personali nella vostra data virtualization?

Non portiamo mai fuori i dati dell’azienda, non copiamo dati. Quindi molti degli aspetti legati al GDPR, come la nomina del responsabile, si risolvono a monte proprio per l’approccio che utilizziamo. Noi il dato lo trasmettiamo e lo consegnamo a chi lo deve usare, ma non ne creiamo una copia. È vero che c’è un sistema di caching della memoria, ma è completamente criptato. Quindi per quanto riguarda i dati fisici, le istanze, il problema è risolto dall’approccio stesso della data virtualization.

Però il fatto che comunque deteniamo il catalogo ci porta ad avere una traccia di cosa le sorgenti dati contengono. Da questo punto di vista, Denodo si integra con tutti i sistemi di governance e di sicurezza aziendale, per cui c’è l’audit completo di chi fa cosa. Perciò in ogni momento si può sapere chi accede e a quali dati.

È anche possibile fare il masking dei dati nel momento in cui vengono trasmessi. Questo offre un’opportunità in termini di sicurezza. Infatti, un dato che sulla sorgente è totalmente libero perché è fondamentale che sia gestito completamente in chiaro, quando se ne crea la sua vista logica è possibile definire delle policy di sicurezza senza dover creare delle repliche. Questo in certi contesti è un aspetto molto importante, tant’è che abbiamo dei clienti che hanno scelto Denodo solo per la data governance. Si tratti di clienti che non hanno esigenze funzionali particolari, ma vogliono avere un punto unico di accesso dove si può controllare chi fa cosa e a quali dati ha avuto accesso.

– Commercialmente come agisce Denodo?

Abbiamo una rete di system integrator che sono per noi vitali. Questo perché spesso un progetto di data integration o una trasformazione di tipo data driven deve essere seguita da una piattaforma dati che spesso è più ricca della sola parte di virtualizzazione. Ovviamente noi abbiamo una struttura di consulenza che però è specializzata sulla nostra soluzione, quindi va dall’esperto di prodotto al Business Consultant, con l’obiettivo di aiutare a capire come un caso d’uso possa essere implementato al meglio utilizzando Denodo.