Apache Iceberg è integrato nella Cloudera Data Platform

Cloudera rafforza la sua hybrid data platform con un open lakehouse: un’architettura aperta che combina i vantaggi di un data warehouse e di un data lake.

hybrid cloud cloudera data platform trasferimento dati

L’open source Apache Iceberg si integra all’interno di Cloudera Data Platform. Affrontati così due problemi che impediscono alle aziende di trarre vantaggio da un data lakehouse. I due principali problemi sono: la facilità, la velocità e la precisione con cui possono gestire dati strutturati e non strutturati e l’apertura delle piattaforme disponibili.

Gestire i dati oggi

La gestione dei dati, oggi, viene effettuata con un approccio perlopiù ibrido. Secondo uno studio di Statista, la quantità di dati generati, copiati e consumati a livello globale è cresciuta da meno di 1 ZB nel 2011 a circa 14 ZB nel 2020. A questi vanno aggiunti altri 50 ZB di dati non strutturati nel cloud. Per capitalizzare tutto questo sono necessarie risorse come i “data lake”. Archivi centralizzati e scalabili progettati per archiviare, elaborare, analizzare e proteggere grandi quantità di dati di qualsiasi tipo.

Apache Iceberg

Questi strumenti promuovono l’uso di big data analytics, business intelligence e machine learning mission-critical, nonché il data warehousing aziendale.

Negli ultimi anni si è affermato il termine “data lakehouse” che unisce i vantaggi di un data warehouse e di un data lake, ma con un piccolo handicap: mentre i lake sono aperti, i lakehouse non lo sono. L’integrazione del progetto open source Apache Iceberg all’interno della Cloudera Data Platform (CDP) permette di creare un open lakehouse flessibile, in grado di operare con diversi motori e architetture di dati.

La funzione data lake

Veritas analizza le future mutazioni dei ransomware nel 2020

Fabio Pascali, Regional Vice President Italy di Cloudera
I clienti chiedono sempre di più fin dall’inizio: più formati, più motori, più interoperabilità. E questo si può ottenere solo con un open data lakehouse”, Un open data lakehouse affronta le questioni di interoperabilità e architettura alla base. L’innovazione consiste nel risolvere i problemi con gli strumenti migliori, indipendentemente dal fornitore, da cui la necessità di un salto nella concezione di questo tipo di infrastruttura.

L’elaborazione dei dati statici

Come suggerisce il nome, un data lakehouse è in grado di elaborare dati statici e altamente strutturati provenienti dai data warehouse insieme ai flussi di informazioni non strutturate e in real time di un data lake. E nel farlo in modo semplice e veloce, i primi utilizzatori hanno scoperto di essere in grado di spiegare molti dei misteri irrisolti delle loro aziende.

Cosa assicura Apache Iceberg

Apache Iceberg è un formato aperto ad alte prestazioni che nasce nel cloud ed è in grado di scalare petabyte indipendentemente dal livello di storage sottostante e dal livello del motore di accesso. Le query vengono eseguite in una frazione di tempo e i risultati sono molto più affidabili, ripetibili e precisi. Con la nuova piattaforma, la fortuita cancellazione di una colonna di dati o il cambio di nome non scatenerà una tempesta di query e dashboard non funzionanti. E gli analisti e gli ingegneri dei dati potranno ottenere migliori risultati.

La velocità e la precisione di Apache Iceberg su CDP aprono la strada alle aziende che intendono combinare archivi di dati su larga scala con dati IoT in tempo reale. Inoltre applicare machine learning e intelligenza artificiale per una serie di nuove progetti prima non realizzabili.

Sfruttare i data lakehouse con Apache Iceberg

Sono numerose le modalità con cui i clienti di Cloudera hanno sfruttato finora i data lakehouse. L’integrazione di Apache Iceberg renderà i loro sforzi ancora più rapidi ed efficaci. Queste alcune delle applicazioni che i clienti stanno già testando:

  • Prevedere i guasti delle apparecchiature di produzione e massimizzarne la durata,
  • Ridurre la R&S farmaceutica e accelerare gli studi clinici per produrre vaccini e farmaci salvavita in una frazione di tempo
  • Superare il rilevamento delle frodi nel settore bancario per creare sistemi di prevenzione delle frodi più proattivi.