Public Cloud: per il flusso dati Cloudera presenta Cloudera DataFlow

Un nuovo servizio dati su Cloudera Data Platform che consente di automatizzare e gestire i flussi di dati cloud-native.

Public Cloud

Grazie a Cloudera DataFlow per il Public Cloud, Cloudera permette agli utenti di automatizzare e aumentare complesse operazioni di flusso di dati. Cloudera DataFlow per il Public Cloud è un servizio cloud-native per i flussi di dati, che consente di elaborare workload ibridi in streaming sulla Cloudera Data Platform (CDP). In questo modo gli utenti possono automatizzare complesse operazioni di flusso di dati, e aumentare l’efficienza operativa dei flussi di dati in streaming con funzionalità di auto-scaling. Oltre a ridurre i costi del cloud eliminando dubbi e incertezze sul dimensionamento dell’infrastruttura.

Cloudera DataFlow

Per Worldwide Global DataSphere IoT Device and Data Forecast di IDC, 2021-2025 i volumi di dati in movimento cresceranno esponenzialmente in tutti i settori, fino a raggiungere 79 ZB. Molte organizzazioni già sfruttano Apache NiFi per catturare ed elaborare i dati attraverso architetture cloud ibride, progettando visivamente flussi di dati senza codice. Mentre il cloud fornisce un facile sbocco per l’elaborazione o l’archiviazione di grandi volumi, sono molte e diverse le sfide che restano da affrontare.

I flussi NiFi

L’implementazione di decine di sofisticati flussi di dati in un singolo cluster può portare a sfide legate a operatività e monitoraggio. Se più flussi NiFi si contendono le stesse risorse, questo può portare a problemi di performance. Gli amministratori IT spesso scelgono infrastrutture di grandi dimensioni per prudenza, portando così a un sottoutilizzo e a costi elevati. Infine, le aziende vogliono un modello pay-as-you-go per evitare di pagare per le risorse non utilizzate.

Cosa include Cloudera DataFlow

Cloudera DataFlow per il Public Cloud è un potente servizio cloud-native per NiFi su Kubernetes. Include capacità operative e di monitoraggio chiave che affrontano facilmente queste sfide e non sono tipicamente disponibili con i servizi dati standard:

  • Catalogo centrale del flusso per la gestibilità, la scoperta e il controllo delle versioni;
  • Dashboard centrale per monitoraggio, risoluzione dei problemi e ottimizzazione delle prestazioni dei flussi di dati su più cluster cloud;
  • Semplice wizard di installazione e solide API per la scalabilità automatica dei flussi su Kubernetes gestita da CDP;
  • Flussi pre-costruiti chiamati “ReadyFlows” per alcuni dei comuni casi d’uso dello streaming.