Grazie a Cloudera DataFlow per il Public Cloud, Cloudera permette agli utenti di automatizzare e aumentare complesse operazioni di flusso di dati. Cloudera DataFlow per il Public Cloud è un servizio cloud-native per i flussi di dati, che consente di elaborare workload ibridi in streaming sulla Cloudera Data Platform (CDP). In questo modo gli utenti possono automatizzare complesse operazioni di flusso di dati, e aumentare l’efficienza operativa dei flussi di dati in streaming con funzionalità di auto-scaling. Oltre a ridurre i costi del cloud eliminando dubbi e incertezze sul dimensionamento dell’infrastruttura.
Cloudera DataFlow
Per Worldwide Global DataSphere IoT Device and Data Forecast di IDC, 2021-2025 i volumi di dati in movimento cresceranno esponenzialmente in tutti i settori, fino a raggiungere 79 ZB. Molte organizzazioni già sfruttano Apache NiFi per catturare ed elaborare i dati attraverso architetture cloud ibride, progettando visivamente flussi di dati senza codice. Mentre il cloud fornisce un facile sbocco per l’elaborazione o l’archiviazione di grandi volumi, sono molte e diverse le sfide che restano da affrontare.
I flussi NiFi
L’implementazione di decine di sofisticati flussi di dati in un singolo cluster può portare a sfide legate a operatività e monitoraggio. Se più flussi NiFi si contendono le stesse risorse, questo può portare a problemi di performance. Gli amministratori IT spesso scelgono infrastrutture di grandi dimensioni per prudenza, portando così a un sottoutilizzo e a costi elevati. Infine, le aziende vogliono un modello pay-as-you-go per evitare di pagare per le risorse non utilizzate.
Cosa include Cloudera DataFlow
Cloudera DataFlow per il Public Cloud è un potente servizio cloud-native per NiFi su Kubernetes. Include capacità operative e di monitoraggio chiave che affrontano facilmente queste sfide e non sono tipicamente disponibili con i servizi dati standard:
- Catalogo centrale del flusso per la gestibilità, la scoperta e il controllo delle versioni;
- Dashboard centrale per monitoraggio, risoluzione dei problemi e ottimizzazione delle prestazioni dei flussi di dati su più cluster cloud;
- Semplice wizard di installazione e solide API per la scalabilità automatica dei flussi su Kubernetes gestita da CDP;
- Flussi pre-costruiti chiamati “ReadyFlows” per alcuni dei comuni casi d’uso dello streaming.