Nella sua analisi Fabio Gerosa, Sales Director Italy di Couchbase, spiega come la crescita dei workload avanzati AI, Machine Learning e analytics influisca sull’evoluzione dello storage enterprise.
La crescita dei workload avanzati e lo storage enterprise
Workload avanzati quali AI, Machine Learning e analytics stanno incrementando costantemente il loro impatto su ogni azienda. Con molteplici casi d’uso e un’evoluzione che sta influenzando in modo altrettanto significativo i requisiti di storage. Qualsiasi workload dovrà considerare tre fattori che giocano un ruolo importante nella scelta finale dello storage. In primo luogo, lo strumento di archiviazione, se basato su disco, SSD, NVmE o RAM. In seguito, l’architettura di storage, che potrebbe essere file system, database, lake o lakehouse, quale modello di implementazione ospitato nel cloud o on-premise. Infine la vicinanza del calcolo allo storage.
Valutare caso per caso
Una considerazione principale quando si sceglie la configurazione dello storage è la velocità dell’output. AI, ML o analytics devono produrre risultati in tempo reale? O possono essere suddivisi in lotti? Un sistema di AI utilizzato per fornire suggerimenti di e-commerce o per il rilevamento delle frodi supporterebbe un’interazione e un potenziamento quasi istantanei per produrre i risultati di cui l’organizzazione ha bisogno. Quindi uno storage NVmE o RAM estremamente vicino al calcolo avrebbe senso. Al contrario, un sistema di riconoscimento delle immagini che non ha bisogno di fornire valutazioni immediate potrebbe funzionare perfettamente in un ambiente basato su disco. In definitiva, tutto dipende dal caso d’uso specifico.
L’importanza del contesto, workload avanzati e storage
Quasi ogni caso d’uso per AI, ML e analytic ha diversi requisiti di workload. Di conseguenza ogni storage consigliato sarà altamente sensibile al contesto. Non solo, ma qualsiasi sistema di questo tipo avrà una pipeline distinta di ingestione di dati grezzi, preparazione dei dati, e infine generazione delle informazioni con ognuna di queste fasi con caratteristiche diverse dal punto di vista dello storage. Ad esempio, la fase di ingestione può dipendere molto dall’input/output, motivo per cui le architetture di storage parallele hanno molto valore.
Definire l’architettura storage
La fase di preparazione è meno sensibile all’I/O, e in effetti potrebbe non esserci un modello specifico a cui l’I/O deve adattarsi. Questo significa che il recupero dei dati potrebbe avvenire ad accesso casuale. Infine, la generazione delle informazioni probabilmente richiederà che dati e storage siano il più vicini possibile, elemento da considerare in fase di definizione dell’architettura storage. Un buon numero di organizzazioni userà sia l’on-premise che il cloud per rispondere a queste esigenze, anche se molte decideranno che l’approccio più conveniente sia l’as-a-service.
Dati, crescono volume e varietà
La costante è sempre che AI e sistemi simili non avranno l’opportunità di usare i dati da una singola architettura storage e da un singolo supporto di archiviazione. Infatti, i sistemi migliori useranno più fonti di dati per correlare e correggere i bias, problema enorme in questi sistemi. Tutto ciò significa che file system, object store, e soprattutto database e lakehouse giocano un ruolo importante nel successo dell’AI.
Workload avanzati e storage
Per quanto gli algoritmi e i modelli si siano evoluti, il substrato fondamentale che rende l’intelligenza artificiale davvero intelligente è il volume e la varietà dei dati. Di conseguenza, il livello delle informazioni – e quindi lo storage – per l’AI dovrebbe essere scalabile, in grado di ampliarsi e contrarsi in base alle necessità. Elasticità è la parola d’ordine in questo caso, con uno storage che sia performante su scala e, in ultima analisi, conveniente.