I Big Data diventano Intelligence
I big data sono ormai una realtà. Ma non la stessa per tutte le aziende o per tutti gli utenti. L’esplosione dei dati sta dando luogo a diversi problemi e opportunità. Il medico che deve archiviare le immagini dei suoi pazienti deve affrontare un problema differente rispetto al negozio che oggi con i big data dispone di una mole senza precedenti di dati sulle abitudini di acquisto dei propri clienti. L’utente finale sfinito dal tempo necessario per localizzare un file o un messaggio di posta elettronica ha a che fare con problemi diversi rispetto a quelli del team legale alle prese con richieste di conformità.
Secondo un recente sondaggio Gartner su 720 aziende, relativo ai piani di investimento in raccolta e analisi dei big data, quasi due terzi di queste ha intenzione di partire quest’anno, con le imprese di comunicazione e finanza in pole position. La società di ricerche indica che il 2013 è stato l’anno delle sperimentazioni e delle prime implementazioni. L’adozione è ancora agli inizi: meno dell’8% degli intervistati conferma che la propria azienda ha implementato soluzioni big data, il 20% le sta sperimentando, il 18% sta sviluppando una strategia, il 19% sta raccogliendo informazioni e il restante 35% non ha ancora fatto nulla.
Si tratta quindi di una fase critica nell’evoluzione dei big data. Nonostante i costi dello storage siano scesi negli ultimi anni, le organizzazioni non possono assolutamente adottare un approccio ‘store everything’ ai big data e sperare di ottenerne i vantaggi di lungo periodo. La questione non è solo quali dati conservare e dove, ma come estrarre valore da tali dati – oggi e in futuro quando le tecnologie big data, e le relative analisi, saranno più sofisticate.
Oltre all’incredibile esplosione dei volumi di dati, le aziende hanno accesso ad altre tipologie di contenuti. Se questa ampiezza di dati offre interessanti opportunità per ottenere valore, dà anche adito a significative sfide di gestione. Come dovrebbe l’azienda proteggere, organizzare e accedere a queste informazioni, diversificate ma critiche, che sempre più includono email e documenti, ma anche file rich media ed enormi repository di dati a livello transazionale?
Al centro di una strategia big data di successo vi è la capacità di gestire i diversi requisiti di conservazione e accesso associati a diverse fonti e gruppi di utenti. Mentre oggi in un’impresa tradizionale non si accede regolarmente per un anno o più alla maggior parte dei dati, questo approccio cambierà a mano a mano che le strategie big data evolvono. Molte organizzazioni stanno adottando una politica ‘collect everything’ sulla base del fatto che lo storage è economico e i dati avranno un valore a lungo termine.
L’economico storage cloud-based sta sicuramente abilitando le strategie big data. Ma la realtà è che – anche se è fattibile pensare di archiviare tutti i dati nel cloud – anche con connessioni rapide recuperare 5TB di dati richiederebbe tempi troppi lunghi. Inoltre, i costi del cloud sono in crescita, soprattutto nel momento in cui le imprese incrementano la quantità di dati, e anche opzioni di backup su nastro in outsourcing ancora più economiche comportano comunque un aumento nei costi di energia e gestione.
Infine, l’impatto dei dati inutilizzati archiviati su storage primario va ben oltre i più elevati costi di backup e l’accesso difficoltoso degli utenti finali porta a inefficienze operative ed eleva il rischio di non-conformità.
Le aziende non possono adottare un approccio a breve termine alla gestione dei volumi di big data e sperare di ottenere vantaggi a lungo termina. E’ necessario scegliere un metodo intelligente a come, dove e quali dati archiviare. E’ realmente pratico effettuare il backup dell’intero file server semplicemente perché alcuni documenti devono essere conservati per diversi anni a scopi di conformità? O ci sono modi migliori che estraggono le informazioni di interesse e le archiviano in luoghi più economici come il cloud?
Per conservare le informazioni ed evitare l’esplosione dei volumi di dati, le aziende devono impiegare un approccio strategico per archivio e backup. Quali informazioni devono essere conservate su costosi storage locali e cosa può essere messo sul cloud o in altro luogo? E quali policy verranno utilizzate per togliere la proprietà dei dati dal controllo degli utenti? Un approccio strategico, basato sulla proprietà di ogni oggetto, permette alle imprese di evitare i problemi generati da utenti che applicano le loro policy ‘retain everything’.
Cancellando la sorgente locale del dato e spostandola su un repository virtuale, un’organizzazione è in grado di evitare duplicati e incoerenza, pur garantendo che le informazioni possano essere recuperate in modo tempestivo e semplice. Le regole policy driven per la conservazione dei dati si possono basare su criteri quali nome del file, tipologia di utente, parole chiave, tagging o classifiche Exchange, mentre il tiering può essere applicato in base alle regole di contenuto verso qualunque target, nastro e cloud compresi.
Il modello di conservazione intelligente deve essere supportato da un efficace recupero dei dati. La chiave di questo processo è l’indicizzazione del contenuto che permette agli utenti di applicare semplici ricerche in base a parole chiave per accedere ai dati. Le imprese hanno la possibilità di indicizzare in base al contenuto dati live o secondari, in backup o archivio. In entrambi i casi, piuttosto che indicizzare l’intera risorsa dati, applicando i giusti filtri e policy, le imprese possono prioritizzare anche le sorgenti dati più preziose e consultate. Indicizzare i dati critici in base al contenuto assicura la possibilità di recuperare e accedere sempre in modo rapido alle informazioni.
Associare policy di storage intelligenti con l’indicizzazione riduce i volumi di dati, permette alle aziende di utilizzare i media storage più appropriati per ogni oggetto e facilita l’accesso a informazioni business critical.
Saranno proprio le richieste degli utenti di esplorare e sfruttare i big data a mettere pressione sull’IT per avere maggiori risorse di storage. Cosa succede se il CEO impiega oltre 15 minuti a recuperare un documento fondamentale? O se il team legale non trova le informazioni necessarie a dimostrare la conformità? O il brand manager non è in grado di trarre vantaggio da costosi investimenti per analizzare i comportamenti di acquisto dei retailer?
La chiave per trasformare i big data in intelligence sono contenuto e contesto. Gestendo la conservazione dei big data e lo storage sulla base del contenuto e del suo valore intrinseco per il business, le imprese potranno sfruttare tali dati non solo per problemi contingenti ma per migliorare la conoscenza strategica. Dalla previsione di domanda di nuovi prodotti e servizi alla trasformazione della velocità con la quale ciascun utente può recuperare i documenti aziendali, sono le imprese che pensano dal primo giorno alle strategie di conservazione dei dati che saranno meglio posizionate per cogliere le opportunità della vision big data.
Di Rodolfo Falcone, Country Manager CommVault Italia