Archiviare petabyte di dati generati dai computer
Il volume di dati da gestire, nel corso degli ultimi anni, si è visibilmente moltiplicato, ma il vero boom non è ancora stato raggiunto. Se in passato le informazioni venivano generate prevalentemente da persone, sotto forma di video, foto e documenti, con l’avvento dell’era dell’IoT sono macchine, dispositivi e sensori a generare la maggior parte dei dati. E di conseguenza, ci sono più device IoT che persone, e questi generano informazioni molto più velocemente rispetto a noi. Una singola vettura a guida autonoma, per fare un esempio, genera svariati terabyte di dati al giorno. L’acceleratore di particelle del CERN genera 1 petabyte di informazioni ogni secondo, ma di questi solo 10 petabyte al mese vengono archiviati per analisi future.
Oltre alla guida autonoma e alla ricerca scientifica, fra i principali responsabili della crescita del volume di dati da archiviare ci sono la videosorveglianza e l’industria. IDC stima che la quantità di dati generati a livello globale passerà dai 45 zettabyte dello scorso anno ai 175 zettabyte entro il 2025. In soli 6 anni, è stata generata una quantità di informazioni tre volte superiore a tutti i dati che esistevano nel 2109, più precisamente 130 zettabyte, cioè 130 miliardi di terabyte.
Una grande quantità di queste informazioni viene elaborata nel momento in cui viene creata, come nel caso dei sensori installati sui veicoli a guida autonoma o negli stabilimenti industriali (edge computing), motivo per cui in questi scenari è essenziale ottenere risultati veloci, facilmente accessibili e reagire in tempo reale. E, di conseguenza, qui “il tempo necessario” a trasferire le informazioni per un’analisi centralizzata diventa inaccettabile. Bisogna però considerare che lo spazio di archiviazione on-site, così come la capacità di elaborazione, sono limitati e prima o poi sarà necessario spostare queste informazioni nei data center, dove potranno essere processate e unite con dati acquisiti da altre fonti, per essere poi analizzate ulteriormente e infine archiviate.
Queste esigenze rappresentano un’enorme sfida per le infrastrutture di storage delle aziende e degli istituti di ricerca che devono essere in grado di recepire un flusso costante di informazioni e archiviarle in maniera sicura. Tutto ciò è possibile solo se si dispone di architetture in grado di offrire una capacità di archiviazione pari a svariate dozzine di petabytes costantemente espandibili. Queste architetture devono inoltre basarsi su hardware per lo storage in grado di soddisfare la richiesta in costante crescita. La realtà però è che la banda necessaria per gestire la quantità di dati a cui facciamo riferimento è insufficiente e i costi inaccettabili.
Per le aziende che archiviano dati provenienti da sensori IoT lo storage è per certi versi una commodity. Non si tratta di qualcosa che viene “consumato” in senso letterale ma, di qualcosa che come altri beni di consumo, viene regolarmente acquistato e richiede un costante investimento. Un esempio di come le infrastrutture di storage e i modelli di approvvigionamento dello storage stesso potrebbero essere nell’era dell’IoT arriva da istituti di ricerca come il CERN, che già oggi elaborano e archiviano enormi quantità di informazioni. L’Organizzazione europea per la ricerca nucleare, nonché il più grande laboratorio al mondo di fisica delle particelle, continua ad aumentare la capacità di archiviazione del suo data center, con centinaia di hard disk di ultima generazione. I 100.000 HDD presenti al CERN offrono una capacità di archiviazione pari a 350 petabyte.
L’esempio del CERN conferma la validità e il primato degli hard disk quando si tratta di archiviare enormi quantità di dati. Il disco fisso continua ad essere il supporto più economico in grado di soddisfare due requisiti chiave: disponibilità di spazio e facilità di accesso. A confronto, i nastri sono molto economici, ma non adatti per essere usati come supporto online: sono adatti solo all’archiviazione. All’estremo opposto ci sono le memorie flash, che costano dalle 8 alle 10 volte in più rispetto ad un hard disk di pari capacità. E seppur gli SSD stiano calando di prezzo, c’è da dire che lo stesso sta accadendo per gli HDD. Questi ultimi sono inoltre in grado di offrire un livello di prestazioni adeguato ai requisiti degli ambienti dov’è richiesto uno storage high-capacity. Un singolo HDD può essere più lento di un SSD, ma utilizzando insieme diversi hard disk ad alta velocità è possibile ottenere valori di IOPS molto elevati,in grado di rispettare i requisiti delle applicazioni di analytics.
Alla fine, il prezzo resta l’unico vero e proprio criterio di scelta, soprattutto perché i volumi di dati da archiviare nel mondo IoT possono essere compressi solo in minima parte. Quando è possibile comprimere i dati, questo avviene tipicamente sugli endpoint o nell’edge, così da ridurre la quantità di informazioni che vanno trasferite. In questa maniera le informazioni arrivano ai data center già compresse e possono essere archiviate senza ridurle ulteriormente. Bisogna poi considerare che la deduplicazione non offre grandi margini di compressione perché, al contrario di altri dati aziendali o backup, sono pochi i dati ripetuti.
Considerata la quantità di informazioni generate dall’IoT e la grande quantità di dischi necessari per gestirla, l’affidabilità degli hard disk diventa di fondamentale importanza. Non tanto per il rischio di perdite di dati, che possono essere mitigate con appropriate strategie di backup, ma per la manutenzione dell’hardware. Con un AFR (Annualised Failure Rate) dello 0,7% al posto dello 0,35% ottenuto dal CERN grazie all’adozione di dischi Toshiba, una soluzione di storage basata su 100.000 dischi richiederebbe la sostituzione di 350 hard drive ogni anno, praticamente un hard disk al giorno.
Nei prossimi anni non ci saranno grandi stravolgimenti e lo storage dei dati provenienti dai sistemi IoT sarà affidato prevalentemente agli hard disk. La capacità di produzione di SSD è ancora troppo bassa per poter competere con gli hard disk. Per coprire l’attuale domanda di storage usando solo SSD, la produzione di unità flash dovrebbe crescere in maniera significativa. Se si considera che la costruzione di un singolo stabilimento per la produzione di flash può costare miliardi di euro, è facile comprendere la difficoltà economica di rendere questa tecnologia competitiva. E, in ogni caso, la produzione di memorie flash aumenterebbe solo dopo due anni, andando a coprire il livello della domanda del 2020 e non quello del 2022.
La produzione di hard disk, al contrario, può essere aumentata con più facilità dal momento che sono necessari meno passaggi in cleanroom rispetto a quanto bisogna fare nella produzione di semiconduttori. Senza contare gli importanti passi in avanti avvenuti nel settore degli hard disk, come l’impiego delle tecnologie HAMR (Heat-Assisted Magnetic Recording) e MAMR (Microwave-Assisted Magnetic Recording) che stanno contribuendo ad aumentare le capacità dei dischi. Gli esperti ritengono che la capacità di archiviazioni degli hard disk continuerà a crescere al ritmo di 2 terabyte all’anno, agli stessi costi attuali. È il motivo per cui IDC prevede che per la fine del 2025, più dell’80% della capacità di archiviazione per i data center e sistemi edge enterprise continuerà a essere costituita da hard disk. Gli SSD e altri supporti flash peseranno solo per il 20%.