Il cloud si sta accreditando come strumento chiave per l’innovazione digitale delle aziende, porta d’accesso alle augmented capabilities che servono per sfruttare al meglio i dati e migliorare la competitività sul mercato. In gioco non c’è solo l’opportunità di sfruttare capacità elaborativeas-a-service quando serve per avviare più rapidamente nuovi progetti, ma anche la possibilità di accedere astrumenti allo stato dell’arte per gestire al meglio la mole dei dati aziendali e ottenere le informazioni analitiche utili allo sviluppo del business.
Le augmented capabilitiesdel cloud a supporto dell’analisi dei dati
Con augmented capability si fa riferimento alle funzioni abilitanti che la transizione sui servizi cloud delle architetture dati consente di ottenere. L’adozione del cloud, oggi molto avanti nelle grandi aziende e diffusa in quelle più piccole, non è soltanto l’evoluzione naturale dell’hosting su architetture condivise sfruttabili in ottica IaaS (Infrastructure as-a-Service). Porta in dote la capacità di avere “a portata di click”, l’accesso a funzionalità innovative che, per ragioni di complessità, costi infrastrutturali e competenze necessarie per la gestione, risulterebbero inaccessibili anche ai budget IT delle grandi aziende.
Parliamo in particolare di tre categorie fondamentali di funzionalità:
- per l’ingestion e l’integrazione dei datidi diversa tipologia e frequenza d’aggiornamento;
- per applicare ai dati criteri di AI/ML (Artificial Intelligence/Machine Learning) per ricavare informazioni utili;
- per ottenere capacità d’analisi edi esplorazione di più alto livello.
Il trucco di Pareto per espandere e recuperare efficienza dai sistemi analitici
La storia degli analytics su big data è costellata di fallimenti. Chi si è cimentato con tecnologie come Hadoop per estendere l’analisi su tipologie di dati diverse e con alte frequenze d’aggiornamento (real time) si è scontrato con seri problemi di prestazioni nelle interrogazioni. Allo stesso modo, le potenti appliance ottimizzate per grandi moli d’interrogazioni – come sistemi MPP, database colonnari e in-memory – gettano la spugna quando si sostituiscono i caricamenti di dati batch con quelli in tempo reale.
La soluzione al problema viene dall’usodei diversi strumenti per ciò che sanno fare meglio: Hadoop per il caricamento e le trasformazioni di moli di dati, quindi database e tool analitici più classici per gestire interrogazioni su dati utili al business. Questo modo di fare risulta particolarmente vantaggioso perché, chiamando in causa la nota legge 80/20 di Pareto, l’80% dei datiaziendali è inutileo serve acreare il 20% di dati che realmente servono al business. Usando ambienti diversi, ci si avvantaggia dei bassi costi per terabyte di Hadoop e contemporaneamente si possono sgravare i database dai dati che li appesantiscono inutilmente, con benefici a livello dei tempi di risposta alle query.
Gli strumenti in cloud per una gestione dati più semplice e accessibile
Usare Hadoop per il caricamento e le trasformazioni dei dati necessarie a ricavare il 20% dei dati realmente utili per l’alimentazione dei database analitici è complesso e richiede elevate competenze architetturali da parte dei team. È qui che il cloud può farsi carico delle complessità e dei compiti più onerose che riguardano caricamenti e trasformazioni dei dati. Strumenti as-a-service come Blob storage di Azure, Cloud Storage di Google, S3 di AWS funzionano come una sorta di Hadoop remoto gestito, con costi che sono contenuti anche per grandi volumi di dati.
Nel cloud sono reperibili anche i database ad alte prestazioni, come Redshift di AWS (derivato da Progress), Synapsein Microsoft Azure, BigQuery di Google. In un ambiente come AWS posso sfruttare S3 come landing zone per le moli di dati, usare il servizio Glue (managed ETL) per l’integrazione di dati in batch, oppure Kinesis per alimentazioni in streaming in real time. Tutto questo senza doversi far carico delle complessità di gestione e con la possibilità di fruire di strumenti AI/ML avanzati.