ETL nel cloud: l'impatto dei cambiamenti sugli utilizzatori
Sin dalla nascita del concetto di big data, il processo ETL (estrazione, trasformazione, caricamento) è stato alla base dello scambio di informazioni nelle moderne reti di business. Oggi l'approccio ETL basato sul cloud è uno strumento essenziale per la gestione di grandi quantità di dati, al quale le aziende si affideranno sempre di più in futuro. Il motivo è semplice: nel panorama competitivo odierno, i dati sono la linfa vitale delle aziende.
ETL – Una breve introduzione
ETL è lo standard globale per l'elaborazione di grandi quantità di dati. Permette di ripartire le operazioni su una serie di processori collegati che operano su un framework comune (come Apache Hadoop.) Il processo ETL include tre funzioni distinte:
- Estrazione. Durante questa fase, i dati grezzi vengono estratti da una varietà di sorgenti, tra cui database, reti, hardware e software di protezione, ecc., quindi incanalati attraverso le reti digitali e infine raccolti quasi in tempo reale.
- Trasformazione. Nella fase di trasformazione del processo ETL, i flussi di informazioni sono convertiti in dati utilizzabili dalle aziende. Allo stesso tempo, il motore ETL ne riduce il volume rilevando ed eliminando i duplicati. I dati sono quindi standardizzati e formattati per essere successivamente utilizzati e/o analizzati. Infine, vengono riordinati e verificati prima di passare alla fase successiva.
- Caricamento. Nell'ultima fase del processo ETL i dati vengono depositati nelle destinazioni prescelte, che possono includere strumenti di analisi, database o lake, repository ad accesso sporadico collegati in rete o altre applicazioni pertinenti.
In termini relativi, il concetto di ETL non è nuovo. Tuttavia, il modo in cui viene usato per trasformare i dati grezzi in business intelligence non si è semplicemente evoluto nel tempo, ma è diventato il fondamento per lo sviluppo della tecnologia cloud.
ETL tradizionale a gestione locale
Prima delle fibre ottiche e delle risorse cloud distribuite globalmente, i processi ETL erano gestiti localmente. Immaginiamo una grande sala con computer rumorosi in cui un paio di tecnici si muovono tra pile di elaboratori e rack di rete per verificare le connessioni.
Alla fine degli anni '70, quando gli strumenti usati per standardizzare (o trasformare) i dati in formati comuni sono diventati ampiamente accessibili, il valore dei database è cresciuto rapidamente. Alcuni dei più importanti progetti ETL di questo periodo sono:
- Istituti di ricerca che condividevano grandi quantità di informazioni scientifiche
- Prime collaborazioni sulla rete che in seguito è diventata il World Wide Web, ossia l'antesignano del moderno Internet
- La standardizzazione di un protocollo di comunicazione (TCP/IP) da cui si sono evoluti i moderni sistemi di dati e telecomunicazioni
- Il precursore delle moderne tecnologie di marketing digitale che aggrega i dati dei consumatori e personalizza gli annunci pubblicitari in base alle fasce demografiche.
Per la maggior parte della sua storia, il processo ETL è stato eseguito localmente o fisicamente, accanto allo scienziato o all'analista che lo utilizzava. I dati fluivano verso strutture sicure attraverso un sistema di cavi e venivano estratti tramite semplici algoritmi. Venivano poi trasformati in un formato standardizzato o "pulito" e caricati nei database dove operatori umani potevano manipolarli e analizzarli.
Questo approccio ha posto le fondamenta per molte delle opzioni di tecnologia e comunicazione che conosciamo oggi. Nonostante la sua importanza, l'ETL tradizionale presenta serie limitazioni. Nei tempi precedenti alla miniaturizzazione, i costi del processo ETL e degli ampi spazi di archiviazione necessari erano spesso proibitivi. Inoltre, la conservazione di questi dati preziosi in una singola sede poneva il rischio di perdite catastrofiche causate da eventuali disastri naturali, furti o guasti tecnologici.
Andiamo avanti nel tempo, fino al 2018. Il basso costo delle opzioni di archiviazione dei dati, le reti in fibra e processori sempre più veloci garantiscono tre cose:
- La mole di dati elaborata dalle aziende moderne continuerà a crescere esponenzialmente.
- Il valore dei dati continuerà a salire.
- La potenza di calcolo necessaria per elaborare tutti questi dati e utilizzarli nel modo giusto per le aziende farà sì che il processo ETL nel cloud rivestirà un ruolo vitale nel panorama dei big data di domani.
Il passaggio al cloud
Con l'evolversi delle reti nazionali e globali, sia in termini di velocità che di capacità, la necessità di memorizzare enormi volumi di dati in siti locali è gradualmente scemata.
L'esperto di tecnologia Brian Patrick Eha ha tracciato l'evoluzione della velocità di Internet e l'impatto del cloud sul trasferimento dei dati. Secondo Eha, nel 1984 una linea dati dedicata relativamente rapida poteva raggiungere velocità di trasmissione pari a 50 kilobit al secondo (Kbs). Nel 2013, le connessioni a fibre ottiche disponibili sul mercato avevano aumentato la resa anche fino a 1 gigabyte al secondo. Questo drastico cambiamento e la proliferazione di archivi sostituibili a basso costo sono stati gli elementi catalizzatori della trasformazione dell'ETL da un processo locale, costoso e farraginoso al processo basato sul cloud che conosciamo oggi.
Secondo il report IDG 2018, oggi quasi tre quarti delle aziende operano parzialmente o completamente nel cloud, una cifra destinata a superare 90% entro il 2020.
ETL nel cloud
Attualmente, i processi ETL si svolgono nel cloud assieme a tecnologie come lo sviluppo di applicazioni, l'e-commerce e la sicurezza IT. I processi ETL cloud nativi si basano sui tre passaggi tradizionali, che vengono però completati in modo diverso.
Il framework Apache Hadoop è diventato la piattaforma di lancio dell'ETL basato sul cloud. Hadoop prevede processi di calcolo distribuiti, il che significa che i dati provenienti dalle diverse sorgenti possono essere estratti in remoto, elaborati tramite una rete di risorse di calcolo e poi trasformati per l'analisi locale.
Le operazioni ETL cloud native dipendono da cluster di computer condivisi, che possono essere disseminati in giro per il mondo ma che, grazie a Hadoop, operano come singole entità logiche che condividono i imponenti attività di elaborazione. Le attività ETL, un tempo eseguite nella sala accanto o nel seminterrato, ora sono svolte in cluster sparpagliati tramite interfacce cloud.
L'aspetto più straordinario è che tutto ciò può accedere a una velocità immensamente superiore rispetto al tradizionale ETL locale. Le aziende che usano ancora il processo ETL in un ambiente locale o ibrido stanno già rimanendo indietro in uno dei fattori chiave della competitività: la rapidità.
Questo processo nel cloud produce schermi analitici spesso familiari ai professionisti dell'ETL tradizionale, che possono utilizzare strumenti affidabili per cercare e analizzare i dati, come negli anni passati. L'Apache Software Foundation è la più grande community open-source al mondo per lo sviluppo e il supporto dell'ETL e degli strumenti che lo rendono utilizzabile dagli esseri umani.
Tuttavia, la mole dei dati prodotta al giorno d'oggi e la velocità alla quale essa aumenta sono tali da rendere ancor più difficile per gli strumenti ETL tradizionali la creazione di business intelligence utile e altamente personalizzata. Sono sempre di più le aziende che si affidano alle piattaforme di gestione dei dati per soddisfare le proprie esclusive esigenze ETL.
Questo processo nel cloud produce schermi analitici spesso familiari ai professionisti dell'ETL tradizionale, che possono utilizzare strumenti affidabili per cercare e analizzare i dati, come negli anni passati. L'Apache Software Foundation è la più grande community open-source al mondo per lo sviluppo e il supporto dell'ETL e degli strumenti che lo rendono utilizzabile dagli esseri umani.
Tuttavia, la mole dei dati prodotta al giorno d'oggi e la velocità alla quale essa aumenta sono tali da rendere ancor più difficile per gli strumenti ETL tradizionali la creazione di business intelligence utile e altamente personalizzata. Sono sempre di più le aziende che si affidano alle piattaforme di gestione dei dati per soddisfare le proprie esclusive esigenze ETL.
Talend: la soluzione gestita per l'ETL nel cloud
Dal 2005, Talend aiuta le principali organizzazioni ad affrontare le problematiche legate all'ETL e all'integrazione dei dati con soluzioni in hosting di facile utilizzo. Con Talend Open Studio for Data Integration e Talend Data Management Platform, gli sviluppatori e gli analisti possono lavorare con un numero praticamente illimitato di set di dati in tutti i formati comunemente usati, al fine di sfruttare la potenza dei processi ETL e altre tecnologie da cui dipendono i moderni business nel cloud.
Ma Talend offre molto di più di questo, consentendo l’accesso a processi ETL gestibili in tempo reale e alle relative attività agli utenti che si affidano a una business intelligence affidabile e attuale per prendere decisioni informate. Dalle vendite alle spedizioni e all’assistenza clienti, le moderne interazioni commerciali devono essere rapide, efficienti ed economiche; per questo motivo, la capacità di Talend di fornire i dati necessari alle persone giuste può contribuire a migliorare enormemente qualsiasi organizzazione.
La suite di soluzioni Talend per i big data risponde a una delle più comuni problematiche aziendali, ossia la carenza di sviluppatori competenti. Con Talend, i processi automatizzati avviati da GUI riducono la necessità di codifica manuale di istanze specifiche, rendendo più rapide ed efficienti le operazioni di gestione e analisi dei dati tramite ETL.
L’aspetto più importante è che la piattaforma Talend open-source cresce assieme ai big data, garantendo di soddisfare con relativa facilità anche le più complesse e specifiche esigenze di elaborazione dei dati.
Avvia la versione di prova gratuita oggi stesso per scoprire perché alcune delle organizzazioni di maggiore successo a livello mondiale hanno scelto Talend per liberare i propri dati dalle infrastrutture legacy con la piattaforma di integrazione ETL costruita per il cloud.