Perché gli strumenti ELT stanno arrestando il mercato dell'ETL
Le ricerche indicano che circa il 50% dei dati di business risiede nel cloud, un dato che testimonia l'importanza rivestita dalle sorgenti esterne per le imprese moderne. Le organizzazioni necessitano di strumenti altrettanto moderni per elaborare e integrare questi dati rapidamente in un arco di tempo commisurato all'attuale velocità dell'attività. I migliori strumenti ELT (Extract, Load, and Transform) gestiscono questi carichi di lavoro e stanno guadagnando terreno nell'ambito dei data warehouse, perché si dimostrano, con le loro alte prestazioni, un mezzo economico, efficace ed efficiente per l'integrazione dei dati, sia interna che esterna.
Sempre più organizzazioni stanno scegliendo strumenti ELT per gestire il volume, la varietà e la velocità delle sorgenti di big data, che spesso mettono sotto sforzo i tradizionali strumenti ETL (Extract, Transform and Load) progettati per i data warehouse relazionali interni. In questo articolo spiegheremo le differenze tra gli strumenti ETL ed ELT, illustrando il modo in cui questi ultimi potenziano i data warehouse e l'impatto che producono sul futuro dell'integrazione dei dati.
ELT e ETL a confronto: in cosa differiscono?
Con ELT si intende il processo attraverso il quale i dati grezzi vengono estratti dalla sorgente di origine (feed di Twitter, ERP, CRM, ecc.) e caricati nelle sorgenti di destinazione, di solito data warehouse o data lake. A differenza di altri approcci, il processo ELT trasforma i dati all'interno dei sistemi di destinazione, permettendo quindi di ridurre l'infrastruttura fisica e i livelli intermedi.
È utile pensare agli strumenti ELT come un'evoluzione dei tradizionali metodi ETL. Gli strumenti ETL sono piattaforme separate che nell'architettura si trovano tra i sistemi di origine e quelli di destinazione. La differenza principale tra gli strumenti ETL ed ELT sta nel fatto che gli ETL trasformano i dati prima di caricarli nei sistemi di destinazione, mentre gli ELT trasformano i dati all'interno di questi. Si tratta di una distinzione fondamentale per numerosi processi a valle, che interessa i seguenti sistemi.
Infrastruttura e risorse
Gli strumenti ETL sono piattaforme dedicate per le fasi intermedie tra l'estrazione dei dati e il loro caricamento nei repository di destinazione. Le organizzazioni hanno il compito di acquistare e gestire questi strumenti per integrare i dati nei sistemi di destinazione. Poiché gli strumenti ELT non richiedono questa fase intermedia per caricare i dati nei sistemi di destinazione, l'infrastruttura fisica e le risorse dedicate necessarie risultano minori, perché la trasformazione viene eseguita dal motore del sistema di destinazione, invece che dai motori interni agli strumenti ETL.
Gestione temporanea dei dati
Gli strumenti ETL eseguono il processo di gestione temporanea, nel quale i dati vengono puliti e preparati per la trasformazione. Con l'ELT la gestione temporanea dei dati avviene dopo che questi sono stati caricati nei data warehouse, nei data lake o nelle piattaforme di archiviazione nel cloud, producendo così una maggiore efficienza e una latenza minore. Di conseguenza, i migliori strumenti di ELT richiedono un numero minore di sorgenti di dati iniziali e non necessitano delle fasi intermedie del processo ETL, perché la maggior parte dell'elaborazione dei dati avviene nel sistema di destinazione.
Prestazioni
Le prestazioni degli strumenti ELT sono di gran lunga superiori a quelle degli strumenti ETL, soprattutto quando si lavora con dati su vasta scala. È facile che con gli strumenti ETL enormi petabyte di dati creino colli di bottiglia, poiché questi meccanismi si servono di server e motori propri per trasformare i dati. Inoltre, la complessità della trasformazione aumenta con la varietà di dati semi strutturati e non strutturati che normalmente popolano le sorgenti di big data. I colli di bottiglia nel processo ETL possono prolungare considerevolmente la latenza dell'accesso e dell'analisi dei dati nei data warehouse.
Time to Value
Con gli strumenti ELT il "time to value" per analizzare e utilizzare i dati risulta più rapido poiché la trasformazione avviene nei sistemi di destinazione. Gli scienziati dei dati e gli analisti aziendali più sofisticati riescono a usare abilmente le opzioni del criterio "schema on read" con uno sforzo minimo in termini di codifica manuale, per trasformare rapidamente i dati e utilizzare le tecniche di apprendimento automatico a scopo di analisi. Gli strumenti ETL risultano rallentati dai processi di codifica manuale necessari per conformare tutti i dati allo schema uniforme del data warehouse, ad esempio, prima di poterli analizzare.
Il passaggio dagli strumenti ETL a quelli ELT è una conseguenza naturale dell'era dei big data. I tradizionali strumenti ETL erano stati creati per i data warehouse relazionali standard, nei quali la maggior parte dei dati proveniva da sistemi interni ed era prevalentemente strutturata. Le risorse computazionali dedicate per gli strumenti ETL non erano semplicemente adatte per rispondere alle esigenze dei carichi di lavoro dei big data in termini di portata, variazione e latenza. Benché possano risultare ancora validi per i dati interni strutturati, questi strumenti stanno rapidamente diventando obsoleti per l'integrazione di un'ampia gamma di big data non strutturati e semi strutturati provenienti da sorgenti esterne, specialmente per applicazioni a bassa latenza come Internet of Things.
L'ELT migliora i data warehouse
I migliori strumenti ELT risultano utili sotto vari aspetti per migliorare i data warehouse e i data lake. Per entrambi i casi questi strumenti possono accelerare il tempo necessario alla preparazione dei dati per l'analisi. Caricando i dati in un framework di data lake come Hadoop, le organizzazioni sono in grado di utilizzare i motori di elaborazione interni al framework per gestire temporaneamente e trasformare i dati. Il framework Hadoop è stato realizzato per una grandissima scalabilità e sfrutta l'elaborazione parallela per sveltire i job computazionali. Quindi, quando si utilizza l'ELT per caricare un data lake, le organizzazioni possono usare questo metodo per desumere il criterio "schema on read", evitando tutto il solito lavoro di modellazione dei dati necessario per unificare lo schema in relazione alle impostazioni.
Il caricamento dei data warehouse con l'ELT si basa in gran parte su questa stessa metodologia. Durante il processo di trasformazione, tuttavia, i dati vengono trasformati nello schema unificato di questi repository. Esiste anche un'altra fase in cui i dati trasformati vengono caricati da un data lake come Hadoop nel warehouse effettivo. Ciò nonostante, i vantaggi in termini di tempo rimangono, come pure quelli in termini di architettura e infrastruttura, derivanti dall'uso del motore di elaborazione di Hadoop per la trasformazione. Tra i vantaggi dell'ELT rientrano:
- Architettura semplificata. Sfruttando la potenza di elaborazione dei sistemi di destinazione come Hadoop, gli strumenti ELT semplificano l'architettura necessaria per preparare i dati al consumo. Non ci sono livelli intermedi che limitano la potenza di elaborazione; il sistema di destinazione viene utilizzato sia per la gestione temporanea che per la trasformazione dei dati.
- Incorporazione rapida delle sorgenti di big data. Con l'ELT è possibile incorporare senza difficoltà nei data warehouse e data lake tutta una serie di sorgenti di big data semi strutturati e non strutturati, sorgenti che è difficile utilizzare in tempi brevi con i metodi tradizionali di inserimento e trasformazione.
- Sandbox di dati. Tra i vantaggi ricorrenti offerti dai migliori strumenti ELT rientra anche l'uso di archivi di dati tipo Hadoop come sandbox per gli esperimenti degli scienziati dei dati, che così non devono standardizzare lo schema in base a quello del repository sottostante, un'operazione necessaria con i metodi convenzionali.
- Archiviazione ed elaborazione. Gli strumenti ELT permettono alle organizzazioni di utilizzare i sistemi di destinazione sia per l'archiviazione che per l'elaborazione; ciò concorre a massimizzare il ROI dei repository, un fattore che contribuisce a giustificare l'utilizzo di questi strumenti nei livelli dirigenziali più alti.
La Business Intelligence rimane il caso d'uso per antonomasia dei data warehouse. I migliori strumenti ELT potenziano considerevolmente la BI in diversi modi. Essi permettono l'incorporazione rapida di numerose sorgenti esterne insieme a quelle interne tradizionali, ad esempio integrando i dati CRM o ERP con informazioni alternative, come i dati provenienti dai social media. Con i metodi ELT è possibile caricare in Hadoop ciascuna di queste sorgenti di dati per la trasformazione: gli scienziati dei dati hanno quindi la possibilità di usare il criterio "schema on read" per comprendere il modo in cui i dati alternativi sono correlati alle esigenze aziendali e allo schema del warehouse. Una volta trasformate le sorgenti in base allo schema del warehouse, gli utenti possono creare report su una gamma di dati più ampia e ottenere analisi più significative sulle tendenze dei clienti.
L'ELT spiana la strada futura dell'integrazione dei dati
Nel complesso l'ELT è un paradigma efficace per gestire la dimensione, la velocità e la varietà dei big data che le imprese oggi utilizzano abitualmente. Rinunciando al tradizionale livello intermedio dell'ETL, trasferisce la gestione temporanea e la trasformazione dei dati nei repository sottostanti e ne sfrutta la moderna potenza di elaborazione per eseguire la trasformazione. Questo approccio semplifica l'architettura di integrazione, accelera il "time to value" e assicura solide prestazioni necessarie per sfruttare appieno il valore dei big data, soprattutto in confronto ai tradizionali metodi ETL.
Data l'enfasi che oggi si pone sui big data e la crescente eterogeneità degli ambienti di elaborazione spesso necessari, l'integrazione dei dati tempestiva, sostenibile ed efficiente rimarrà per un certo periodo una delle più importanti priorità delle organizzazioni. Infine, l'ELT risolve il problema perché garantisce un significativo livello di flessibilità nell'implementazione dei processi di integrazione dei dati.
Talend Open Studio è l'esempio concreto di tutti i vantaggi offerti dall'ELT e per questo oggi viene utilizzato con molti dei più popolari framework di big data. Scopri come l'ELT può far crescere la tua impresa scaricando Talend Open Studio.