ETL ed ELT: principali differenze
La differenza tra ETL ed ELT sta nel luogo in cui i dati vengono trasformati e nella quantità di informazioni conservate nei data warehouse.
Extract/Transform/Load (ETL), ovvero estrazione/trasformazione/caricamento, è un tipo di processo di integrazione che estrae le informazioni da sorgenti remote, le trasforma utilizzando formati e stili definiti, quindi le carica in database, sorgenti di dati o data warehouse.
Extract/Load/Transform (ELT), ovvero estrazione/caricamento/trasformazione, è un processo simile in cui i dati vengono estratti da una o più sorgenti remote, ma vengono poi caricati nel data warehouse di destinazione senza prima procedere ad alcuna formattazione. In un processo ELT, la trasformazione dei dati avviene all'interno del database di destinazione. I processi ELT utilizzano in modo meno intensivo le sorgenti remote, in quanto acquisiscono semplicemente i dati grezzi, non preparati, in esse contenuti.
Entrambe le soluzioni sono praticabili, tuttavia, durante la progettazione di un'architettura di gestione dei dati, i responsabili IT devono considerare le capacità interne dell'azienda e l'impatto crescente delle tecnologie cloud.
L'evoluzione dei processi ELT
I processi ELT sono utilizzati già da tempo, ma hanno suscitato un rinnovato interesse dopo l'introduzione di strumenti come Apache Hadoop, un framework per la distribuzione e l'elaborazione di enormi carichi di lavoro all'interno di poche decine — o diverse migliaia — di nodi, per l'elaborazione in parallelo. Attività complesse, come la trasformazione di petabyte di dati grezzi, venivano suddivise in lavori più piccoli, elaborati in remoto, quindi restituiti per il caricamento nel database.
Tuttavia, l'evoluzione delle capacità di elaborazione, del clustering virtuale in particolare, ha incrementato la potenza delle risorse server locali, riducendo la necessità di suddividere i lavori. Attività di trasformazione di big data che prima venivano distribuite nel cloud, elaborate e quindi restituite possono ora essere gestite in un'unica posizione.
Funzionamento e utilizzo dei processi ELT
A differenza di quanto avviene in un processo ETL, nei processi Extract/Load/Transform (estrazione/caricamento/trasformazione), le informazioni vengono raccolte da una quantità illimitata di sorgenti, caricate in un punto di elaborazione e trasformate in business intelligence fruibile.
- Estrazione — Il primo passaggio, quello appunto dell'estrazione, è simile in entrambi gli approcci di gestione dei dati. Flussi di dati grezzi, provenienti da applicazioni, software e infrastrutture virtuali, vengono assimilati completamente o in base a regole predefinite.
- Caricamento — È in questa fase che le strade dei due approcci di gestione dei dati si separano. Nei processi ELT, i dati grezzi assimilati, anziché essere consegnati a un server di elaborazione temporaneo per la trasformazione, vengono immediatamente caricati nel sito in cui verranno alla fine utilizzati. In questo modo, si riducono i tempi tra la fase di estrazione e quella di consegna, tuttavia, il lavoro di trasformazione dei dati grezzi in intelligence fruibile diventa più complesso.
- Trasformazione — Il database o data warehouse ordina e normalizza i dati, mantenendone una parte, o la totalità, accessibile per l'elaborazione di report personalizzati. Archiviare una tale quantità di dati è estremamente complicato e dispendioso, ma offre l'opportunità di estrarre in modo personalizzato informazioni di business intelligence rilevanti, quasi in tempo reale.
L'approccio ELT rappresenta quindi la scelta ottimale? Non sempre, in quanto tutto dipende dall'architettura di rete esistente, dal budget disponibile e da quanto l'azienda sta già sfruttando le tecnologie cloud e big data. Tuttavia, se uno o più dei tre seguenti aspetti è di importanza critica per l'organizzazione, la risposta è probabilmente sì.
- Assimilare i dati rapidamente è prioritario. Dal momento che nei processi ELT non è necessario attendere che i dati vengano elaborati esternamente prima di essere caricati (caricamento e trasformazione avvengono in parallelo), il processo di assimilazione è molto più veloce e le informazioni grezze vengono consegnate molto più rapidamente rispetto a quanto avviene nei processi ETL.
- È importante disporre di una grande quantità di informazioni per ottenere dati di intelligence migliori. La trasformazione di dati grezzi in business intelligence offre l'opportunità di evidenziare schemi nascosti e di convertirli in informazioni fruibili. Mantenendo tutti i dati storici sempre a portata di mano, le organizzazioni possono analizzare sequenze temporali, schemi commerciali, tendenze stagionali o qualsiasi altra metrica emergente che diventa rilevante per l'azienda. Dal momento che le informazioni non vengono trasformate prima di essere caricate, è possibile accedere a tutti i dati grezzi. In genere, i data lake nel cloud presentano un archivio di dati grezzi e uno di dati rifiniti (o trasformati). I data scientist, ad esempio, preferiscono accedere ai dati grezzi, mentre gli utenti aziendali necessitano di dati normalizzati per estrapolare business intelligence immediatamente fruibile.
- La scalabilità è determinante. Se si utilizzano motori di elaborazione dei dati di fascia alta, come Hadoop, o data warehouse nel cloud, i processi ELT possono sfruttare le capacità di elaborazione native per una maggiore scalabilità.
Sia ETL che ELT sono metodologie radicate per l'elaborazione di business intelligence a partire da dati grezzi. Tuttavia, come accade per la maggior parte delle tecnologie, il cloud sta trasformando il modo in cui le aziende si approcciano ai processi ELT.
Vantaggi dell'uso dei processi ELT nel cloud
Il cloud porta con sé una serie di funzionalità che, secondo molti professionisti del settore, prima o poi andranno definitivamente a soppiantare i data center delle aziende. Il cloud permette di superare i naturali impedimenti dei processi ELT garantendo:
- Scalabilità — Le funzioni ELT gestite dai vecchi data center locali potrebbero rapidamente andare a sovraccaricare le capacità di elaborazione e archiviazione locali, richiedendo costosi upgrade hardware e interruzioni programmate delle attività per l'implementazione di correzioni. La scalabilità di un'infrastruttura cloud virtuale e dei relativi servizi in hosting, come piattaforme di integrazione cloud gestite (iPaaS) e servizi SaaS (Software-as-a-Service), offre alle organizzazioni la possibilità di espandere le proprie risorse in tempo reale. Grazie al cloud, è possibile disporre dei tempi di elaborazione e dello spazio di archiviazione necessari per gestire attività di trasformazione dei dati sempre più complesse.
- Integrazione (quasi) perfetta — Dal momento che i processi ELT basati sul cloud interagiscono direttamente con altri servizi e dispositivi all'interno di una piattaforma cloud, attività precedentemente complesse, come la mappatura continua di dati, vengono sensibilmente semplificate. Ciò che prima poteva apparire come un problema insormontabile, ora risulta più semplice, grazie a interfacce grafiche interattive che consentono di acquisire tutte le informazioni critiche con una semplice occhiata.>
- Piattaforme open source — Le migliori soluzioni ELT sfruttano la potenza di piattaforme cloud open source sempre attive, che operano in modo collaborativo per diffondere miglioramenti, sicurezza e conformità a livello dell'intera azienda. Gli strumenti ELT open source sono supportati da community di professionisti globali, in grado di eliminare i problemi di gestione dei dati non appena si verificano all'interno della rete, o addirittura prima.
- Costi di proprietà ridotti — Quando l'approccio ETL era lo standard, ampliare le funzionalità significava necessariamente incrementare i costi. Potenziare risorse di storage ed elaborazione implicava una spesa a senso unico, con importanti investimenti nell'hardware. Questo tipo di approccio aveva il limite di imporre alle aziende il pagamento anticipato della massima potenza di elaborazione che avrebbero mai utilizzato, nonostante nelle attività quotidiane venisse impiegata solo una minima parte di tale capacità.
Come per la maggior parte dei servizi cloud, anche i processi ELT basati sul cloud si pagano al consumo. Ciò significa che i costi di elaborazione e archiviazione aumentano quando vengono elaborati lavori ETL particolarmente complessi, ma si riducono, fino ad azzerarsi, se l'ambiente funziona a regimi minimi. In media, ciò comporta costi di proprietà annui decisamente ridotti — a cui si deve aggiungere un investimento iniziale pari a zero.
Questi sono solo alcuni dei modi in cui il cloud sta ridefinendo tempistiche e modalità di localizzazione della produzione di business intelligence da parte delle aziende.
Superamento delle più comuni problematiche ELT
Per ottenere un lavoro ben fatto, ogni organizzazione si deve affidare agli strumenti e alle competenze giuste. Come in tutte le attività, gli errori che si verificano nelle fasi iniziali del processo produttivo si amplificano a mano a mano che il progetto si sviluppa, ed è proprio qui che si annidano alcune delle problematiche più comuni che possono pregiudicare un'architettura ELT.
- Lacune a livello di sicurezza — Trasferire petabyte di dati e renderli accessibili ad applicazioni e utenti comporta una serie di rischi di sicurezza. Un approccio progettuale efficace prevede l'integrazione di funzionalità di sicurezza a tutti i livelli aziendali, per evitare che un singolo set di dati danneggiato o compromesso possa arrivare a infettare diversi data warehouse.
- Noncuranza della conformità — Il crescente numero di quadri normativi in materia di conformità, come HIPAA, PCI e il regolamento GDPR, sta mettendo a dura prova le organizzazioni, obbligate a eseguire controlli sistematici e ad assicurare il rispetto degli standard. Qualunque strategia ELT deve essere progettata prendendo in considerazione gli obblighi di conformità, allo scopo di assicurare il rispetto delle normative nazionali e internazionali.
- Sovraccarico delle risorse — La disponibilità di interi warehouse di dati da analizzare per l'elaborazione di business intelligence presenta un ovvio svantaggio: tutti questi dati devono essere adeguatamente gestiti. I provider cloud e i modelli di prezzi al consumo rendono lo sfruttamento dei big data più economico che mai, tuttavia, anche i prezzi per lo storage differenziati possono diventare proibitivi senza un programma che gestisca e limiti la crescita incontrollata dei dati.
- Governance dei dati assente — Oltre a non essere garantita la sicurezza dei dati trasferiti, nei processi ELT non vengono neanche applicati i 5 principi fondamentali di governance dei dati: Chi controlla la gestione dei dati master all'interno dell'organizzazione? Quali dati vengono raccolti/conservati? Quando vengono eseguiti rendiconti e controlli? Dove vengono archiviati i dati? Perché gli impegni in ambito ELT hanno conseguenze positive sulle prestazioni aziendali?
Saper rispondere anticipatamente a queste domande chiave permette alle aziende di definire prassi ELT responsabili e di prepararsi a gestire raccolte cospicue di informazioni che possono avere un impatto significativo sui profitti.
Conclusioni sul confronto tra ELT e ETL
Da più di quindici anni, Talend offre a partner di tutto il mondo gli strumenti di cui hanno bisogno per trasformare il loro business. Fatti carico dei processi ELT più complessi con Open Studio for Big Data, la piattaforma gratuita, supportata a livello globale, scelta da alcune tra le più importanti aziende mondiali.
Fai i primi passi nell'universo ELT o ETL con gli strumenti Talend per la gestione dei big data. Scopri di più su come Talend può aiutare aziende come la tua e scarica Big Data Sandbox per configurare subito un ambiente di sviluppo e test.