Data lake e data warehouse
Con data lake e data warehouse si definiscono due soluzioni ampiamente utilizzate per l'archiviazione dei big data, tuttavia non si tratta di termini intercambiabili. Un data lake è un enorme insieme di dati grezzi il cui scopo non è ancora definito. Un data warehouse è un repository di dati strutturati e filtrati, già elaborati per una finalità specifica.
Spesso i due tipi di archiviazione vengono confusi, tuttavia le differenze sono molto di più delle somiglianze. In effetti, il solo aspetto che li accomuna è l'elevato valore della loro utilità.
Distinguere queste due soluzioni di storage è importante, in quanto vengono utilizzate per scopi diversi e hanno requisiti differenti. Se un data lake può essere utile a una determinata azienda, per un'altra sarà più efficace un data warehouse.
Quattro differenze fondamentali tra data lake e data warehouse
Gli aspetti che differenziano un data lake da un data warehouse sono molteplici. Struttura dei dati, utenti ideali, modalità di elaborazione e finalità generale dei dati sono i fattori chiave di differenziazione.
Data lake | Data warehousse | |
---|---|---|
Struttura dei dati | Grezzi | Elaborati |
Finalità dei dati | Non ancora stabilita | In uso |
Utenti | Data Scientist | Professionisti aziendali |
Accessibilità | Elevata accessibilità e semplicità di aggiornamento | Accesso e aggiornamenti più complicati e costosi |
Struttura dei dati: dati grezzi e dati elaborati
Si definiscono grezzi i dati non ancora elaborati per una finalità specifica. Forse la principale differenza tra un data lake e un data warehouse sta nella struttura dei dati archiviati, grezzi nel primo caso ed elaborati nel secondo. Nei data lake vengono principalmente archiviati dati grezzi, non elaborati, mentre nei data warehouse vengono conservati dati elaborati e rifiniti.
Per questo motivo, i data lake richiedono in genere una capacità di archiviazione maggiore rispetto ai data warehouse. Inoltre, i dati grezzi, non elaborati, sono malleabili, possono essere rapidamente analizzati per qualsiasi scopo e sono ideali per l'apprendimento automatico. Tutti questi dati grezzi comportano tuttavia il rischio di trasformare i data lake in data swamp, se non vengono adottate misure appropriate di data quality e data governance.
Memorizzando esclusivamente dati elaborati, i data warehouse non consumano prezioso spazio di archiviazione, in quanto i dati che non saranno mai utilizzati non vengono conservati. Inoltre, i dati elaborati possono essere compresi chiaramente da un pubblico più ampio.
Finalità: non determinata e in uso
La finalità dei singoli dati conservati in un data lake non è definita. I dati grezzi vengono fatti confluire all'interno del data lake, talvolta per uno specifico impiego futuro, altre solo per averli a disposizione. Questo implica che nei data lake i dati sono meno organizzati e filtrati rispetto a quanto accade nei data warehouse.
I dati elaborati sono dati grezzi che vengono utilizzati per uno scopo specifico. Dal momento che i data warehouse memorizzano solo dati elaborati, tutti i dati in essi contenuti sono stati utilizzati per uno scopo specifico all'interno dell'organizzazione. In altre parole, non viene sprecato spazio di archiviazione per dati che non saranno mai utilizzati.
Utenti: data scientist e professionisti aziendali
I data lake sono spesso difficili da utilizzare da parte di persone che non hanno dimestichezza con i dati non elaborati. I dati grezzi, non strutturati, in genere possono essere compresi e trasformati per un uso specifico solo da data scientist e con strumenti specializzati.
In alternativa, oggi si parla molto di strumenti per la preparazione dei dati in grado di garantire l'accesso self-service alle informazioni memorizzate nei data lake.
Per saperne di più, vedi "Che cosa significa preparazione dei dati?" →
I dati elaborati vengono utilizzati in grafici, fogli di calcolo, tabelle e altro, affinché la maggior parte dei dipendenti di un'azienda, se non tutti, possano accedervi. I dati elaborati, come quelli archiviati nei data warehouse, richiedono solo che l'utente conosca l'argomento trattato.
Accessibilità: flessibile e sicura
Accessibilità e semplicità d'uso si riferiscono all'utilizzo del repository dei dati nel suo complesso e non dei singoli dati in esso contenuti. I data lake non hanno struttura, dunque sono più semplici da accedere e da modificare. Inoltre, le modifiche ai dati possono essere apportate rapidamente, in quanto i data lake presentano pochissime limitazioni.
I data warehouse sono più strutturati da un punto di vista progettuale. Uno dei principali vantaggi offerti dai data warehouse è che l'elaborazione e la struttura dei dati rendono i dati stessi più semplici da decifrare, mentre le limitazioni della struttura rendono i data warehouse difficili e costosi da manipolare.
Data lake e data warehouse: quale dei due fa al caso mio?
Spesso le organizzazioni necessitano di entrambe le soluzioni di storage. I data lake sono nati dall'esigenza di "imbrigliare" i big data e sfruttare i dati grezzi, non strutturati o dalla struttura granulare, per l'apprendimento automatico; tuttavia, rimane la necessità di creare data warehouse per finalità di analisi da parte degli utenti aziendali.
Settore sanitario: data lake per l'archiviazione di informazioni non strutturate
I data warehouse sono stati utilizzati per anni nel settore sanitario, senza però mai riscuotere un grande successo. A causa della natura non strutturata della maggior parte dei dati sanitari (certificati dei medici, dati clinici, ecc.) e dell'esigenza di informazioni approfondite in tempo reale, i data warehouse in genere non rappresentano un modello ideale.
I data lake consentono di archiviare sia dati strutturati che dati grezzi, offrendo un'alternativa più vantaggiosa per le aziende del settore sanitario.
Scopri come Talend ha aiutato AstraZeneca a realizzare un data lake globale. →
Istruzione: i data lake offrono soluzioni flessibili
Negli ultimi anni, il valore dei big data nel settore dell'istruzione è diventato chiaramente evidente. Dati su frequenza degli studenti, presenza e altro non solo possono riportare gli studenti meno motivati sulla retta via, ma possono effettivamente aiutare a prevedere potenziali problemi prima che si verifichino. Soluzioni flessibili per i big data hanno inoltre aiutato gli istituti di istruzione a semplificare la fatturazione, migliorare le raccolte fondi e tanto altro.
La maggior parte dei dati utilizzati in questo settore è estesa e molto grezza quindi, il più delle volte, gli istituti possono trarre maggiore vantaggio dalla flessibilità dei data lake.
Finanza: i data warehouse fanno presa sulle masse
Nel settore finanziario, così come in molti altri settori aziendali, un data warehouse è spesso il modello di storage migliore, in quanto può essere strutturato per l'accesso da parte dell'intera azienda, anziché da un singolo data scientist.
I big data hanno aiutato il settore dei servizi finanziari a fare grandi passi avanti e i data warehouse hanno avuto un ruolo fondamentale in questo senso. L'unico motivo per cui un'azienda che si occupa di servizi finanziari potrebbe scegliere il modello alternativo è perché è più economico, anche se non altrettanto utile per altri scopi.
Trasporti: i data lake aiutano nelle previsioni
Il vero grande vantaggio delle informazioni archiviate nei data lake è che possono essere utilizzate per fare previsioni.
Nel settore dei trasporti, in particolare nella gestione della supply chain, la capacità di previsione garantita dai dati flessibili contenuti in un data lake può assicurare enormi vantaggi, quali una riduzione dei costi derivante dall'analisi dei dati dei moduli della pipeline dei trasporti.
L'importanza della scelta tra data lake e data warehouse
Il dibattito "data lake o data warehouse" si è appena aperto, tuttavia le differenze chiave in termini di struttura, elaborazione, utenti e agilità generale rendono ciascun modello unico. A seconda delle esigenze dell'azienda, lo sviluppo del giusto data lake o data warehouse risulterà fondamentale per la crescita.
Scopri di più sui data lake nel cloud oppure scarica una prova gratuita di Talend Big Data Sandbox per sperimentare in prima persona come è facile lavorare con i big data.