Che cos'è un data mart
In un mercato dominato da big data e analisi, i data mart sono un efficace strumento per trasformare le informazioni in intelligence fruibile. I data warehouse in genere gestiscono enormi set di dati, tuttavia l'analisi dei dati richiede informazioni facilmente reperibili e immediatamente disponibili. Un utente aziendale dovrebbe eseguire query complesse semplicemente per accedere ai dati di cui ha bisogno per elaborare un report. Per evitare questo problema, le aziende smart utilizzano i data mart.
Un data mart è un database strutturato in base all'argomento, che spesso rappresenta una sezione del data warehouse aziendale. Il sottoinsieme di dati conservato in un data mart generalmente è allineato alle esigenze di una particolare unità aziendale, come il reparto vendite, finanziario o marketing. I data mart accelerano i processi di business, consentendo di accedere a informazioni rilevanti contenute in data warehouse o archivi di dati operativi in pochi giorni, anziché mesi o tempi ancora più lunghi. Dal momento che un data mart contiene esclusivamente informazioni pertinenti a una determinata area aziendale, rappresenta una soluzione economicamente vantaggiosa per acquisire dati fruibili rapidamente.
Data mart e data warehouse
Sia i data mart che i data warehouse sono repository altamente strutturati, in cui i dati vengono archiviati e gestiti fintanto che sono necessari. Tuttavia, essi si differenziano per la finalità dei dati che contengono: i data warehouse rappresentano l'archivio centrale dei dati dell'intera azienda, mentre i data mart rispondono alle esigenze di una specifica divisione. Dal momento che un data warehouse contiene dati dell'intera azienda, è buona norma controllare in modo rigoroso chi può accedervi. Inoltre, interrogare i dati necessari all'interno di un data warehouse è una procedure estremamente complicata per gli utenti aziendali. Di conseguenza, lo scopo primario di un data mart è isolare, o suddividere, un insieme più piccolo di dati per garantire un accesso più agevole agli utenti finali.
I data mart possono essere creati a partire da un Data Warehouse esistente – approccio dall'alto verso il basso – oppure a partire da altre sorgenti, come sistemi operativi interni o dati esterni. Simile al Data Warehouse, il data mart è un database relazionale in cui vengono archiviati dati transazionali (valori temporali, ordini numerici, riferimenti a uno o più oggetti) in colonne e righe, per semplificarne organizzazione e accesso.
In alternativa, le singole unità aziendali possono creare i propri data mart sulla base di informazioni o requisiti specifici. Se le esigenze aziendali lo richiedono, più data mart possono essere unificati per creare un unico Data Warehouse. Questo rappresenta l'approccio dal basso verso l'alto.
Data mart | Data warehouse | |
---|---|---|
Dimensioni | < 100 GB | 100 GB o più |
Argomento | Unico argomento | Più argomenti |
Portata | Unità aziendale | Intera azienda |
Sorgenti di dati | Poche sorgenti | Numerosi sistemi sorgente |
Integrazione dei dati | Una sola area di interesse | Tutti i dati aziendali |
Tempo di creazione | Minuti, settimane o mesi | Più mesi o anni |
Tre tipi di data mart
I data mart possono essere di tre tipi: dipendente, indipendente e ibrido. Vengono classificati in base alla loro relazione con il data warehouse e le sorgenti di dati utilizzati per creare il sistema.
1. Data mart dipendenti
Un data mart dipendente viene creato a partire da un data warehouse aziendale esistente. Viene seguito l'approccio dall'alto verso il basso in base al quale prima si archiviano tutti i dati in un'unica posizione centrale, quindi si estrae una porzione chiaramente definita dei dati al momento del bisogno, per finalità di analisi.
Per formare un data mart, un set specifico di dati viene aggregato (organizzato in un cluster) a partire dal data warehouse, ristrutturato, quindi caricato nel data mart, dove può essere sottoposto a query. Il data mart può rappresentare una vista logica oppure un sottoinsieme fisico del data warehouse:
- Vista logica – Tabella/vista virtuale logicamente (ma non fisicamente) separata dal data warehouse
- Sottoinsieme fisico – I dati estratti vanno a costituire un database fisicamente separato dal data warehouse
I dati granulari – ovvero il livello minimo di dati nel set di destinazione – del data warehouse fungono da unico punto di riferimento per tutti i data mart dipendenti che vengono creati.
2. Data mart indipendenti
Un data mart indipendente è un sistema autonomo – non creato a partire da un data warehouse – incentrato su un particolare argomento o funzione aziendale. I dati vengono estratti da sorgenti interne o esterne (o da entrambe), elaborati, quindi caricati nel repository del data mart, dove restano a disposizione per finalità di analisi.
I data mart indipendenti non sono complicati da progettare e sviluppare. Sono utili per conseguire obiettivi a breve termine, ma possono diventare onerosi da gestire – dal momento che ciascuno ha una logica e uno strumento ETL propri – a mano a mano che le esigenze aziendali si espandono e diventano più complesse.
3. Data mart ibridi
I data mart ibridi combinano dati provenienti da un data warehouse esistente così come da altri sistemi sorgente. Essi offrono la velocità e l'orientamento all'utente di un approccio dall'alto verso il basso, oltre ai vantaggi dell'integrazione a livello aziendale del metodo dal basso verso l'alto.
Struttura di un data mart
Simile al data warehouse, il data mart può essere organizzato utilizzando uno schema a stella, a fiocco di neve, vault o altri schemi, come blueprint. I team IT in genere impiegano lo schema a stella, costituito da una o più tabelle (set di metriche relative a uno specifico evento o processo di business) che fanno riferimento a tabelle delle dimensioni (attributi primari collegati a una tabella dei fatti) all'interno di un database relazionale.
Il vantaggio dello schema a stella è che richiede un numero minore di "join" quando si compilano le query, in quanto non vi sono dipendenze tra le dimensioni. Ciò semplifica il processo di richiesta ETL, consentendo agli analisti di accedere ai dati e navigare al loro interno in modo più agevole.
In uno schema a fiocco di neve, le dimensioni non sono chiaramente definite. Esse vengono normalizzate per ridurre la ridondanza e salvaguardare l'integrità dei dati. L'archiviazione delle tabelle delle dimensioni richiede meno spazio; tuttavia, si tratta di una struttura più complessa (più tabelle da compilare e sincronizzare) che può risultare difficile da gestire.
Vantaggi di un data mart
Gestire i big data, ed elaborare business intelligence fruibile è una sfida che tutte le aziende si trovano ad affrontare e che molte superano con la strategia dei data mart.
- Accesso efficiente – Il data mart è una soluzione efficiente che consente di accedere a set di dati specifici per acquisire business intelligence.
- Alternativa gratuita al data warehouse – I data mart possono rappresentare un'alternativa a costo zero allo sviluppo di un data warehouse aziendale e in cui i set di dati richiesti sono più contenuti. Un data mart di tipo indipendente può essere configurato e reso operativo in meno di una settimana.
- Miglioramento delle prestazioni del data warehouse – I data mart dipendenti e ibridi possono migliorare le prestazioni dei data warehouse facendosi carico dell'elaborazione, per soddisfare le esigenze degli analisti. Se collocati in una struttura di elaborazione separata, i data mart dipendenti possono anche ridurre sensibilmente i costi di elaborazione dei dati di analisi.
Altri vantaggi dei data mart
- Manutenzione dei dati – I vari reparti possono disporre dei propri dati e controllarli in base alle necessità.
- Semplicità di configurazione – Il design semplificato richiede minori competenze tecniche in fase di configurazione.
- Analisi – Possibilità di monitorare con facilità gli indicatori delle prestazioni chiave (KPI).
- "Easy entry" – I data mart possono costituire le basi di un futuro progetto di data warehouse aziendale.
Il futuro dei data mart è nel cloud
Anche con la maggiore flessibilità ed efficienza offerte dai data mart, i big data – e i grandi data warehouse aziendali – sono comunque destinati ad assumere dimensioni troppo grandi per essere gestiti tramite soluzioni locali. Esattamente come i data warehouse e i data lake, anche i data mart si trasferiscono nel cloud.
Grazie a una piattaforma condivisa basata sul cloud per la creazione e l'archiviazione dei dati, accesso e analisi diventano più efficienti. Cluster di dati transitori possono essere creati per analisi a breve termine oppure possono essere integrati cluster a lungo termine per attività più prolungate. Le moderne tecnologie stanno inoltre separando l'archiviazione dall'elaborazione dei dati, consentendo la massima scalabilità nell'interrogazione dei dati.
Ecco altri vantaggi offerti dai data mart indipendenti e ibridi, basati sul cloud:
- Architettura flessibile con applicazioni cloud native
- Unico repository contenente tutti i data mart
- Consumo delle risorse on demand
- Accesso alle informazioni in tempo reale
- Maggiore efficienza
- Consolidamento delle risorse per una riduzione dei costi
- Analisi interattiva in tempo reale
Introduzione ai data mart
Le aziende si trovano a dover gestire un'enorme quantità di informazioni, oltre all'esigenza, in continua evoluzione, di suddividere tali informazioni in porzioni gestibili per finalità di analisi e per ottenere dati di intelligence fruibili. I data mart nel cloud offrono una soluzione scalabile a lungo termine. Per creare un data mart, è fondamentale trovare uno strumento ETL in grado di connettersi al data warehouse esistente o ad altre sorgenti di dati essenziali di cui si servono gli utenti aziendali e da cui estrarre informazioni. Inoltre, è necessario fare in modo che lo strumento di integrazione dei dati possa aggiornare regolarmente il data mart, in modo che le informazioni in esso contenute – e i dati di analisi che ne derivano – siano sempre aggiornati.
Talend Data Management Platform aiuta i team a lavorare in modo più intelligente, grazie a un'architettura aperta e scalabile e a semplici strumenti grafici che aiutano a trasformare e caricare sorgenti di dati pertinenti per creare un nuovo data mart. Inoltre, Talend Data Management Platform semplifica la gestione dei data mart esistenti, automatizzando e pianificando le attività di integrazione necessarie per aggiornarli.
Con Talend Open Studio for Data Integration, è possibile connettersi a tecnologie come Amazon Web Services Redshift, Snowflake e Azure Data Warehouse per creare i propri data mart, sfruttando la flessibilità e la scalabilità del cloud.