Che cos'è la mappatura dei dati?
La mappatura dei dati è fondamentale per la buona riuscita dei processi di elaborazione dei dati. Un solo passo falso nella mappatura dei dati può ripercuotersi nell'intera organizzazione, generando errori replicati e sostanzialmente delle analisi sbagliate.
Quasi tutte le imprese, a un certo punto, si troveranno a trasferire i dati da un sistema a un altro. E sistemi diversi archiviano dati simili in modi diversi. Quindi, per trasferire e consolidare i dati per svolgere analisi o altre attività, è necessario mettere a punto un piano d'azione per garantire che i dati arrivino alla destinazione prevista senza errori.
Nei processi quali l'integrazione, la migrazione e la sincronizzazione dei dati, l'automazione del data warehouse, l'estrazione automatica dei dati o altri progetti di gestione dei dati, la qualità della mappatura determinerà la qualità dei dati da analizzare per trarne informazioni preziose.
Comprendere la mappatura dei dati per le imprese moderne
La mappatura dei dati è il processo che abbina i campi di un database a quelli di un altro. È il primo passo per facilitare la migrazione e l'integrazione dei dati e altre attività di gestione degli stessi.
Prima di poter essere analizzati per trarne informazioni di business, i dati devono essere omogeneizzati in maniera da renderli accessibili ai responsabili delle decisioni. Oggi i dati provengono da numerose sorgenti diverse, ciascuna delle quali può definire punti di dati simili in modi differenti. Ad esempio, in un sistema sorgente lo stato dell'Illinois potrebbe essere mostrato nel relativo campo come "Illinois", mentre il sistema di destinazione potrebbe memorizzarlo come "IL".
La mappatura dei dati getta un ponte tra le differenze di due sistemi, o modelli di dati, cosicché quando i dati vengono trasferiti da una sorgente arrivano a destinazione in condizione accurata e fruibile.
La mappatura dei dati ha rappresentato per un certo periodo una normale funzione aziendale, ma con l'aumento del volume e delle sorgenti di dati, il processo di mappatura è diventato più complesso, richiedendo strumenti automatizzati per poterlo eseguire con set di dati di grandi dimensioni.
La mappatura dei dati è essenziale per la gestione dei dati
La mappatura dei dati è una parte essenziale di numerosi processi di gestione dei dati. Se non vengono adeguatamente mappati, i dati possono danneggiarsi durante il trasferimento alla destinazione. La qualità della mappatura dei dati è indispensabile per ottenere il massimo dai dati durante le operazioni di migrazione, integrazione, trasformazione e popolamento di un data warehouse.
Migrazione dei dati
Per migrazione dei dati si intende il processo di trasferimento dei dati da un sistema a un altro come evento singolo. In genere si tratta di dati che non cambiano nel corso del tempo. Dopo la migrazione, la destinazione rappresenta la nuova sorgente dei dati migrati e la sorgente originale viene disattivata. La mappatura dei dati supporta il processo di migrazione mappando i campi sorgente rispetto ai campi di destinazione.
Integrazione dei dati
Per integrazione dei dati si intende il processo di trasferimento regolare dei dati da un sistema a un altro. L'integrazione può essere programmata, ad esempio mensile o trimestrale, o essere attivata da un evento. I dati sono archiviati e gestiti sia nella sorgente che nella destinazione. Come nella migrazione dei dati, la mappatura dei dati finalizzata all'integrazione abbina i campi sorgente a quelli di destinazione.
Trasformazione dei dati
Per trasformazione dei dati si intende il processo di conversione dei dati dal formato sorgente al formato di destinazione. Ciò potrebbe comportare la pulizia dei dati tramite la modifica del tipo, l'eliminazione dei valori null o duplicati, l'aggregazione, l'arricchimento o altre trasformazioni. Ad esempio, "Illinois" può essere trasformato in "IL" per corrispondere al formato di destinazione. Queste formule di trasformazione fanno parte della mappatura dei dati. Quando i dati vengono trasferiti, la mappatura dei dati utilizza le formule di trasformazione per ottenere dati in formato corretto e adatto per l'analisi.
Data warehouse
Se l'obiettivo è estrarre i dati di un'unica sorgente per finalità di analisi o per altre attività, il pull generalmente viene eseguito in un data warehouse. Quando si esegue una query, un report o un'analisi, i dati provengono dal warehouse. I dati contenuti nel warehouse sono già stati migrati, integrati e trasformati. La mappatura assicura che i dati che arrivano nel warehouse giungano a destinazione nel modo previsto.
Le fasi della mappatura dei dati
- Fase 1 - Definizione - Definizione dei dati da trasferire, comprese tabelle, campi di ciascuna tabella e formato del campo dopo il trasferimento. Per le operazioni di integrazione dei dati viene definita anche la frequenza del trasferimento.
- Fase 2 - Mappatura dei dati - Abbinamento dei campi sorgente ai campi di destinazione.
- Fase 3 - Trasformazione - Se un campo necessita di una trasformazione, viene codificata la relativa formula o regola.
- Fase 4 - Test — Con l'uso di un sistema di prova e dei dati campione da una sorgente, viene eseguito il trasferimento per vedere come si comporta e per operare eventualmente gli aggiustamenti necessari.
- Fase 5 - Implementazione - Dopo avere constatato il corretto funzionamento della trasformazione dei dati, si programma un evento per avviare la fase operativa della migrazione o integrazione.
- Fase 6 - Gestione e aggiornamento — Per l'integrazione di dati continua, la mappatura rappresenta un'entità viva, che richiede aggiornamenti e modifiche se vengono aggiunte nuove sorgenti di dati, se le sorgenti vengono modifiche o se cambiano i requisiti della destinazione.
L'utilità del giusto strumento di mappatura dei dati
Gli strumenti avanzati di mappatura dei dati e di trasformazione basati sul cloud possono aiutare le imprese a ottenere di più dai propri dati senza pesare sul budget. Questo esempio di mappatura mostra i campi di dati che vengono mappati dalla sorgente alla destinazione.[/caption]
In passato era sufficiente per le organizzazioni documentare su carta la mappatura dei dati. Ma oggi lo scenario si è fatto molto più complesso e i sistemi basati sul cartaceo non riescono a stare al passo con l'aumento dei volumi di dati e di mappature e con i costanti cambiamenti. Questi sistemi non sono abbastanza trasparenti e non tengono traccia delle inevitabili modifiche nei modelli dei dati. La mappatura manuale, inoltre, implica l'esecuzione manuale delle trasformazioni dei codici, un'attività che richiede davvero molto tempo e può essere soggetta a numerosi errori.
Trasparenza per analisti e architetti
Considerata l'importanza della qualità dei dati, gli analisti e gli architetti di dati necessitano di una visione dei dati precisa e in tempo reale alla sorgente e alla destinazione. Gli strumenti di mappatura dei dati forniscono una visione comune delle strutture dei dati mappati, consentendo ad analisti e architetti di vederne il contenuto, il flusso e le trasformazioni.
Ottimizzazione per formati complessi
La quantità di dati provenienti da diverse sorgenti è tale per cui la compatibilità diventa un potenziale problema. Dei validi strumenti di mappatura dei dati semplificano il processo di trasformazione grazie a strumenti incorporati che garantiscono la trasformazione accurata di formati complessi, permettendo di risparmiare tempo e riducendo la possibilità di errore umano.
Minori difficoltà per modificare i modelli dei dati
La mappatura dei dati non è un'attività che si esegue una tantum. Le modifiche degli standard dei dati, dei requisiti di report e dei sistemi comportano la necessità di gestire e aggiornare le mappe. Con uno strumento di mappatura dei dati basato sul cloud, le parti interessate non correranno più il rischio di perdere la documentazione relativa alle modifiche. Dei validi strumenti di mappatura dei dati permettono agli utenti di tenere traccia degli effetti delle modifiche dopo l'aggiornamento delle mappe. Gli strumenti di mappatura dei dati permettono anche di riutilizzare le mappe, per non essere costretti a ricominciare da capo tutte le volte.
Che cosa cercare in uno strumento di mappatura dei dati
I software di mappatura dei dati basati sul cloud sono strumenti veloci, flessibili e scalabili, realizzati per gestire requisiti di mappatura impegnativi senza pesare sul budget. Sebbene le caratteristiche e funzionalità di uno strumento di mappatura dei dati dipendano dalle esigenze dell'organizzazione, alcuni elementi risultano imprescindibili.
Ampio supporto di formati
La maggior parte degli strumenti supporta file di base come Excel, file di testo delimitato, XML, JSON, EBCDIC e altri. È bene optare per uno strumento in grado di gestire formati comunemente usati nel proprio ambiente, come SQL Server, Sybase, Oracle, DB2 o altri formati. Uno strumento di mappatura valido, inoltre, può gestire i software aziendali come SAP, SAS, Marketo, Microsoft CRM o SugarCRM, oppure i dati provenienti da servizi cloud come Salesforce o Database.com.
Intuitivo e automatizzato
Uno strumento intuitivo basato sul cloud è progettato per automatizzare attività ripetitive al fine di risparmiare tempo ed evitare un'attività noiosa a rischio di errore umano. A questo scopo risulta molto utile la funzionalità di trascinamento della selezione, che permette agli utenti di abbinare rapidamente i campi e applicare la trasformazione incorporata, senza la necessità di alcuna codifica.
Flusso di lavoro e programmazione
Per completare le funzionalità di automazione, è consigliabile uno strumento in grado di creare un flusso di mappatura completo, con la capacità di programmare l'attivazione dei job di mappatura in base al calendario o a un evento.
Mappatura dei dati aziendali per una gestione dei dati migliore
La mappatura dei dati è fondamentale per garantire che nel trasferimento dei dati da una sorgente a una destinazione sia preservata l'accuratezza dei dati. Una buona mappatura dei dati assicura una buona qualità dei dati conservati nel warehouse.
Grazie a una soluzione end-to-end per l'integrazione e la gestione dei dati, è possibile sfruttare appieno il potenziale offerto dal cloud e mettere a lavoro una maggiore quantità di dati. Dalla connessione di grandissimi set di sorgenti di dati e piattaforme all'accesso intuitivo self-service, Talend Data Fabric è una suite di applicazioni unificata che aiuta a gestire i dati aziendali in un unico ambiente. Prova oggi stesso Talend Data Fabric.
Sei pronto a iniziare con Talend?
Altri articoli correlati
- "Job Design Pattern e best practice Talend": Parte 4
- "Job Design Pattern e best practice Talend": Parte 3
- Che cos'è la migrazione dei dati?
- Che cos'è la Data Integration?
- Migrazione dei dati: strategia e best practice
- Job Design Pattern e best practice Talend: parte 2
- Job Design Pattern e best practice Talend: parte 1
- Change Data Capture (CDC)
- Guida per sviluppatori alla migrazione da Informatica PowerCenter a Talend: Parte 1