Qu’est-ce que l’extraction des données et comment la réaliser ?
Les volumes de données auxquels nous avons accès ne cessent d'augmenter. La question est de savoir comment les exploiter le plus efficacement possible. Pour la plupart des entreprises, le plus grand défi consiste à trouver un outil d'intégration de données capable de gérer et d'analyser de nombreux types de données provenant d'une diversité de sources en évolution constante. Mais avant de pouvoir analyser ou utiliser ces données, il faut d'abord les extraire. Ce document propose une définition du terme « extraction des données », puis examine en détail le processus ETL pour vous aider à comprendre le rôle crucial que jouent les opérations d'extraction dans le processus global d'intégration des données.
Définition et enjeux de la data extraction
L'extraction de données est un processus de collecte ou récupération de types disparates de données à partir de différentes sources, dont certaines peuvent être non structurées ou mal structurées. L'extraction des données permet de consolider, traiter et affiner les données, puis de les stocker dans un emplacement centralisé avant de les transformer (cet emplacement peut résider sur site, dans le cloud ou en mode hybride).
L'extraction des données est la première étape des processus ETL (extraction, transformation, chargement) et ELT (extraction, chargement, transformation). En général, les processus ETL/ELT font eux-mêmes partie d'une stratégie complète d'intégration des données.
Extraction des données et processus ETL
Pour situer l'importance de l'extraction des données, nous pensons qu'il est utile de décrire brièvement le processus ETL. Le processus ETL permet d'envisager deux actions principales : consolider les données provenant de différentes sources dans un emplacement centralisé et regrouper différents types de données sous un format commun. Le processus d'ETL comporte trois étapes (extraction-transformation-chargement) :
- Extraction : Les données proviennent d'une ou de plusieurs sources. L'opération d'extraction identifie les données pertinentes, puis les prépare pour traitement ou transformation. L'opération d'extraction permet de combiner différents types de données, puis de les exploiter dans un environnement de Business Intelligence.
- Transformation : Dès que les données ont été extraites, elles peuvent être affinées. Pendant la phase de transformation, les données sont triées, structurées et nettoyées : les entrées en double sont supprimées (de manière à conserver une seule instance), les valeurs manquantes sont supprimées ou enrichies et des vérifications sont effectuées de manière à obtenir des données cohérentes, exploitables et fiables.
- Chargement : Une fois transformées, les données sont de haute qualité, et elles sont routées vers un emplacement pour stockage et analyse.
Le processus ETL est utilisé dans la plupart des secteurs d'activité et avec des objectifs variables. Dans le secteur de la santé, par exemple, GE Healthcare souhaitait extraire certains types de données de différentes sources locales et natives en cloud afin d'optimiser ses processus et de répondre plus facilement aux exigences de conformité. L'extraction des données a permis à GE Healthcare de consolider et d'intégrer les données relatives aux soins apportés aux patients, aux prestataires de santé et aux demandes de remboursement (dans un contexte de type assurance-maladie).
Dans d'autres domaines, des spécialistes tels que Office Depot (produits de bureau) peuvent collecter des renseignements sur leurs clients à travers des applis mobiles, sites Web et transactions en magasin physique. Mais en l'absence d'une solution capable de transférer et fusionner toutes ces données, le potentiel de ces entrées d'information sera généralement limité. Là encore, l'extraction des données est la clé.
Extraction de données sans processus ETL
L'extraction des données est-elle possible en dehors d'un processus ETL ? En bref, la réponse est « oui ! ». Toutefois, il convient de tenir compte des limites d'une extraction de données qui serait pratiquée en dehors du cadre d'un processus d'intégration de données complet. Les données brutes qui sont extraites mais ne sont pas transformées ou chargées correctement seront généralement difficiles à structurer ou analyser et elles risquent d'être incompatibles avec les applications les plus récentes (ce type de données pourra être utile à des fins d'archivage, mais sans plus). Si vous envisagez de transférer des données de vos bases legacy vers une base de conception plus récente ou native en cloud, il est préférable d'extraire vos données dans un environnement d'intégration des données complet.
Autre conséquence : l'extraction de données en mode autonome ne favorise pas l'efficacité, surtout s'il s'agit d'une extraction manuelle. En effet, le codage manuel est généralement un processus laborieux, sujet aux erreurs et difficile à reproduire sur plusieurs extractions. Autrement dit, vous devrez peut-être reprendre le code à zéro à chaque extraction !
Outils d'extraction – Principaux avantages
Dans la plupart des secteurs d'activité, les entreprises auront besoin d'extraire des données à un moment donné. Pour certaines d'entre elles, il s'agira de mettre à niveau des bases de données legacy ou de migrer leurs données vers un stockage natif en cloud. Pour d'autres, il s'agira de consolider les différentes bases de données qui deviennent disponibles à l'issue d'une fusion/acquisition. Enfin, d'autres entreprises voudront simplement optimiser leurs processus internes en fusionnant les sources de données utilisées régulièrement par différents départements.
Si la perspective d'implémenter des pratiques d'extraction de données ressemble à une tâche insurmontable, rassurez-vous ! Les entreprises les plus performantes utilisent déjà des outils capables de gérer le processus d'extraction de bout en bout. Les outils ETL simplifient et automatisent le processus d'extraction, ce qui permet de redéployer des ressources humaines vers d'autres priorités. Principaux avantages des outils d'extraction de données :
- Meilleur contrôle – L'extraction de données permet aux entreprises de migrer les données provenant de sources extérieures vers leurs bases de données. Vous pouvez ainsi éviter que vos données soient stockées dans des silos par des applications ou licences obsolètes. Ce sont vos données, et l'extraction vous permet d'en faire ce que vous voulez.
- Meilleure agilité – Lorsque les entreprises connaissent une période de croissance, elles doivent souvent gérer différents types de données dans des systèmes distincts. L'extraction de données permet de consolider ces données dans un système centralisé afin d'unifier l'intégralité des datasets disponibles.
- Meilleur partage – Pour les entreprises qui souhaitent partager certaines de leurs données avec des partenaires, l'extraction permet de proposer un accès utile mais limité aux données. L'extraction permet également de partager des données stockées sous un format courant et exploitable.
- Meilleure précision – Les processus manuels et le codage manuel augmentent les possibilités d'erreur, et les précautions à prendre pour les opérations de type saisie-modification-restockage des gros volumes de données ont généralement un impact sur l'intégrité des données. L'automatisation assurée par les outils d'extraction des données permet de réduire le nombre d'erreurs (ou de passer moins de temps à les résoudre).
Types d'extraction de données
L'extraction est un processus puissant et souple qui peut vous aider à disposer de différents types de données plus pertinentes pour vos activités. La première étape de l'extraction de données consiste à identifier les types de données dont vous avez besoin. Principaux types de données obtenus par extraction :
- Données sur les clients – Les données de ce type aident les entreprises à comprendre leurs clients ou les visiteurs de leur site : noms, numéros de téléphone, adresses mail, identifiants uniques, historique d'achat, activités dans les médias sociaux, recherches sur le Web, etc.
- Données financières – Les indicateurs de ce type comprennent les chiffres de vente, les coûts d'achat, les marges d'exploitation et éventuellement les prix de vos concurrents. Les données de ce type aident les entreprises à suivre leurs performances, améliorer leur efficacité et planifier leurs stratégies sur la durée.
- Données de performances en fonction de l'utilisation, des tâches ou des processus – Cette catégorie de données très large est liée à des tâches ou des opérations spécifiques. Par exemple, un distributeur pourra être intéressé par des données sur sa logistique d'expédition et le directeur d'un hôpital souhaitera superviser les résultats post-opératoires ou le feedback de ses patients.
Après avoir décidé du ou des types de données que vous souhaitez consulter et analyser, les étapes suivantes consistent à déterminer deux emplacements : source et stockage. Dans la plupart des cas, il s'agira donc de déplacer des données d'une application vers une autre ou d'un serveur vers un autre.
Ce type de migration peut impliquer des données provenant de services tels que SAP, Workday, Amazon Web Services, MySQL, SQL Server, JSON, SalesForce, Azure ou Google Cloud (ces applications sont largement utilisées, mais la migration peut porter sur les données de la plupart des applications ou des serveurs).
Extraction de données – Exemples du mode réel
Pour vous montrer comment l'extraction de données peut résoudre les problèmes du monde réel, nous vous présentons ci-dessous l'exemple de deux entreprises qui ont su structurer et optimiser leurs données pour augmenter leur valeur.
Domino’s – Big pizzas et big data
Domino’s est la plus grande société mondiale de distribution de pizzas. L'une des raisons de ce succès est la capacité de cette société à recevoir des commandes à travers une palette complète de technologies : smartphones, montres connectées, téléviseurs et même les médias sociaux. Ces différents canaux génèrent des volumes considérables de données que Domino's doit intégrer pour disposer d'une vue globale sur ses opérations et les préférences de ses clients.
Pour consolider l'ensemble de ces sources de données, Domino's utilise une plate-forme qui assure la gestion de ses données de l'extraction à l'intégration. Le système tourne sur les serveurs natifs en cloud de Domino's. Il capture et collecte des données à partir des points de vente et des 26 centres dédiés à la chaîne d'approvisionnement, à travers des canaux aussi variés que les SMS, Twitter, Amazon Echo et même le service postal des États-Unis (United States Postal Service). Une plate-forme de gestion des données nettoie, enrichit et stocke les données afin qu'elles soient facilement accessibles et exploitables par les différentes équipes de Domino's.
Intégration des données et éducation supérieure
Le cloud, l'IoT et l'avenir de l'extraction de données
L'émergence des solutions de stockage et de traitement en cloud a eu un impact majeur sur les solutions de gestion des données adoptées par les entreprises. En plus des changements qu'il a apportés en matière de stockage, traitement et sécurité des données, le cloud a rendu le processus ETL plus efficace et plus souple. Les entreprises peuvent désormais accéder à des données dans monde entier et les traiter en temps réel, sans avoir à déployer et actualiser leurs propres serveurs ou leur infrastructure de données attitrée. De plus en plus d'entreprises ont adopté des solutions de données natives en cloud ou hybrides et commencent à migrer vers le cloud les données de leurs systèmes legacy.
L'Internet des objets (IoT) participe également à la transformation du paysage des données. Les ordinateurs ne sont plus les seuls à générer des données ; ils ont reçu le renfort des téléphones cellulaires et des tablettes, puis d'autres sources de données : objets portables (wearables) tels que les traqueurs d'activité connectés de type Fitbit, véhicules autonomes, appareils ménagers et même les équipements médicaux. Il en résulte des volumes sans cesse croissant de données qui, une fois extraites et transformées, peuvent être exploitées pour renforcer l'avantage concurrentiel de l'entreprise.
Extraction de données – Vos préférences
Bravo ! Vous avez collecté et stocké des volumes considérables de données. Toutefois, si ces données ne sont pas disponibles sous un format exploitable ou dans un emplacement facile d'accès, vous allez vous priver d'une connaissance critique et passer à côté de certaines opportunités commerciales. Et comme de nouvelles sources de données utiles pour vos activités apparaissent chaque jour, le problème ne sera pas résolu tant que vous n'aurez pas déployé la stratégie et les outils adaptés à cette tendance.
La plate-forme Talend Data Management vous propose un ensemble complet d'outils de gestion de données, dont ETL, intégration des données, qualité des données, supervision de bout en bout et sécurité. Adaptable et efficace, cette plate-forme vous permet d'extraire des données dès que vous en avez besoin et de les convertir en connaissances exploitables chaque fois que vous le souhaitez. Elle peut être déployée partout : sur site, native en cloud ou en mode hybride. Pour découvrir à quel point il est facile d'extraire vos données selon vos préférences, n'hésitez pas à télécharger votre version d'essai gratuite !
Prêt à faire vos premiers pas avec Talend ?
Plus d'articles connexes
- Big Data Health : la médecine de demain
- Qu'est-ce qu'un silo de données ?
- Modèles de conception des jobs Talend et bonnes pratiques : 4e partie
- Modèles de conception des jobs Talend et bonnes pratiques : 3e partie
- Qu'est-ce que la migration des données ?
- Qu’est-ce que le mappage des données ?
- Intégration de base de données – Présentation générale
- Tout savoir sur l'intégration de données
- Comprendre la migration des données : stratégie et bonnes pratiques
- Modèles de conception des jobs Talend et bonnes pratiques : 2e partie
- Talend “Modèles de Conception de Job” et Bonnes Pratiques : 1e partie
- Guide sur Talend rédigé par un développeur d'Informatica PowerCenter : Partie 1