Data lake vs data warehouse
Les termes data lake et data warehouse sont utilisés très couramment pour parler du stockage des big data, mais ils ne sont pas interchangeables. Un data lake est un vaste gisement (pool) de données brutes dont le but n'a pas été précisé. Un data warehouse est un référentiel de données structurées et filtrées qui ont déjà été transformées dans un but spécifique.
Ces deux types de stockage de données sont souvent confondus, alors qu'ils présentent beaucoup plus de différences que de similitudes. En fait, leur seul véritable point commun est leur capacité à stocker des données.
Il est important de faire la distinction entre ces deux types de gisements, dans la mesure où ils sont (ou devraient être) utilisés à des fins différentes et où ils exigent l'intervention d'opérateurs spécialisés pour être correctement optimisés. Un data lake pourra être idéal pour une entreprise donnée alors qu'un data warehouse conviendra mieux à une autre.
Quatre principales différences entre un data lake et un data warehouse
Il existe un certain nombre de facteurs de différenciation essentiels entre un data lake et un data warehouse, notamment : la structure des données, les utilisateurs ciblés, les méthodes de traitement et l'objet global des données.
Data lake | Data warehousse | |
---|---|---|
Structure des données | Brutes | Traitées/transformées |
Objet des données | À déterminer | Données actives |
Utilisateurs | Data scientists | Spécialistes |
Accessibilité | Accès facile, mises à jour rapides | Modifications plus complexes et plus coûteuses |
Structure des données — Données brutes vs données transformées
Les données brutes sont des données qui n'ont pas encore été transformées dans un but précis. La plus grande différence entre les data lakes et les data warehouses est sans doute la différence de structure entre les données brutes et les données transformées : les data lakes stockent généralement des données brutes non transformées, alors que les data warehouses stockent des données transformées et nettoyées.
Pour cette raison, les data lakes exigent généralement une capacité de stockage beaucoup plus importante que les data warehouses. En outre, les données brutes non transformées sont malléables : elles peuvent être analysées très rapidement dans n'importe quel but et elles sont idéales pour le machine learning. Toutefois, le risque des données brutes stockées dans des data lakes est le suivant : ces derniers se transforment en véritables « marécages » de données en l'absence de pratiques adéquates de qualité et gouvernance des données.
En stockant uniquement des données transformées (et en ne conservant pas de données qui ne peuvent jamais être utilisées), les data warehouses permettent de réduire l'espace de stockage qui est un poste coûteux. Par ailleurs, les données transformées peuvent être facilement comprises par un éventail beaucoup plus large d'utilisateurs.
Objet — À déterminer vs données actives
L'objet des données stockées dans un data lake n'est pas figé. Les données brutes routées vers un data lake sont parfois prévues pour une utilisation future spécifique et parfois simplement « pour les avoir sous la main ». Ceci explique pourquoi les data lakes sont moins bien équipés en fonctionnalités de structuration et de filtration des données que les data warehouses.
Les données transformées sont des données brutes qui ont été utilisées à des fins spécifiques. Les data warehouses stockant uniquement des données transformées, cela signifie que toutes les données d'un data warehouse ont déjà été utilisées à une fin précise dans l'entreprise. Cela implique également que l'espace de stockage des data warehouses n'est pas gaspillé par des données qui ne seront jamais utilisées.
Utilisateurs — Data scientists et spécialistes
Les data lakes sont souvent difficiles à explorer pour les utilisateurs qui n'ont pas l'expérience des données non transformées. Les données brutes non structurées exigent généralement les services d'un data scientist et des outils spécialisés pour les comprendre et les traduire à des fins commerciales précises.
Par ailleurs, il est à noter l'engouement très net en faveur des outils de préparation des données qui définissent un accès en libre-service aux données stockées dans les data lakes.
Pour plus de détails, consultez le document : « Préparation des données – Présentation générale » →
Les données transformées sont utilisées dans de nombreux contenus, dont graphiques, feuilles de calcul et tables pour permettre au plus grand nombre possible d'employés de les lire : il suffit que l'utilisateur soit familier avec le sujet représenté.
Accessibilité — Flexibilité vs sécurité
Accessibilité et facilité d'utilisation font référence à l'utilisation du référentiel de données en lui-même, et non aux données qu'il contient. Les data lakes n'ont pas de structure et sont donc faciles à consulter et modifier ; les modifications à apporter aux données peuvent être faites très rapidement, dans la mesure où les data lakes sont soumis à très peu de restrictions.
De par leur conception les data warehouses sont plus structurés. L'un des principaux avantages de l’architecture des data warehouses est que le traitement et la structure des données facilitent la compréhension de celles-ci. Toutefois, les restrictions dues à leur structure rendent les data warehouses difficiles (et coûteux) à manipuler.
Data lake vs data warehouse — Lequel est le mieux adapté à mes besoins ?
Les entreprises ont souvent besoin des deux. Les data lakes sont nés de la nécessité d'exploiter les big data et des avantages à utiliser les données brutes, granulaires, structurées et non structurées avec le machine learning. Cependant, les data warehouses restent incontournables pour les analyses des utilisateurs internes.
Santé — Les data lakes stockent des informations non structurées
Dans le secteur de la santé, où les données sont très souvent non structurées (notes de médecins, données cliniques), les data warehouses sont utilisés depuis très longtemps, mais ils n'ont jamais connu un franc succès. Par ailleurs, le personnel de santé a souvent besoin d’informations en temps réel : un objectif pour lequel les data warehouses ne sont généralement pas un modèle idéal.
Les data lakes permettent de combiner données structurées et données non structurées, ce qui convient généralement mieux aux prestataires de santé.
Découvrez comment Talend a aidé AstraZeneca à construire un data lake pour l'ensemble de ses activités. →
Enseignement — Les data lakes offrent la flexibilité requise
Avec la transformation du système d’éducation réalisée ces dernières années, les big data se sont révélées être indispensables. Les données sur les notes et l'assiduité (entre autres) aident non seulement les élèves en difficulté à se remettre sur la bonne voie, mais elles peuvent également anticiper certains problèmes avant même qu'ils se produisent. Les solutions flexibles de big data ont également aidé les établissements d'enseignement à rationaliser la facturation, améliorer les collectes de fonds, etc.
Ces données étant généralement volumineuses et très brutes, les data lakes sont la solution idéale pour les établissements d'enseignement.
Finance — Le data warehouse, solution universelle ?
Dans le secteur de la finance, comme dans bien d'autres contextes d'affaires, un data warehouse est souvent le meilleur modèle de stockage dans la mesure où il peut être structuré de manière à être accessible à tous les acteurs de l'entreprise plutôt qu'aux seuls data scientists.
Les big data ont aidé le secteur des services financiers à évoluer à grands pas, et les data warehouses ont joué un rôle important dans cette évolution. La seule raison pour laquelle une société de services financiers pourrait renoncer à ce modèle est que, bien que plus rentable, il pourrait être moins efficace dans certains cas.
Transport — Les data lakes contribuent à faire des prédictions fiables
Un des grands avantages de la connaissance extraite des data lakes est la capacité de faire des prédictions fiables.
Dans le secteur du transport, et plus particulièrement dans la gestion de la chaîne d'approvisionnement, la capacité de prédiction qui découle des données très souples d'un data lake peut apporter d'énormes avantages, notamment en matière de réduction de coûts réalisée en examinant les informations saisies dans les formulaires enregistrés dans le pipeline de transport.
Comment choisir entre data lake et data warehouse
Le débat entre le data lake et le data warehouse ne fait sans doute que commencer, mais il convient de noter que les grandes différences en matière de structure, de processus, d'utilisateurs et d'agilité générale rendent chaque modèle unique et spécifique. En fonction des besoins spécifiques de votre entreprise, le choix d'un data lake ou d'un data warehouse adapté sera déterminant pour votre croissance.
Nous vous invitons à consulter des informations complémentaires sur les data lakes cloud et à télécharger une version d'évaluation gratuite de Talend Data Fabric. Vous le constaterez rapidement : « les big data, mais c'est très simple ! »