Pourquoi les outils ELT bouleversent le marché des ETL
Les recherches indiquent que près de 50 pour cent des données d’entreprise se trouvent dans le Cloud, ce qui montre bien l’importance des sources de données externes pour les entreprises modernes. Les organisations ont besoin d’outils tout aussi modernes pour traiter et intégrer rapidement ces données. Les meilleurs outils d’extraction, de chargement et de transformation (ELT) s’adaptent à ces charges de travail et gagnent en popularité dans l’espace des entrepôts de données car ils constituent un moyen rentable, efficace et très performant d’intégrer les données, qu’elles soient externes ou internes.
Beaucoup d’organisations recourent de plus en plus souvent aux outils ELT pour gérer le volume, la diversité et la vitesse des sources de Big Data, ce qui met à rude épreuve les outils classiques d’extraction, de transformation et de chargement (ETL), conçus pour le stockage de données internes et relationnelles. Dans cet article, nous préciserons la différence entre les outils ETL et ELT, nous expliquerons pourquoi les outils ELT améliorent les entrepôts de données, et nous montrerons comment les outils ELT sont en train de changer le paysage de l’intégration des données.
ELT et ETL : Quelle est la différence ?
L’ELT est le processus par lequel des données brutes sont extraites de leurs sources originelles (flux Twitter, ERP, CRM, etc.), puis chargées dans les sources cibles, généralement des entrepôts de données ou des data lakes. Contrairement aux autres approches, l’ELT implique une transformation des données dans les systèmes cibles, ce qui réduit le besoin d’une infrastructure physique et de couches intermédiaires.
En clair, les outils ELT sont une évolution des méthodes ETL classiques. Les outils ETL sont des plateformes séparées qui sont structurées entre les systèmes d’origine et les systèmes cibles. Il existe une différence essentielle entre les outils ETL et ELT : l’ETL transforme les données avant de les charger dans les systèmes cibles alors que l’ELT transforme les données directement au sein de ces systèmes. Cette distinction est fondamentale pour beaucoup de processus en aval et concerne les systèmes suivants.
Infrastructure et ressources
Les outils ETL sont des plateformes dédiées aux étapes entre l’extraction des données et leur chargement dans les référentiels cibles. C’est aux organisations qu’il revient d’acheter et d’entretenir ces outils, afin d’intégrer les données dans les systèmes cibles. Comme les outils ELT ne passent pas par cette étape intermédiaire pour charger les données dans les systèmes cibles, ils ne nécessitent pas autant d’infrastructure physique ou de ressources dédiées. En effet, la transformation est opérée avec le moteur du système cible et non avec les moteurs des outils ETL.
Préparation des données
Les outils ETL sont chargés d’exécuter le processus de préparation des données, au cours duquel les données sont nettoyées et préparées pour la transformation. Dans le cas de l’ELT, la préparation des données s’effectue après le chargement des données dans les entrepôts de données, les data lakes ou l’emplacement de stockage des données dans le cloud, pour une plus grande efficacité et une latence réduite. Par conséquent, les meilleurs outils ELT sollicitent moins les sources initiales de données, et se passent totalement des étapes intermédiaires de l’ETL, car la majeure partie du traitement des données s’effectue dans le système cible.
Performance
Les outils ELT sont nettement plus performants que les outils ETL, surtout lorsqu’il s’agit de traiter des données à grande échelle. Tous ces pétabits de données provoquent facilement des embouteillages avec les outils ETL, puisque ces mécanismes utilisent leurs propres serveurs et moteurs pour transformer les données. De plus, la complexité de cette transformation est encore accrue par le mélange de données semi-structurées et non structurées qui peuplent systématiquement les sources de Big Data. Les embouteillages ETL sont susceptibles de prolonger considérablement la latence pour accéder à et analyser des données dans les entrepôts de données.
Délai de rentabilisation
Avec les outils ELT, le délai de rentabilisation avant de véritablement analyser et exploiter les données est accéléré par la transformation des données dans les systèmes cibles. Les data scientists et les analystes opérationnels avertis peuvent tirer parti des options de schéma à la lecture avec un minimum de codage manuel, pour transformer rapidement les données et utiliser des techniques d’apprentissage automatique à des fins d’analyse. Les outils ETL sont freinés par les processus de codage manuel nécessaires pour conformer toutes les données au schéma uniforme d’un entrepôt de données, par exemple, avant l’analyse.
La transition des outils ETL aux outils ELT est une conséquence logique de cette ère des Big Data. Les outils ETL classiques ont été créés pour un stockage de données conventionnelles et relationnelles, avec des données majoritairement structurées qui provenaient essentiellement de systèmes internes. Les ressources informatiques dédiées aux outils ETL n’étaient tout simplement pas adaptées à l’échelle, à la variation et aux exigences de faible latence des flux de travail des Big Data. Bien que ces outils soient encore viables pour des données internes et structurées, ils sont vite dépassés quand il s’agit d’intégrer l’éventail de Big Data non structurées ou semi-structurées provenant de sources externes, en particulier pour des applications à faible latence comme l’Internet des objets.
L’ELT améliore le stockage des données
Les meilleurs outils ELT sont utiles à bien des égards pour améliorer les entrepôts de données et data lakes. Dans ces deux cas, les outils ELT peuvent raccourcir le temps nécessaire à la préparation des données à des fins d’analyse. En chargeant les données dans un environnement de data lake comme Hadoop, les organisations peuvent utiliser les moteurs de traitement de ce dernier pour préparer et transformer les données. L’environnement Hadoop a été créé pour offrir une incroyable évolutivité. Il utilise un traitement en parallèle pour accélérer les tâches informatiques. Ainsi, en utilisant simplement l’ELT pour charger un data lake, les organisations peuvent adopter cette méthode pour obtenir un schéma à la lecture sans passer par le travail classique de modélisation des données, nécessaire pour unifier les paramètres de schéma de relation.
Le chargement d’entrepôts de données avec l’ELT s'appuie en grande partie sur cette même méthodologie. Toutefois, lors du processus de transformation, les données sont transformées dans le schéma unifié de ces référentiels. Il existe également une étape supplémentaire, au cours de laquelle les données transformées sont chargées à partir d’un data lake comme Hadoop dans l’entrepôt lui-même. On conserve ainsi bon nombre des avantages temporels, tels que les avantages architecturaux et infrastructurels liés à l’exploitation du moteur de traitement de Hadoop pour la transformation. Les avantages de l’ELT incluent :
- Une architecture simplifiée — En exploitant la puissance de traitement des systèmes cibles tels que Hadoop, les outils ELT rationalisent l’architecture nécessaire à la préparation des données en vue de leur utilisation. Il n’existe aucune couche intermédiaire limitée en termes de puissance de traitement. Le système cible sert à préparer et transformer les données.
- L’incorporation rapide de sources de Big Data — Une multitude de sources impliquant des Big Data semi-structurées et non structurées sont également facilement intégrées dans les entrepôts de données et les data lakes grâce à l’ELT. Il est difficile d’exploiter rapidement ces sources via des méthodes classiques d’ingestion et de transformation.
- Data Sandbox — Les avantages récurrents des meilleurs outils ELT incluent l’utilisation de magasins de données tels que Hadoop qui font office de terrain d’expérimentation pour les data scientists, sans avoir à normaliser les schémas en fonction du schéma du référentiel sous-jacent, ce qui est indispensable avec les approches conventionnelles.
- Stockage et traitement — Les outils ELT permettent aux organisations d’exploiter la capacité de stockage et la puissance de traitement des systèmes cibles. Elles optimisent ainsi le retour sur investissement de ces référentiels, ce qui permet de justifier l’intérêt de ces outils auprès de leurs supérieurs hiérarchiques.
La Business Intelligence (BI) reste le cas d’usage type du stockage des données. Les meilleurs outils ELT améliorent la BI sur bien des aspects. Ils permettent d’incorporer rapidement de multiples sources externes en plus des sources internes conventionnelles et complètent par exemple les données CRM ou ERP avec des informations alternatives comme des données issues de médias sociaux. Les méthodes ELT permettent à chacune de ces sources de données de les charger dans Hadoop pour y être transformées, offrant aux data scientists un schéma à la lecture pour comprendre le lien entre ces données alternatives et les besoins de l’entreprise, ou encore avec le schéma de stockage. Une fois ces sources transformées pour répondre au schéma de stockage, les utilisateurs peuvent dresser des rapports sur un plus large éventail de données pour approfondir l’analyse des comportements des clients.
L’ELT dessine l’avenir de l’intégration des données
Dans l’ensemble, l’ELT est un puissant paradigme pour s’adapter à la taille, la vitesse et la diversité des Big Data actuellement utilisées quotidiennement dans toute l’entreprise. Il délaisse la couche intermédiaire traditionnelle de l’ELT pour pousser la préparation et la transformation des données dans les référentiels de données sous-jacents, en exploitant leurs puissances de transformation modernes. Cette approche simplifie l’architecture d’intégration, raccourcit le délai de rentabilisation, et offre le niveau de performance nécessaire pour exploiter en continu le potentiel maximum des Big Data, en particulier par rapport aux méthodes ETL traditionnelles.
Les Big Data et la diversification croissante des environnements informatiques souvent exigés sont aujourd’hui capitales. Par conséquent, les intégrations de données opportunes, durables et efficaces resteront une priorité organisationnelle absolue pendant encore longtemps. En définitive, l’ELT répond à ce problème en offrant une considérable flexibilité en termes de mise en œuvre des intégrations de données.
Parfait exemple de l’étendue des avantages de l’ELT, Talend Open Studio est employé dans de nombreux environnements de Big Data les plus populaires actuellement. Découvrez comment faire passer votre entreprise au niveau supérieur grâce à l’ELT, en téléchargeant Talend Open Studio.