ETL dans le cloud : ce que ces changements signifient pour vous
Depuis la création des big data, le processus ETL (extraire, transformer, charger) est le moteur qui injecte les informations dans les réseaux d’entreprises. Aujourd’hui, l’ETL basé dans le cloud est un outil essentiel pour gérer de grands ensembles de données, et les entreprises y auront recours de plus en plus à l’avenir. La raison en est simple : dans le contexte actuel de concurrence, les données sont comme le sang - si vous en manquez, vous mourez.
ETL - Une brève présentation
L’ETL est la norme mondiale pour le traitement de données en masse. L’ETL répartit ce processus sur un ensemble de processeurs liés qui fonctionnent dans un cadre commun (par exemple Apache Hadoop). Le processus ETL comprend trois fonctions distinctes :
- Extraction. Lors de la phase d’extraction, les données brutes sont extraites d’une variété de sources, y compris des bases de données, des outils de réseau, du matériel de sécurité et des applications logicielles, entre autres. Ces données affluent dans les réseaux numériques et sont recueillies pratiquement en temps réel.
- Transformation. Lors de la phase de transformation du processus ETL, des flux d’informations sont canalisés sous forme de données exploitables pour les entreprises. Parallèlement, le moteur ETL réduit le volume des données en détectant et éliminant les doublons. Les données sont alors normalisées et formatées pour une utilisation et/ou analyse ultérieure. Enfin, les données sont triées et vérifiées avant de passer à l’étape suivante.
- Chargement. La dernière étape du processus ETL consiste à déposer les données dans les emplacements souhaités. Ces emplacements incluent les outils d’analyse, les bases ou les lacs de données, les serveurs de réseau à froid, parmi les différentes utilisations possibles.
En quelque sorte, l’ETL existe depuis très longtemps. Toutefois, son utilisation dans la transformation des données brutes en veille économique n'a pas simplement évolué au fil du temps. Elle a également contribué à tracer la voie à la technologie cloud.
ETL traditionnel - Collecte locale
Avant l’arrivée de la fibre optique et le développement des ressources cloud à l’échelle mondiale, les processus ETL étaient gérés localement. Imaginez une vaste salle informatique bruyante contenant des rangées d’ordinateurs et d’armoires de serveurs, arpentée par un ou deux techniciens vérifiant les connexions.
À la fin des années 1970, la valeur des bases de données a grimpé en flèche avec la démocratisation des outils utilisés pour normaliser (ou transformer) les données en formats courants. On peut citer parmi les projets ETL les plus importants de cette époque :
- les installations de recherche partageant de grands volumes de données scientifiques ;
- les premières collaborations de ce qui est devenu le World Wide Web, précurseur de l’internet moderne ;
- la normalisation d’un protocole de communications (TCP/IP), dont la majeure partie des données et télécommunications modernes représentent une évolution ;
- l’ancêtre des technologies numériques modernes de marketing qui agrègent les données des consommateurs et ciblent des tranches de population spécifiques avec leurs publicités.
Dans l’histoire de l’ETL, ce processus a longtemps été opéré localement, ou physiquement, à proximité des scientifiques et analystes qui l’employaient. Les données affluaient dans des installations sécurisées via un système de câbles, avant d’être extraites au moyen d’algorithmes simples. Les données étaient alors transformées en un format normalisé ou « propre », et chargées dans des bases de données où des humains pouvaient les manipuler et en tirer des informations.
Nombre des options technologiques et de communication que nous connaissons aujourd’hui dérivent de cette approche. Malgré son importance, l’ETL traditionnel présentait des contraintes majeures. Avant le développement de la miniaturisation, le processus ETL lui-même et les besoins considérables en matière de stockage représentaient un coût prohibitif. De plus, la conservation de l’ensemble de ces données précieuses en un seul endroit présentait le risque supplémentaire d’une perte désastreuse en cas de catastrophe naturelle, de vol ou de défaillance technologique.
Passons maintenant en 2018. Les options économiques de stockage des données, les réseaux de la fibre et les processeurs toujours plus rapides apportent trois garanties en termes de données :
- La quantité de données circulant entre les entreprises modernes continuera d’augmenter de façon exponentielle.
- Les données prendront toujours plus de valeur.
- La puissance informatique requise pour traiter toutes ces données - et le problème d’une juste utilisation commerciale de celles-ci - signifie que l’ETL basé dans le cloud jouera un rôle crucial pour les big data de demain.
La transition vers le cloud
Au fur et à mesure que les réseaux nationaux et internationaux gagnaient en vitesse et capacité, le besoin de stocker des données en masse dans des installations locales faiblissait.
Le technologue Brian Patrick Eha a retracé l’évolution de la vitesse de l’internet et de l’impact du cloud sur le transfert de données. Selon lui, une ligne relativement rapide de transmission de données pouvait en 1984 atteindre des vitesses de transfert de 50 kilobits par seconde (Kbs). En 2013, cette vitesse de transfert atteignait jusqu’à 1 gigaoctet par seconde pour les connexions par fibre optique disponibles sur le marché. Ce changement radical de vitesse et la prolifération de dispositifs de stockage économiques et remplaçables, ont été les vecteurs de la transformation de l’ETL d’un processus local, coûteux et encombrant à l’ETL basé dans le cloud que nous connaissons aujourd’hui.
Selon un rapport IDG datant de 2018, environ trois quarts des entreprises travaillent aujourd’hui partiellement ou intégralement dans le cloud, et ce chiffre dépassera les 90 pour cent d’ici 2020.
L’ETL cloud
Aujourd’hui, les processus ETL ont lieu dans le cloud, à l’instar de technologies telles que le développement d’applications, l’e-commerce et la sécurité informatique. L’ETL natif cloud suit le processus habituel en trois étapes, mais celles-ci ne se passent plus de la même manière.
Le cadre Apache Hadoop est devenu la voie de développement de l’ETL basé dans le cloud. Hadoop répartit les processus informatiques, ce qui signifie que les données provenant de sources divergentes peuvent être extraites à distance, transformées via un réseau de ressources informatiques, puis transformées en vue d’une analyse locale.
L’ETL natif cloud s’appuie sur des clusters informatiques partagés. Ceux-ci peuvent être répartis dans le monde entier. Mais grâce à Hadoop, ils fonctionnent comme des entités individuelles logiques qui se partagent des tâches informatiques de grande envergure. Les tâches ETL, autrefois exécutées dans le bureau voisin ou au sous-sol, se retrouvent désormais traitées par des clusters disséminés via des interfaces cloud.
Le plus remarquable, c’est que tout cela se passe à une échelle et vitesse plus grandes que l’ETL traditionnel sur site. Les entreprises utilisant toujours un ETL sur site ou dans un environnement hybride prennent déjà du retard dans une catégorie concurrentielle primordiale : la vitesse.
Ce processus cloud génère des écrans d’analyse bien connus des professionnels de l’ETL traditionnel, qui peuvent utiliser des outils fiables pour chercher et extraire les données comme ils le faisaient il y a quelques années. L’Apache Software Foundation est la plus importante communauté open-source au monde en matière de développement et de support ETL et des outils permettant à l’homme d'en bénéficier.
Cependant, le volume considérable des ensembles de données en jeu aujourd’hui, et leur rythme de croissance continue, posent de nouveaux problèmes dès lors qu’il s’agit d’obtenir une veille économique utile et hautement personnalisée à partir d’outils ETL traditionnels. De plus en plus d’entreprises se tournent vers les plateformes de gestion des données pour répondre à leurs besoins ETL spécifiques.
Ce processus cloud génère des écrans d’analyse bien connus des professionnels de l’ETL traditionnel, qui peuvent utiliser des outils fiables pour chercher et extraire les données comme ils le faisaient il y a quelques années. L’Apache Software Foundation est la plus importante communauté open-source au monde en matière de développement et de support ETL et des outils permettant à l’homme d'en bénéficier.
Cependant, le volume considérable des ensembles de données en jeu aujourd’hui, et leur rythme de croissance continue, posent de nouveaux problèmes dès lors qu’il s’agit d’obtenir une veille économique utile et hautement personnalisée à partir d’outils ETL traditionnels. De plus en plus d’entreprises se tournent vers les plateformes de gestion des données pour répondre à leurs besoins ETL spécifiques.
Talend : la solution intégrée pour l’ETL cloud
Depuis 2005, Talend aide des organisations de premier plan à résoudre leurs problèmes d’ETL et d’intégration des données en offrant des solutions hébergées et conviviales. Grâce à Talend Open Studio for Data Integration et Talend Data Management Platform, les développeurs et analystes peuvent travailler avec un nombre quasi infini d’ensembles de données dans n’importe quel format courant pour exploiter au mieux la puissance de l’ETL et des autres technologies dont dépendent les entreprises modernes utilisant le cloud.
Mais loin d’être un terrain de jeux pour geeks, Talend met un ETL gérable en temps réel et ses tâches connexes à la disposition des utilisateurs qui dépendent de la veille économique actuellement reconnue pour prendre des décisions éclairées. De la vente à l’expédition, en passant par le service à la clientèle, les interactions commerciales modernes doivent être rapides, efficaces et économiques. Talend permet de livrer les données nécessaires aux bonnes personnes, un atout majeur pour n’importe quelle organisation.
La suite de solutions Talend pour big data résout l’un des soucis les plus courants des organisations : la pénurie de développeurs qualifiés. Avec Talend, des processus automatisés et lancés sur l’interface utilisateur graphique réduisent les besoins en codage manuel à des cas particuliers, pour une gestion ETL et une extraction des données plus rapide et plus efficace.
Plus important, la plateforme open source Talend continue de s’adapter à la vitesse des big data, et fait en sorte que même les besoins les plus exigeants et les plus spécifiques en matière de données soient satisfaits avec une relative facilité.
Essayez-la gratuitement dès aujourd’hui et découvrez pourquoi des organisations parmi les plus prospères du monde ont choisi Talend pour affranchir leurs données des infrastructures existantes grâce à une plateforme d’intégration ETL développée pour le cloud.