Intégration de données dans un environnement AWS
Les solutions IaaS (infrastructure en tant que service), dont Amazon Web Services (AWS) est l'une des plus connues, sont de plus en plus plébiscitées par les entreprises et les organisations qui souhaitent simplifier leurs architectures de données et maîtriser leurs coûts. Leur succès peut s'expliquer très simplement : les IaaS permettent aux entreprises de n'acheter à un hébergeur que les ressources de calcul, l'espace de stockage et la réseautique dont elles ont besoin.
AWS représente désormais 40 % du marché mondial des IaaS et est utilisé par des entreprises et des organisations de tous les secteurs. Mais, pour ceux qui souhaitent migrer vers une plateforme AWS, savoir comment gérer la complexité des processus d'intégration des données constitue un véritable obstacle. Avec les bonnes informations et les bons outils, n'importe qui peut s'atteler à un projet d'intégration de données dans AWS.
Dans cet article, nous étudions les principes fondamentaux d’ETL et de l'intégration des données dans un environnement AWS et considérons les facteurs que vous devrez prendre en compte lors de la planification de votre stratégie d'intégration à AWS.
Qu'est-ce qu'AWS ?
En 2006, Amazon Web Services (AWS) a lancé deux produits phares : Simple Storage Service (S3) et Elastic Compute Cloud (EC2). Depuis, AWS a élargi la portée, la profondeur et le nombre de ses produits jusqu'à devenir une immense plateforme cloud spécialisée dans la fourniture d'infrastructures en tant que service (IaaS) aux entreprises qui forment sa clientèle. Selon un rapport du Synergy Research Group, AWS détient actuellement 40 % du marché mondial des IaaS.
La plateforme AWS propose une large gamme de produits tels que des outils de sécurité, d'analytique et de développement. AWS offre également des services plus spécialisés tels que la conception de jeux, la réalité virtuelle et le machine learning. Compte tenu de la taille de cette plateforme, de plus en plus d'entreprises optent pour l'intégration à AWS. Pour nombre d'entre elles, la question n'est pas de savoir si elles feront ce choix, mais bien quand elles le feront. La première étape pour élaborer une stratégie d'intégration à AWS consiste à comprendre le fonctionnement du processus et ce qui sera nécessaire à la mise en œuvre de l'intégration.
ETL avec AWS
L'un des processus d'intégration de données les plus répandus est ETL (Extract, Transform, Load). Il extrait les données de leur source, les configure dans un format utilisable, puis les transmet à une destination cible. Cette configuration des données, appelée processus de transformation des données, implique de trier, filtrer, agréger, mettre en correspondance, nettoyer et enrichir les données de façon à ce qu'elles soient prêtes à être utilisées dès leur arrivée à destination.
Il existe différents outils et stratégies pour exécuter ETL avec AWS. Les développeurs peuvent en automatiser entièrement certains, d'autres nécessitent des saisies manuelles et d’autres encore combinent des processus automatisés et manuels. Chaque méthode a ses propres spécificités : facilité d'utilisation, durée d'exécution, reproductibilité et complexité des données qu'elle peut gérer. Ceci est tout particulièrement vrai pour la phase de transformation d'ETL, au cours de laquelle certains outils ou méthodes s'appuient sur le processus laborieux du codage en dur.
Pour identifier les outils ETL adaptés aux intégrations à AWS, il est très important de prendre deux éléments en compte :
- Votre outil ETL doit avoir la capacité de lire le schéma de la base de données source, de cataloguer les données et de préparer automatiquement les requêtes pour pouvoir transformer les données en data warehouse AWS.
- Votre outil doit également pouvoir créer, configurer et exécuter des jobs ETL automatisés. (Ce point est important parce que les processus ETL sont rarement un événement isolé unique. Il est par conséquent crucial d'utiliser un outil ETL pouvant offrir une intégration continue à AWS et/ou créer un code réutilisable pour éviter d'avoir à tout reprendre depuis le début chaque fois que vous devez exécuter un job ETL.)
Outils d'intégration
L'intégration des données ne consiste pas seulement à migrer des données d'une base de données à une autre. Ce processus permet également de rationaliser les workflows et de configurer les communications entre les systèmes et les composants. En définitive, c'est l’ensemble du processus d'intégration (et pas seulement la migration des données) qui vous permet de valoriser vos données. En plus de gérer la migration des données, les outils d'intégration de données vous permettent :
- d'intégrer à AWS les workflows de plusieurs systèmes ;
- de rendre les workflows d'intégration sous-jacents réutilisables et facilement accessibles ;
- de faciliter la planification et la gestion des jobs ;
- de définir un référentiel unique.
Pour la plupart des entreprises et des organisations, une solution d'intégration des données dans le cloud globale est l'option la plus efficace et la plus rentable. Cette approche intègre parfaitement AWS à votre feuille de route de données et vous offre tous les outils dont vous avez besoin pour des tâches supplémentaires, telles que l'analytique cloud, la qualité des données et la diffusion en temps réel. Et, avec une plateforme qui gère toutes ces tâches, vous simplifierez le travail de vos développeurs et créerez de la valeur pour votre entreprise.
Qu'attendre de votre data warehouse AWS
Maintenant que nous avons étudié les principes fondamentaux de l'intégration des données à AWS, regardons d'un peu plus près certaines des raisons pour lesquelles AWS a pris une telle importance dans le paysage informatique. Grâce à son vaste écosystème et à son large éventail de fonctions, AWS est devenu un choix incontournable pour de nombreuses entreprises et organisations mais c'est sa fonctionnalité en contexte réel qui plaide en faveur de la plupart des intégrations à AWS. Afin d'expliquer pourquoi la plupart des entreprises font d'une intégration à AWS une priorité absolue, il est utile d'examiner de plus près deux scénarios qui mettent en lumière certains des avantages que présente cette intégration.
Des déploiements élastiques pour une efficacité améliorée
De nombreuses entreprises s'appuient sur des serveurs sur site locaux pour transmettre les mises à jour de données à des clusters EMR et RedShift dans le cloud. Pour garantir que les données seront transmises au fur et à mesure des mises à jour, ces clusters sont autorisés à s'exécuter de façon continue, ce qui consomme de l'énergie et entraîne des coûts même pendant les périodes d'inactivité.
Autre approche possible : activer les cluster uniquement en fonction des besoins. L'utilisation d'une plateforme d'intégration des données pour se connecter à AWS permet de configurer les fonctions de démarrage et d'arrêt de façon à gérer un job unique ou des jobs périodiques exécutés automatiquement à des intervalles spécifiés. Cette infrastructure à la demande peut être déployée en quelques minutes à peine afin que les jobs ne s'exécutent que lorsqu'ils sont nécessaires et s'arrêtent une fois la mise à jour terminée. Dès lors, les entreprises ne paient que la durée réelle d'activation des clusters.
Des intégrations de données hybrides pour éviter toute perturbation
Une fois que votre entreprise ou votre organisation aura décidé de migrer ses données dans le cloud, elle devra se poser une question importante : comment conserver son data warehouse actuel jusqu'à la fin du processus d'intégration ? En utilisant AWS Redshift en association avec votre data warehouse on-premise, vous pouvez créer une solution de stockage de données hybride qui réduit les coûts et améliore l'agilité, le tout sans perturber vos opérations. Votre outil d'intégration des données doit comporter des connecteurs qui vous permettent de migrer vos données avec AWS Redshift de manière fluide, prévisible et sécurisée.
La plupart des solutions cloud offrent une capacité d'intégration hybride, et un outil d'intégration de données complet doit comprendre un éventail de connecteurs pour mener à bon terme vos jobs de migration de données, indépendamment de l'emplacement de stockage de ces dernières.
Exemples d'intégration des données à l'œuvre
Jusqu'ici, nous avons étudié le processus d'intégration à AWS, ainsi que certaines des raisons pour lesquelles les entreprises décident de migrer leurs données. Nous avons également étudié le processus d'intégration des données et la façon dont des outils d'intégration de données adaptés peuvent garantir une transition en douceur et une amélioration de l'efficacité. Mais en quoi consiste le processus d'intégration des données pour une entreprise bien réelle confrontée à de véritables défis ? Voici deux exemples :
L'intégration à AWS permet de réduire les coûts de 75 %
Accolade, une société spécialisée dans la santé, avait accès à des montagnes de données et souhaitait les utiliser pour recommander des services personnalisés à ses clients et rationaliser ses opérations. Une grande partie des données était cloisonnée dans des systèmes hérités mais Accolade savait que, pour en tirer le meilleur parti, elles devaient être transformées, migrées et intégrées. L'entreprise avait besoin d'une solution complète pouvant faire correspondre les données, les déchiffrer et les profiler avant de les migrer dans un data lake en vue de leur intégration à AWS.
En connectant l'ensemble de ses données à Talend Big Data Integration, Accolade a pu utiliser AWS Redshift, S3 et EMR pour améliorer le rendement et prendre mieux soin de ses patients. En enrichissant ses données et en leur appliquant l'analytique cloud, Accolade a pu réduire les dépenses de santé de ses patients de 5 à 8 % par an et les coûts de son processus d'intégration des patients de 75 %.
Un accès à l'éducation amélioré grâce à l'intégration des données
L'Université de Pennsylvanie offre à un plus grand nombre d'étudiants un accès à une éducation de qualité grâce à sa politique d'aide financière sans prêt, qui leur permet d'éviter de contracter de lourdes dettes au cours de leurs études. Pour pouvoir mener à bien cette politique, l'Université s'appuie sur un vaste réseau de 300 000 donateurs actifs.
Elle a été confrontée à deux difficultés. D'une part, elle devait intégrer dans un seul emplacement des données provenant de plusieurs systèmes CMR. D'autre part, elle souhaitait s'assurer qu'elle tirerait parti de toutes les mesures d'économie possible, y compris l'évolutivité et un déploiement élastique. Avec Talend Cloud, l'Université de Pennsylvanie a pu intégrer des données provenant de plusieurs sources et en extraire des informations se traduisant par une amélioration des relations avec ses mécènes. Résultat : une hausse de 7 % du nombre de dons et un accroissement des recettes de 18 %.
En route vers une intégration à AWS
La planification et l'exécution d'une stratégie d'intégration à AWS peuvent sembler ardues mais ce n'est pas une fatalité. Avec les bons outils d'intégration et les bonnes informations, n'importe qui peut mettre en œuvre un projet d'intégration de manière rapide et sûre.
La plateforme Talend Cloud Integration vous aide à gérer vos intégrations on-premise, cloud et hybrides à AWS. Des outils graphiques puissants, des modèles d'intégration et plus de 900 composants sont à votre disposition pour garantir le succès de votre intégration.
Téléchargez une version d'essai gratuite pour accéder à tous les éléments dont vous avez besoin pour passer à AWS dès aujourd'hui.