Tout savoir sur la confiance des données
Pouvez-vous faire confiance aux données de votre organisation ?
La recherche sur la santé des données menée en 2021 indique que 60 % des dirigeants ne font pas toujours confiance aux données de leur entreprise. Plus d'un tiers d'entre eux ne fondent toujours pas la plupart de leurs décisions sur les données. Il s'agit d’une situation de crise touchant des organisations de tout secteur d'activité à travers le monde. Comment un décideur n'ayant pas confiance en ses données peut-il se fier à ses propres décisions ?
Commençons par examiner en quoi consistent ces données. Ces dernières années, le monde est devenu de plus en plus data-driven, saturant les réseaux des organisations d'informations. Certaines données proviennent d’applications web ou SaaS. D’autres proviennent de la saisie directe de données, extraites par exemple de formulaires web. Certaines données ne sont pas structurées, comme les publications sur les réseaux sociaux. De plus en plus de données proviennent de machines, telles que les smartphones et les appareils de l’Internet des objets (IoT). La quantité de données créées chaque année est estimée en zettaoctets. Un zettaoctet représente plus d’un milliard de téraoctets. Il s'agit d'une quantité insensée de données.
Gérer manuellement de tels volumes de données est tout simplement impensable. L'erreur est humaine. Les machines ne sont pas infaillibles. De plus, les données passent souvent par des systèmes d’information complexes, codés par plusieurs développeurs. Ceci augmente le risque d'erreurs dues à un code de mauvaise qualité.
Que signifie alors faire confiance à ses données ?
Définition de la a confiance des données
La confiance des données repose sur la certitude que les données de votre organisation sont en bonne santé et qu'elles peuvent être traduites en actions.
La confiance est l’une des clés d’une utilisation réussie de vos données. Combinée à la culture et à l‘agilité, elle mène l‘organisation vers la santé des données. En instaurant la confiance des données dans l'ensemble de l‘organisation et des départements, une entreprise donne les moyens à ses équipes de concevoir des expériences clients exceptionnelles, d‘améliorer les opérations, de rationaliser la prise de décision, d‘assurer la conformité et de stimuler l‘innovation. Mais la confiance des données se gagne et doit être quantifiée. Elle ne tombe pas du ciel. Avant de faire confiance aux données de votre organisation, vous devez prouver qu'elles peuvent produire une analytique fiable permettant de prendre des décisions éclairées.
Les critères relatifs à la qualité des données
Comment mesurez-vous la confiance des données ? La Data Management Association du Royaume-Uni définit six critères relatifs à la qualité des données :
- La précision : la mesure dans laquelle les données décrivent correctement l‘objet ou l‘événement réel
- Exemple : supposons qu’un enregistrement comptable utilise le format de date américain MM/JJ/AAAA. Les données saisies au format européen JJ/MM/AAAA peuvent entraîner le paiement d‘une facture due le 8 mai au 5 août.
- L'exhaustivité : la proportion de données stockées comparée au potentiel de complétude à 100 %
- Exemple : les valeurs vides indiquent que certaines données n’ont pas été renseignées. Un enregistrement d’adresse de 300 lignes avec 12 codes postaux manquants comprendrait des données utilisables pour 288 adresses et un taux de complétude de 288/300, soit 96 %.
- La cohérence : l‘absence de différence, lorsque l'on compare deux ou plusieurs représentations d‘un même élément par rapport à une définition
- Exemple : les équipes RH, juridique et financière d‘une même organisation utilisent-elles le même format de date, ou est-ce qu'au contraire, la même date apparaît à la fois comme 11/12/2022, 12/11/22 et 12-NOV dans les rapports générés par les différents départements ?
- Les délais d'obtention : la mesure dans laquelle les données sont à jour et donc suffisamment conformes à la réalité pour soutenir les différentes fonctions de l'activité
- Exemple : dans un champ représentant les revenus de l'entreprise, il est essentiel de disposer des données les plus récentes. Quel est le délai d'obtention de ces données ? Se mesure-t-il en minutes, en jours ou en semaines ?
- L'unicité : aucun élément ou instance d'entité n‘est enregistré plus d'une fois en fonction de la façon dont cet élément est identifié
- Exemple : la duplication de l’enregistrement d’un seul client en plusieurs entrées, telles que A. Lee, Alan R. Lee et Alan Lee, apparaissant comme trois personnes avec la même adresse et les mêmes coordonnées.
- La validitéou la conformité : le degré de conformité des données à la syntaxe (format, type ou plage) de leur définition
- Exemple : une adresse postale mentionnée comme 1 000 Integration Drive est valide, bien qu‘elle ne soit pas nécessairement exacte. Une adresse postale mentionnée comme H/*27 Integration Drive n’est pas valide.
Plus vos données répondent à chacun de ces critères pour toutes vos tables, enregistrements et champs, plus vous pouvez leur faire confiance et les utiliser pour prendre une décision. Le fait que certains enregistrements ou datasets aient un score élevé à l'un de ces critères ne signifie pas nécessairement qu'ils sont à 100 % fiables. Comme indiqué ci-dessus, vous pouvez disposer d'informations valides mais inexactes, ou exactes mais incomplètes.
Les critères les plus importants varient en fonction des besoins de l'entreprise. Par exemple, les équipes financières ont besoin d'un niveau particulièrement élevé de précision, tandis que d'autres départements peuvent accorder une plus grande importance aux délais d'obtention. Les équipes data doivent réaliser leur propre évaluation des mesures que les données doivent respecter. Elles doivent également quantifier la certification de la qualité des données pour les utilisateurs de données. Une combinaison de confiance et de transparence permet aux décideurs d'utiliser les données avec sérénité.
N'oubliez pas que la qualité des données n‘est qu‘un aspect de la confiance des données. La vision de Talend en matière de données de confiance comprend également des outils pour faciliter l‘identification des données, leur amélioration, leur vérification et leur utilisation, ainsi que des applications self-service permettant aux utilisateurs métiers des données de contrôler leurs propres données. Par exemple, si les données sont de haute qualité mais que les personnes qui en ont besoin n’y ont pas accès, ces données contribuent-elles vraiment à la confiance des données ? Quels que soient les facteurs compris dans votre évaluation de la confiance des données, il s’agit de quantifier le degré d’utilisation de vos données dans l'ensemble de l'entreprise : sont-elles utilisables pour une prise de décision ?
Le cadre de la confiance des données
Pour atteindre la confiance des données dans un monde qui croule sous une telle quantité de données, les organisations doivent mettre en œuvre et automatiser les processus d'audit, d'évaluation et de nettoyage de leurs données. Pourtant, la confiance des données ne peut pas reposer uniquement sur la technologie. Les solutions complètes de confiance des données requièrent une infrastructure de données prenant aussi bien en compte les processus humains que technologiques. Il est nécessaire de créer une culture centrée sur les données qui fonctionne de concert avec l’automatisation de la qualité des données.
L‘infrastructure pour la santé des données tirera parti des connaissances des différents métiers de l'organisation pour nettoyer les données, ainsi que d'outils sophistiqués et de l'intelligence artificielle, pour que les data engineers puissent effectuer des opérations complexes sans compétences particulières en codage. En bref, il s'agit de solutions technologiques choisies en fonction des collaborateurs qui les utilisent. La solution adaptée permettra de faciliter l'utilisation des données, leur partage, leur compréhension, et d'instaurer la confiance des données dans l'ensemble de l'organisation.
Les applications modulaires self-service de Talend ainsi que le Talend Trust Score éliminent les obstacles liés aux compétences qui empêchent d’instaurer la confiance des données au sein des différents départements. Cela est possible en impliquant les professionnels métier dans la préparation et le contrôle de qualité de leurs propres données. Notre plateforme cloud native rassemble l’intégration, l’intégrité, le stewardship et la gouvernance des données dans un environnement unique et facile d'utilisation. Cette plateforme a la particularité de simplifier tous les aspects de l'utilisation des données dans l’ensemble de votre environnement de données.
Afin de fournir un cadre pour la confiance des données au sein de n’importe quelle organisation, Talend Data Fabric propose le Talend Trust Score™, une innovation inédite sur le marché qui évalue la fiabilité de n’importe quel dataset. La confiance devient tangible, avec des normes qui fournissent des informations instantanées relatives au degré de confiance que vous pouvez accorder à vos données. Cet indicateur de mesure de la confiance des données révèle en un coup d’œil le degré auquel vos données répondent aux critères pour des données en bonne santé :
- L'exhaustivité : les données sont-elles fiables, complètes et cohérentes sur l’ensemble de vos systèmes ?
- La transparence : les données sont-elles accessibles et compréhensibles ?
- Les délais d'obtention : les données sont-elles à jour et facilement accessibles aux personnes qui en ont besoin ?
- La traçabilité : les données précisent-elles leur provenance et la façon dont elles ont été utilisées ?
- Le contrôle : vos données ont-elles été notées et certifiées par d’autres utilisateurs ?
Grâce à un accès ouvert à des données complètes et fiables, les utilisateurs finaux peuvent prendre de meilleures décisions en toute confiance. Les équipes de data science et d’analytique ainsi que les citizen analysts bénéficient d’une image complète de l’activité. Ils peuvent vérifier les données qu’ils utilisent et s'y fier pour obtenir de meilleurs insights ainsi que des recommandations stratégiques opportunes, et prendre des décisions en toute confiance. En plus des avantages mentionnés, la confiance des données contribue également à améliorer la relation entre les métiers et les départements IT.
Études de cas portant sur la confiance des données
Pour comprendre l’importance de la confiance des données, il est utile de la découvrir en pratique. Les études de cas suivantes illustrent des cas d’usage courants dans un large éventail d'organisations, qu'il s'agisse d'entreprises privées ou d'institutions publiques.
Beneva : instaurer la confiance des données pour mieux servir et fidéliser trois millions de clients
Beneva (auparavant SSQ Insurance) est la plus grande mutuelle d’assurance au Canada. Elle compte trois millions de clients et propose une gamme complète de produits d’assurance et de placement. Comme cela peut se produire après 75 ans d‘activité, l‘entreprise a constaté que ses systèmes de données étaient devenus trop complexes et cloisonnés pour permettre une utilisation efficace des données clients.
Alors que les clients du secteur financier et de l'assurance s'attendent à un haut niveau de personnalisation, les collaborateurs des différents métiers ne pouvaient pas accéder aux données clients. « Si vous nous contactiez au sujet d'un autre produit, c'était comme si nous ne vous connaissions pas du tout », explique Simon Latouche, Director of Data Engineering chez Beneva.
Pour placer les données en bonne santé au cœur de son activité et optimiser le partage de données, Beneva a créé un portail client unifié. Ce portail enregistre automatiquement les opérations des clients et les modules Data Quality et Data Stewardship de Talend veillent à la fiabilité des données. Désormais, les collaborateurs ont accès à des données clients complètes et de confiance. Par conséquent, les centres d'appels peuvent aider les clients plus efficacement et les responsables marketing peuvent personnaliser leurs campagnes à l‘aide de modèles prédictifs. Beneva a ainsi été en mesure de tripler ses taux de conversions lors d'initiatives de reconquête des clients.
Aeroporti Di Roma : analyser les données de 48,8 millions de voyageurs en conformité avec le RGPD
Aeroporti Di Roma (ADR) est chargé de la gestion et du développement des aéroports Roma Fiumicino (Leonardo da Vinci) et Ciampino. Près de 100 compagnies aériennes opèrent depuis ces aéroports, transportant des passagers vers plus de 230 destinations dans le monde.
ADR sait combien les données de confiance sont essentielles pour comprendre et anticiper rapidement les comportements des clients. ADR mesure également sa responsabilité dans la protection des données personnelles de clients. Afin d'améliorer le partage de données tout en assurant la protection des données personnelles, ADR et ses partenaires ont conçu une plateforme Big Data Analytics s'appuyant sur Cloudera pour le data lake et Talend Big Data pour le moteur d'ingestion. Pietro Caminiti, Head of IT Solutions pour Aeroporti Di Roma SpA, rapporte d'excellents résultats : « Avec Talend, nous pouvons analyser d'importants volumes de données afin d'extraire des informations stratégiques par le biais d‘algorithmes statistiques avancés, tout en nous conformant aux normes du Règlement général sur la protection des données (RGPD). »
« Nous avons amélioré notre efficacité opérationnelle et l'expérience de nos 48,8 millions de passagers », explique Pietro Caminiti. « Nous avons été reconnus comme l'aéroport numéro un en Europe pour le transport de plus de 40 millions de passagers par an, selon le programme mondial de qualité des services aéroportuaires d'ACI World. »
Wolters Kluwer Health : améliorer la prise de décision
Wolters Kluwer est un fournisseur mondial de documentation, de logiciels, de solutions et de services professionnels pour le secteur de la santé. Lorsque la demande en matière de données de confiance menaçait de surcharger la capacité de l'équipe de Business Intelligence (BI), l'entreprise a lancé une initiative innovante appelée « Citizen Analyst » visant à démocratiser l'utilisation des données.
Talend a réussi à conjuguer la modularité, l'évolutivité, la simplicité, la rentabilité et la prise en charge d‘une qualité de données extrêmement élevée dont Wolters Kluwer Health avait besoin pour atteindre les objectifs immédiats et la vision à long terme qui accompagnent cette initiative. L'adoption de la solution Talend a permis à l'équipe BI d'économiser des millions de dollars et d'utiliser une analytique prédictive avancée ainsi que l‘IA pour identifier de nouveaux modèles de données facilitant la prise de décision.
L‘initiative Citizen Analyst a permis au personnel non technique d'effectuer sa propre analyse de données à l'aide d'interfaces simples, d'outils faciles à utiliser et de données de haute qualité, le tout intégré par Talend, afin d‘améliorer les soins aux patients et la prise de décision.
« Nous créons une culture de la curiosité », explique Kevin Ryan, Director of Business Intelligence chez Wolters Kluwer Health. « Il s‘agit d'un changement culturel, mais c‘est un changement auquel les collaborateurs adhèrent parce que tout le monde y gagne. Les équipes produits obtiennent des insights plus rapidement, elles sont moins dépendantes de l’équipe BI, elles peuvent partager les résultats avec les responsables métiers et obtenir leur adhésion plus rapidement. En résultent de meilleurs produits et services, qui profitent aux médecins comme aux patients. »
Essayez nos solutions de confiance des données
Les données fiables bénéficient à tous les membres de l'organisation. Ils ont la certitude de baser leurs décisions sur une vision exhaustive, précise et actuelle du monde réel. Lorsque vos décisions sont fondées sur des données de confiance, elles sont plus susceptibles de mener à de meilleurs résultats, à des revenus plus élevés et à une croissance accrue.
Avez-vous confiance en la qualité des données de votre organisation ? Vous posez-vous des questions sur la précision, l'exhaustivité et les délais d'obtention de vos données ? Talend peut vous aider. Exportez un sous-ensemble de vos données et soumettez-le au Talend Trust Assessor. Cet outil gratuit vous donne accès à notre technologie Trust Score™. Vous recevrez un bref rapport comprenant des retours sur la validité, l'exhaustivité et l'unicité de vos données. Vous pouvez également le tester avec notre dataset type pour mieux appréhender son fonctionnement. Considérez ceci comme la première étape de votre parcours vers la santé des données.