Tout savoir sur la santé des données
Les entreprises du monde entier comptent plus que jamais sur les données. Cependant, il existe une différence entre être entouré de données au quotidien et utiliser ces données pour prendre des décisions commerciales. La seule façon d'atteindre les objectifs stratégiques de votre entreprise consiste à prendre des mesures basées sur des données fiables et de haute qualité. En un mot, sur des données en bonne santé. Nous vivons à l'ère du Big Data : plus une entreprise gère de données, plus il peut s'avérer difficile pour elle d'en préserver la santé.
La plupart des gens savent intuitivement que des données en bonne santé doivent être exactes, complètes et conformes aux exigences légales et règlementaires. Malheureusement, ces facteurs ne suffisent pas à garantir que ces données sont exploitables/prêtes à l’emploi pour prendre des décisions au sein de l’entreprise. La plupart des entreprises sont incapables d’évaluer l’état de santé de leurs données. S’appuyer sur de telles données est tout simplement insensé. Une partie du problème réside dans le fait que même si les gens pensent comprendre ce que signifie la santé des données, ils ont du mal à la définir ou à l'évaluer.
Commençons par une définition claire de la santé des données.
Santé des données : définition
La santé des données décrit l'état des données d'une entreprise et la manière dont elles l’aident à prendre des décisions efficaces et en temps opportun et à atteindre ses objectifs. Pour savoir si les données de votre entreprise sont en bonne santé, vous devez être en mesure de prouver qu'elles sont valides, complètes et de qualité suffisante pour produire des analyses sur lesquelles les décideurs peuvent s'appuyer afin de prendre des décisions commerciales en toute confiance.
La vision de Talend en matière de santé des données allie technologies et comportements pour évaluer et gérer les données afin d'améliorer leur visibilité, leur compréhension et leur valeur. Des données en bonne santé permettent à tous les membres de l'entreprise d'accéder aux informations dont ils ont besoin, quand ils en ont besoin et de les utiliser sans questionner leur validité.
Comme tout système de santé, la santé des données implique de mettre en place des capacités de monitoring et d'intervention tout au long de leur cycle de vie. Nous envisageons la santé des données selon trois piliers :
- Des soins préventifs : identification préventive des défis liés aux données
- Des traitements efficaces : amélioration systématique de la fiabilité des données et diminution des risques
- Une culture de soutien : mise en place d'une discipline partagée de soins des données
Grâce à des indicateurs de santé des données qui prouvent la valeur commerciale de ces dernières, une entreprise peut agir positivement sur presque tous les aspects de ses opérations :
- Améliorer l'analytique des ventes et du marketing
- Répondre aux problématiques de gouvernance et de conformité des données
- Optimiser les processus d'entreprise
- Transformer l'expérience client
- Favoriser un engagement à 360 degrés
- Faciliter le machine learning et l'IA
En l’absence de données en bonne santé, tout cela est mis en péril. Vous ne pouvez pas cibler les bons clients, raccourcir les cycles de vente ou améliorer les processus si les données disponibles sur lesquelles votre travail repose sont inexactes, non contrôlées ou obsolètes. Une mauvaise santé des données s'avère coûteuse, tant en matière de temps que de qualité pour les entreprises dans leur prise de décisions, ce qui augmente les coûts et peut avoir un impact négatif sur les résultats financiers. À mesure que vous évoluez vers le Big Data, la santé des données revêt une importance croissante. Il est essentiel pour les entreprises qui travaillent avec le Big Data d'établir des indicateurs de santé.
Comment savoir si vos données sont en bonne santé ?
Mesurer la santé des données
La qualité des données est une considération majeure pour la santé des données. L'association Data Management Association of the UK définit six facteurs pour mesurer la qualité des données :
- La précision : le degré selon lequel les données décrivent correctement l'objet réel ou l'évènement décrit
- Exemple : les calculs des salaires des collaborateurs sont-ils basés sur leurs heures de travail réelles ?
- L'exhaustivité : la proportion de données stockées dans un dataset par rapport au potentiel de 100 %
- Exemple : les enregistrements d'adresses contiennent-ils des données dans tous les champs d'adresse nécessaires pour envoyer un courrier postal vers sa destination ? Code postal complet ? Nom du pays ?
- La cohérence : l'absence de différence, lorsque l'on compare deux ou plusieurs représentations d'une chose par rapport à une définition donnée
- Exemple : un tableau contient-il des données caractérisées comme appartenant à une division particulière, même si cette division a été supprimée après une réorganisation ?
- Les délais : le degré de représentation des données par rapport à une échéance précise
- Exemple : si les décisions budgétaires sont prises sur la base des statistiques de vente, à quelle vitesse les données de vente sont-elles mises à la disposition des décideurs ?
- L'unicité : aucun élément, ou instance d'entité, n'est enregistré plus d'une fois en fonction de la façon dont cet élément est identifié
- Exemple : lorsqu'un système met à jour un enregistrement, pouvez-vous être sûr qu'il ne crée pas un double de l'enregistrement original avec des informations plus récentes ?
- La validité ou la conformité : le degré de conformité des données à la syntaxe (format, type ou plage) de leur définition
- Exemple : une adresse postale « 1000 Data Way » est valide (mais pas nécessairement exacte), tandis qu'une adresse « /03H8 Data Way » n'est pas valide.
Les équipes chargées des données doivent évaluer elles-mêmes le niveau de qualité des données nécessaire pour s'assurer de la bonne santé des données. Elles doivent être en mesure de certifier ce niveau de qualité aux utilisateurs des données, afin qu'ils puissent à leur tour s'appuyer sur ces données en toute confiance. N'oubliez pas, cependant, que des données en bonne santé mais non disponibles ou non fiables ne peuvent pas étayer des décisions d'entreprise. Elles ne peuvent pas être qualifiées de données en bonne santé.
La santé des données étant une mesure de la valeur de ces dernières pour l'entreprise, la transparence et l'accessibilité sont aussi importantes que la qualité. Si les décideurs n'ont pas un accès facile aux données dont ils ont besoin, il est possible que l'entreprise ne dispose pas de ces données. D'autre part, la confidentialité des données portant sur des informations personnelles identifiables (PII) peut s'appliquer. Dans ce cas, il sera préférable d'isoler certaines données des utilisateurs non privilégiés. Une solide plateforme technologique de gouvernance des données, dans laquelle sont désignés des experts internes compétents pour être les data stewards, peut contribuer à améliorer l'exactitude et la sécurité de vos données.
Dans votre entreprise, les indicateurs de mesure de la santé des données peuvent inclure des facteurs supplémentaires tels que l'utilisation raisonnable et l'intégrité. Quelles que soient les dimensions que vous prenez en considération, l'objectif est de pouvoir compter sur l'utilité de vos données dans toute l'entreprise. Plus vous pouvez évaluer vos données dans chacune de ces dimensions, plus vous pouvez les considérer comme en bonne santé.
Évaluation de la santé des données
À partir du moment où vous savez quoi mesurer, comment évaluer l’état de santé de vos données ?
Un système de santé des données global repose sur des indicateurs universels de qualité des données. Des indicateurs standard permettent d’évaluer la fiabilité des données et de déterminer si elles sont exploitables ou non. Comme évoqué plus haut, que ceux qui préparent les données aient l’assurance de leur qualité n’est pas suffisant. Pour que les utilisateurs finaux aient pleinement confiance dans leurs décisions, ils doivent pouvoir disposer d’indicateurs démontrant leur qualité.
L'enquête sur la santé des données menée en 2021 par Talend a révélé que moins de la moitié des dirigeants certifient que leur entreprise utilise des normes de qualité des données. Environ un tiers des dirigeants déclarent qu'aucune norme documentée n'est mise en place, et 19 % d'entre eux affirment ne pas en être sûrs. 95 % des dirigeants déclarent être en faveur de normes universelles et intersectorielles en matière de qualité des données.
Compte tenu du volume de données que votre entreprise gère probablement via des plateformes SaaS, des bases de données et des serveurs web publics, il est impossible de demander à quelqu'un d'examiner chaque enregistrement dans tous vos datasets. La meilleure approche consiste à recourir à une plateforme de données qui comprend à la fois des capacités d'intégration et de gouvernance des données.
Elle doit vous permettre à la fois d’obtenir une interprétation de l'état de santé des données et de traiter les données en mauvaise santé. Idéalement, vous devriez être en mesure d'obtenir un insight instantané indiquant les données de confiance et de disposer d'outils pour corriger les données non fiables. Afin de répondre aux problèmes de santé des données, la plateforme doit offrir un accès en libre-service, disposer d’outils de qualité des données omniprésents et de fonctionnalités de gouvernance qui couvrent tous les flux et sources de données de bout en bout.
Vos données sont-elles en bonne santé ?
Avez-vous confiance dans la capacité de votre entreprise à fournir des données facilitant la prise de décisions ? Vous vous interrogez sur les statistiques concernant la santé de vos données ? Talend peut vous aider. Commencez par un check-up gratuit : exportez un sous-ensemble de vos données et passez-le au crible grâce à notre Talend Trust Assessor. Ce service gratuit fournit une évaluation rapide de la validité, de l'exhaustivité et de l'unicité de vos données. Si vous souhaitez simplement le découvrir, testez-le pour commencer avec notre dataset type.