Dark Data : le guide complet par Talend
Le Big Data désigne un immense volume de données intrinsèque aux activités d’une entreprise. Il est devenu tellement massif qu’il est impossible pour un humain de pouvoir le traiter ou l’analyser. Toutes ces données ne sont pas pertinentes et sont alors jugées non essentielles avant d’être oubliées. C’est ainsi qu’une entreprise se retrouve avec un important volume de données non exploité dans l’ombre de ses serveurs informatiques. Découvrez les Dark Data.
Qu’est-ce qu’une dark data ?
Si l’expression Dark peut impressionner, dans le cas des Dark Data, elle n’a rien à voir avec une activité malveillante liée aux données d’une entreprise.
Définition des Dark Data
Les Dark Data ou données sombres en français, représentent les ensembles d’informations que les entreprises collectent, traitent et stockent provenant de sources qui génèrent des données de façon automatique, mais qui ne sont pas réutilisées. Ces données incomplètes sont alors omises visuellement par une entreprise. Il peut notamment s’agir de documents papiers, de photos, de vidéos, de méta data ou d’informations négligées car elles ne semblent pas essentielles à première vue.
Exemple de Dark Data en entreprise
En entreprise, les Dark Data peuvent s’assimiler à des données collectées dans le cadre d’un projet abandonné ou de données répondant à des conditions de conformité réglementaire qui n’ont pas été supprimées dans les délais légaux légiférés par la CNIL. L’envoi d’e-mails et l’abondance de fichiers peuvent prendre part à ce gaspillage en ayant un effet boule de neige.
Dans le cas d’une entreprise possédant un site Internet, les Dark Data s'apparenteraient aux logs du serveur simplement stockées à défaut d’être exploités.
La gouvernance des Dark Data en entreprise
À l’heure de l’essor du Big Data et du data mining, les organisations peinent à tirer profit d’un maximum de données. Elles ont alors souvent recours à plusieurs solutions de stockage pour sauvegarder la data collectée.
Dans le cas de la Dark Data, l’extensibilité du Cloud encourage l’accumulation de données sans limite. Cela incite les entreprises à amasser des quantités exponentielles de données, ce qui peut leur faire défaut sur le long terme.
La part d’ombre des Dark Data
Selon plusieurs études (IBM, Veritas), 85 à 90% des données collectées par les entreprises seraient des Dark Data. La non-exploitation et la sauvegarde de données de type Dark Data peuvent poser de nombreux problèmes pour une organisation.
Les Dark Data évoquent une menace quant à la sécurité interne d’une entreprise. En réalité, plus il y a de données agglomérées, plus il y a de données à protéger, et plus important est le risque de trouver une faille de sécurité pour l’ensemble des données.
Les Dark Data peuvent tout de même présenter un grand intérêt pour les concurrents d’une organisation ou des personnes malveillantes qui pourraient exploiter ces données à des fins personnelles et malhonnêtes.
Dark Data et conformité au RGPD
Les Dark Data peuvent tout de même comporter des informations utiles à une entreprise. Cependant, il n’est pas non plus exclu que les données contiennent des informations sensibles ou à caractère personnel qui ne doivent pas tomber entre de mauvaises mains.
Malgré le fait qu’elles soient souvent inexploitées, ces données restent soumises au RGPD. L’encombrement de Dark Data peut retranscrire des lacunes de connaissance des natures et flux de données.
Néanmoins, la transparence symbolise l’un des principes fondamentaux du RGPD, ce qui implique une maîtrise des données collectées et la limitation des durées de conservation des données. Le principe fondamental étant qu’aucune donnée ne doit être conservée de façon indéterminée (3 ans maximum).
Ainsi, il va dans l’intérêt de l’entreprise de procéder à l’identification de ces Dark Data. Grâce à la mise en place d’une cartographie et d’un registre de traitement des données personnelles, les données collectées seront identifiées et contrôlées par la réalisation de schémas de flux de données pour suivre leur cycle de vie.
Dark Data : la révolution de la donnée au service de la croissance
Les données assurent leur rôle de protagonistes dans le processus d’amélioration continue d’une organisation. Ainsi, une entreprise est tenue de mener une réflexion davantage approfondie quant à la mise à profit du potentiel des Dark Data et de leur utilisation en interne.
Les données inexploitées ou Dark Data représentent ainsi un bouillon de culture dans l’appréhension du comportement des clients et du développement de la productivité d’une organisation.
Pourquoi mettre en lumière les Dark Data ?
Heureusement, les Dark Data ne sont pas seulement un problème ou une menace pour une entreprise, car elles peuvent devenir une opportunité de développement.
L’avantage concurrentiel des Dark Data
Les données stockées dans des feuilles de calcul, des bases de données locales sur le poste de travail des utilisateurs, dans des répertoires partagés sur des serveurs mais non référencés par exemple, contiennent des informations à valeur ajoutée. Mais elles ne sont pas forcément structurées, et souvent seul leur créateur sait comment les utiliser car elles ne sont pas documentées.
Pour bénéficier d’une gestion optimale des données, une organisation doit disposer d’une vision complète des données qui circulent dans son système d’information. Pour cela, elle doit avoir recours à la cartographie des données (data mapping), qui va l’aider à référencer peu à peu ses Dark Data dans le but de les rendre utilisables dans le système d’information.
Le potentiel des Dark Data révélé par l’Intelligence Artificielle
Des solutions sont désormais possibles pour permettre aux organisations de révéler les zones d’ombres de la Dark Data.
Dark Data : la mine d’or des données
Selon sa nature, toute donnée représente un actif précieux, qui peut être utile dans un domaine, que ce soit le marketing ou même le management.
Afin de mieux localiser, identifier et exploiter des données pertinentes et qualitatives, employer l’Intelligence Artificielle se révèle être un choix judicieux voué à l’innovation perpétuelle. Ainsi, les données sombres peuvent être exploitées soit directement au niveau d’un client ou bien en interne avec des salariés.
Qu’il s’agisse de données textuelles (mails, documents, notes, données statistiques), les activités de connexion, les notes de frais, le nombre de réunions effectuées ou encore les informations dont l’organisation dispose sur ses salariés, ces informations à priori dépourvues de renseignements utiles, peuvent fournir de précieuses informations et faciliter la prise de décision commerciale ou managériale stratégique.
L’Intelligence Artificielle, la solution aux Dark Data
Employer l’innovation des solutions d’IA pour connecter des jeux de données internes aux entreprises aurait été inconcevable par l’humain.
L’IA continue de se développer grâce à des algorithmes toujours plus performants. Sa valeur ajoutée se trouve dans sa capacité à interpréter la donnée et à transformer la data en actions activables par la suite, puisqu’une donnée n’a de valeur que lorsque l’on sait comment l’utiliser et la mettre à profit.
L’IA est ainsi une piste sérieuse pour enrichir la mise en valeur des données sombres, même si son usage demeure encore peu répandu. En faisant appel à une solution d’IA, une entreprise s’offre l’opportunité d’améliorer sa stratégie en prenant de meilleures décisions.
Si le Dark Data apporte certains risques à une entreprise, c’est avant tout une opportunité pour elle d’améliorer le processus de traitement de ses informations, sa stratégie et sa sécurité. Il n’est pas rare que les organisations n’utilisent pas assez les données associées à leurs clients ainsi qu’aux échanges qu’elles ont eues avec eux, car ces informations sont éparpillées.
En parvenant à structurer ces Dark Data ou données sombres grâce différents outils d’analyse comme l’Intelligence Artificielle ou encore la cartographie des données, de meilleures stratégies et décisions peuvent être déployées, afin de garder l’avantage concurrentiel.
Prêt à faire vos premiers pas avec Talend ?
Plus d'articles connexes
- Data Crunching : le guide Talend
- Le guide complet de la Small Data
- Tout savoir sur le stockage des données Big Data
- Big Data Health : la médecine de demain
- Open Data définition et enjeux : le guide Talend
- Big Data Sandbox : le guide Talend
- Wide Data : l’avenir du Big Data ?
- Les enjeux de la traçabilité à l'ère du Big Data
- Le data warehouse pour stocker et gérer les Big Data
- Mettre en place la gouvernance des données grâce au Big Data
- Tout savoir sur l’ingestion des données à l’ère du Big Data
- Tout savoir sur Hadoop et ses avantages
- Qu’est-ce que MapReduce et comment l’utiliser ?
- L'avenir des big data
- Guide du traitement en batch à l'intention des débutants
- Présentation du partitionnement d'Apache Spark
- Tout savoir sur le big data et son avenir
- Qu’est-ce qu’une architecture Big Data et pourquoi en avez-vous besoin ?
- Tout savoir sur l’analyse des Big Data
- Utiliser le Big Data dans le secteur de la finance
- Savoir utiliser l'IA et le Big Data pour maximiser ses performances
- Big data et marketing
- Quelles différences entre le Big Data et la Business Intelligence ?
- Quel lien entre Big Data et Machine Learning ?