À l’ère de l’in­for­ma­tion, les en­tre­prises col­lec­tent con­ti­nuel­le­ment des masses de données. Mais dans la plupart des cas, les données col­lec­tées sont stockées sans être analysées. Ces données, qui existent mais ne sont pas utilisées, sont appelées « Dark Data ».

Compute Engine
La solution IaaS idéale pour gérer vos charges de travail
  • vCPU aux coûts avan­ta­geux et cœurs dédiés per­for­mants
  • Sans en­ga­ge­ment pour plus de flexi­bi­lité
  • As­sis­tance par des experts 24h/24 et 7j/7 incluse

Qu’est-ce que le Dark Data ?

Les Dark Data (« données sombres » en français) sont des données qui ne peuvent être vues ou con­sul­tées par une en­tre­prise. Il peut s’agir de données in­com­plètes, qui n’ont pas été évaluées, qui existent en secret ou qui n’ont pas (encore) été col­lec­tées. Pour bien com­prendre ce terme, il faut savoir qu’il est relatif. Le fait que des données soient « sombres » ou non dépend de la relation entre ces données et une en­tre­prise par­ti­cu­lière.

Les Dark Data sont par­ti­cu­liè­re­ment fla­grantes dans le contexte de la gestion du Big Data. Souvent, les données générées en continu sont si nom­breuses qu’elles ne peuvent être traitées et évaluées à temps. Comme le dit le sta­tis­ti­cien bri­tan­nique David Hand :

Citation

« À l’heure du Big Data, il est facile de penser que nous disposons de toutes les in­for­ma­tions né­ces­saires pour prendre de bonnes décisions. Mais en fait, les données ne sont jamais complètes et peuvent ne re­pré­sen­ter que la partie émergée d’un iceberg. »

(« In the era of big data, it is easy to imagine that we have all the in­for­ma­tion we need to make good decisions. But in fact the data we have are never complete, and may be only the tip of the iceberg. »)

- David Hand

Examinons quatre scénarios spé­ci­fiques. Les Dark Data sont :

  1. Des données dont l’existence est inconnue
  2. Des données qui sont sujettes à des in­cer­ti­tudes
  3. Des données qui sont stockées sans être utilisées
  4. Des données qui n’ont pas encore été col­lec­tées

Dans les quatre scénarios, nous dis­tin­guons en outre deux cas distincts :

  1. L’en­tre­prise est cons­ciente que des données sont man­quantes, in­com­plètes ou sujettes à des in­cer­ti­tudes.

Ce cas est moins pro­blé­ma­tique. Si l’on est conscient que les données dis­po­nibles peuvent ne re­pré­sen­ter que la partie émergée d’un iceberg, l’en­tre­prise peut prendre des contre-mesures. Elle peut essayer d’obtenir des données plus complètes ou évaluer les données dis­po­nibles en tenant compte des in­cer­ti­tudes.

  1. L’en­tre­prise n’est pas cons­ciente que des données manquent ou elle suppose que les données dis­po­nibles sont complètes.

Ce cas est plus dangereux. Si l’on part du principe qu’il existe une image complète de la situation sur la base des données dis­po­nibles, l’en­tre­prise fonc­tionne en décalage avec la réalité. Les con­clu­sions tirées de données in­com­plètes con­dui­sent à des décisions qui ne sont pas optimales.

À l’heure du Big Data et du data mining, les en­tre­prises s’efforcent de tirer le maximum d’in­for­ma­tion des données.

Qu’est-ce qu’une donnée exac­te­ment ?

Le terme « données » est sur toutes les lèvres depuis l’explosion des tech­no­lo­gies de l’in­for­ma­tion. Utilisé par des po­li­ti­ciens, des re­pré­sen­tants du monde des affaires et des scien­ti­fiques, ce terme reste nébuleux pour de nom­breuses personnes. Cela s’explique par le fait que les données ne sont pas de nature physique : il s’agit d’un concept abstrait.

Les données ne sont pas synonymes d’in­for­ma­tions

Tout d’abord, gardons à l’esprit que les données sont une ma­ni­fes­ta­tion de l’in­for­ma­tion. En fait, les données sont les plus petits éléments cons­ti­tu­tifs de l’in­for­ma­tion. De la même manière que les atomes sont les plus petits éléments cons­ti­tu­tifs de la matière, ou que les photons sont les plus petits éléments cons­ti­tu­tifs de l’énergie.

Conseil

Nous utilisons ici le terme « in­for­ma­tion » comme un terme abstrait, comme la matière et l’énergie. Lorsque nous parlons d’in­for­ma­tions au pluriel, nous parlons d’ex­pres­sions concrètes.

Chaque donnée est dénuée de sens en soi. Seule l’in­ter­pré­ta­tion de plusieurs données permet d’obtenir des in­for­ma­tions ex­ploi­tables. Pour com­prendre cela, imaginez les données comme des lettres in­di­vi­duelles. Une seule lettre, par exemple la lettre « O », n’a pas de sig­ni­fi­ca­tion en soi. Ce n’est que lorsque plusieurs lettres sont combinées que l’on obtient un mot, par exemple « pomme ». De plus, l’ordre est décisif : « mepom » ne veut rien dire.

Les in­for­ma­tions sont donc des données résumées dans des struc­tures et dé­li­mi­tées les unes des autres. Le processus d’in­ter­pré­ta­tion dépend du contexte. Cela signifie qu’une série de données peut être in­ter­pré­tée dif­fé­rem­ment, ce qui peut donner lieu à plusieurs sig­ni­fi­ca­tions. Pensez à nouveau au mot « pomme ». Au lieu de combiner les lettres in­di­vi­duelles en un seul mot, nous pourrions compter les lettres. Le résultat serait une in­for­ma­tion dif­fé­rente basée sur les mêmes données.

Imaginons que la totalité des données d’une or­ga­ni­sa­tion soit une montagne. Le défi consiste ensuite à extraire des in­for­ma­tions utiles de cette montagne de données. Con­trai­re­ment à une montagne physique, où la matière précieuse ne peut être extraite qu’une seule fois, les in­for­ma­tions utiles peuvent en principe être extraites plusieurs fois d’une montagne de données. Cela dépend du contexte et de la pers­pec­tive.

La hié­rar­chie de l’in­for­ma­tion

Si l’in­for­ma­tion est composée de données, comme la matière est composée d’atomes, il est naturel de supposer que d’autres struc­tures de niveau supérieur existent. En fait, il existe une hié­rar­chie de l’in­for­ma­tion : les données sont au bas de l’échelle, suivies des in­for­ma­tions, puis des con­nais­sances.

La con­nais­sance est composée d’in­for­ma­tions liées. Il y a une hié­rar­chi­sa­tion des dif­fé­rents éléments d’in­for­ma­tion. Certains sont primaires, d’autres se­con­daires. Le concept de référence, connu aujourd’hui sous le nom d’(hyper)lien, est essentiel à la con­nais­sance : une in­for­ma­tion qui renvoie à une autre unité de con­nais­sance. Les entrées de Wikipedia, les recettes et les processus do­cu­men­tés sont des exemples de con­nais­sances.

L’in­tel­li­gence s’appuie sur la con­nais­sance. Elle nous permet de tirer des con­clu­sions et de re­con­naître des modèles à partir des con­nais­sances acquises et de l’ex­pé­rience accumulée. De nouvelles con­nais­sances sont syn­thé­ti­sées en créant et en testant des hy­po­thèses. L’in­for­ma­tion exé­cu­table, en d’autres termes le code, est cruciale pour l’in­tel­li­gence. Il peut s’agir d’al­go­rithmes ou d’heu­ris­tiques. Alors que les données, les in­for­ma­tions et les con­nais­sances sont inertes, l’in­tel­li­gence nécessite un en­vi­ron­ne­ment d’exécution comme les cellules, les or­ga­nismes, les or­di­na­teurs et les réseaux.

Le niveau le plus élevé de la hié­rar­chie de l’in­for­ma­tion est la sagesse. La sagesse est l’ensemble des con­nais­sances et de l’in­tel­li­gence. La sagesse permet d’évaluer dif­fé­rentes voies pour trouver des solutions équi­li­brées. Les questions in­té­res­santes ne sont pas tant « quoi » (données, in­for­ma­tions) ou « comment » (con­nais­sance, in­tel­li­gence), mais « pourquoi » et « pour quoi faire ». Une bi­blio­thèque est un bon exemple de sagesse. Elle comprend non seulement la con­nais­sance sous forme de livres et d’autres médias, mais aussi l’in­tel­li­gence à travers le personnel et les systèmes d’in­dexa­tion.

Managed Nextcloud de IONOS Cloud
Tra­vail­lez en équipe dans votre propre Cloud
  • Sécurité des données
  • Outils de col­la­bo­ra­tion intégrés
  • Hé­ber­ge­ment dans des data centers européens

Comment les Dark Data sont-elles créées ?

Les processus or­ga­ni­sa­tion­nels qui s’appuient sur des méthodes modernes de trai­te­ment de l’in­for­ma­tion pro­dui­sent cons­tam­ment des données. Une certaine pro­por­tion des données est cons­ti­tuée de Dark Data. Soit l’in­for­ma­tion selon laquelle les données existent est perdue, soit elle est manquante dès le départ. Ou bien la con­nais­sance du mode d’éva­lua­tion des données n’est pas dis­po­nible.

Les Dark Data se pré­sen­tent sous de nom­breuses formes. Comme le dit l’expert en marketing Sky Cassidy :

Citation

« Quant aux Dark Data, il s’agit de toutes les in­for­ma­tions que les en­tre­prises col­lec­tent dans le cadre de leurs activités ha­bi­tuelles, qu’elles n’utilisent pas, qu’elles ne prévoient pas d’utiliser, mais qu’elles ne jetteront jamais. Il s’agit des journaux Web, des données de suivi des visiteurs, des images de sur­veil­lance, des cor­res­pon­dances par email des anciens employés, et bien plus encore. »

(« So as for Dark Data, it’s all the in­for­ma­tion companies collect in their regular business processes, don’t use, have no plans to use, but will never throw out. It’s web logs, visitor tracking data, sur­veil­lance footage, email cor­res­pon­dences from past employees, and so much more. »)

- Sky Cassidy

Les Dark Data sont créées par des données oubliées ou inac­ces­sibles

Une grande catégorie de Dark Data est cons­ti­tuée de données qui ne sont plus ac­ces­sibles. Il peut s’agir de données oubliées ou de données inac­ces­sibles.

Les employés stockent en per­ma­nence des données sur leurs appareils privés et pro­fes­sion­nels. Il arrive ra­pi­de­ment que ces données soient oubliées et de­vien­nent des Dark Data. Les données contenues sur les clés USB et les disques durs portables, ainsi que les supports de données internes des appareils de bureau et mobiles mis hors service, sont tout aussi im­por­tantes que les données contenues dans les pièces jointes des emails et les bases de données inu­ti­li­sées.

L’ex­ten­si­bi­lité presque infinie est l’un des avantages du Cloud, mais aussi une ma­lé­dic­tion. Car avec l’aide du stockage sur le Cloud, il est possible de continuer à accumuler des données sans jamais atteindre de limite fixe. Cela incite les employés à collecter des quantités il­li­mi­tées de données. Si la frénésie de collecte a lieu en dehors de processus stric­te­ment ré­gle­men­tés, le résultat est gé­né­ra­le­ment des Dark Data.

Si les données sont stockées sous forme numérique, il faut veiller à leur sécurité et à leur pro­tec­tion en les cryptant et en pro­té­geant les systèmes avec des au­to­ri­sa­tions. Mais que se passe-t-il si le mot de passe de connexion est oublié ou si la clé est in­trou­vable ? Dans les deux cas, il n’y a plus d’accès aux données ; la con­nais­sance des in­for­ma­tions contenues est perdue.

Mais il y a un autre danger à perdre l’accès aux données réel­le­ment présentes. Cela peut se produire si les données ne sont plus dis­po­nibles sous une forme ac­ces­sible. Par exemple, s’il s’agit d’un format de fichier pro­prié­taire, un programme spécial peut être né­ces­saire pour le lire. Toutefois, il se peut que le programme ne puisse plus être exploité ou qu’il ne soit plus dis­po­nible dans la version requise. Cela signifie que les données restent piégées dans le vendor lock-in.

Les Dark Data résultent de données in­com­plètes ou périmées

Les Dark Data ne sont pas seulement des données qui ne sont plus ac­ces­sibles. Elles com­pren­nent également des données in­com­plètes ou périmées. Laissons le sta­tis­ti­cien David Hand s’exprimer à nouveau :

Citation

« Les Dark Data sont des données que vous n’avez pas. Cela peut être dû au fait que vous voulez les données d’aujourd’hui, mais que vous n’avez que celles d’hier. Cela peut être dû au fait que votre échan­til­lon est faussé, que certains types de cas sont absents. Cela peut être dû au fait que les valeurs en­re­gis­trées sont inexactes ; après tout, aucun ins­tru­ment de mesure n’est parfait. »

(« Dark Data are data you don’t have. This might be because you want today’s data, but all you have is yesterday’s. It might be because your sample is distorted, perhaps certain types of cases are missing. It might be because the recorded values are inac­cu­rate – after all, no mea­su­re­ment ins­tru­ment is perfect. »)

- David Hand

N’oubliez pas que les données cons­ti­tuent le niveau le plus bas de la hié­rar­chie de l’in­for­ma­tion. Les inexac­ti­tudes et les écarts dans les données se ma­ni­fes­tent dans les niveaux su­pé­rieurs d’in­for­ma­tion. Il en résulte gé­né­ra­le­ment des effets en cascade : de petits écarts en­traî­nent de grands chan­ge­ments. Ainsi, des données in­com­plètes peuvent avoir de graves effets.

La situation est similaire avec les données périmées. Prenons l’exemple de la géo­lo­ca­li­sa­tion d’un uti­li­sa­teur, qui est stockée dans un ensemble de données. Comme la géo­lo­ca­li­sa­tion change cons­tam­ment au gré des dé­pla­ce­ments de l’uti­li­sa­teur, les in­for­ma­tions qu’elle contient ne peuvent être utiles que si les données sont analysées en temps réel. Par exemple, si l’on veut faire une offre géo­lo­ca­li­sée à un uti­li­sa­teur, il faut le faire pendant que l’uti­li­sa­teur est encore sur le site.

Les Dark Data pro­vien­nent de données qui n’ont pas été évaluées

Une grande catégorie de Dark Data consiste en des données qui ont été col­lec­tées et stockées mais qui n’ont pas été évaluées. Un volume par­ti­cu­liè­re­ment élevé de Dark Data provient de sources qui génèrent des données au­to­ma­ti­que­ment. Cela inclut les capteurs, ainsi que l’his­to­rique et les sta­tis­tiques de visite des sites Web. Les données générées sont souvent stockées pendant de longues périodes sans que les in­for­ma­tions qu’elles con­tien­nent ne soient extraites et analysées.

Certaines données sont dans des formats qui né­ces­si­tent des pro­cé­dures complexes d’éva­lua­tion. Cela comprend le texte contenu dans les fichiers d’images ainsi que les paroles dans les fichiers audio. En général, les images nu­mé­riques con­tien­nent une foule d’in­for­ma­tions qui ne peuvent être au­to­ma­ti­sées qu’à l’aide de méthodes modernes d’in­tel­li­gence ar­ti­fi­cielle. La re­con­nais­sance des formes et la clas­si­fi­ca­tion sont utilisées pour iden­ti­fier et attribuer les objets re­pré­sen­tés dans les données d’image. Étant donné que ces approches sont encore re­la­ti­ve­ment nouvelles, la majorité des images stockées dans le monde con­tien­nent pro­ba­ble­ment des Dark Data.

Parfois, les Dark Data sont issues de données exis­tantes mais non analysées. C’est-à-dire lorsque les données ne sont stockées et con­ser­vées qu’à des fins d’archivage à valeur probante, sans qu’il y ait la moindre intention de les analyser. Le sta­tis­ti­cien David Hand résume le problème en quelques mots :

Citation

« Il se peut même que les données soient dis­po­nibles, mais qu’elles ne soient pas examinées, qu’elles se dé­com­po­sent lentement dans un entrepôt de données géant, qu’elles ne soient pas con­sul­tées parce qu’elles ont été col­lec­tées uni­que­ment pour des raisons de con­for­mité. »

(« It might even be that the data are available, but unexa­mi­ned, gently decaying in a giant data warehouse, unlooked at because they were collected purely for com­pliance reasons. »)

- David Hand

Les Dark Data sont issues de données qui n’ont pas encore été col­lec­tées

En plus des dif­fé­rentes formes de Dark Data déjà évoquées, il en existe une autre de nature plus théorique puisqu’il s’agit des données qui n’ont pas encore été col­lec­tées. Na­tu­rel­le­ment, ces données (qui n’existent pas encore) ne sont pas visibles pour l’en­tre­prise. Par con­sé­quent, il s’agit également de Dark Data.

Le sta­tis­ti­cien David Hand établit une analogie avec la « matière noire » connue en as­tro­phy­sique :

Citation

« Tout comme une grande partie de l’univers est composée de matière noire, invisible pour nous mais néanmoins présente, l’univers de l’in­for­ma­tion est rempli de Dark Data que nous né­gli­geons à nos risques et périls. »

(« Just as much of the universe is composed of dark matter, invisible to us but no­ne­the­less present, the universe of in­for­ma­tion is full of Dark Data that we overlook at our peril. »)

-David Hand

Pourquoi le Dark Data est-il un problème ?

Les Dark Data cons­ti­tuent un problème pour les en­tre­prises et autres or­ga­ni­sa­tions. Il y a plusieurs raisons à cela. Nous ne discutons ici que des cas où il existe des données réelles. Nous excluons les cas où les données n’existent pas encore.

Le stockage des données sombres est inef­fi­cace

Le stockage de toute donnée nécessite des res­sources, notamment de l’espace de stockage et de l’énergie fournie par la société de stockage. Cela entraîne des coûts pour l’or­ga­ni­sa­tion qui possède les données. Un effort est donc déployé pour stocker les données.

L’ef­fi­ca­cité est définie comme le quotient du bénéfice et de l’effort. Si un bénéfice élevé est obtenu avec peu d’efforts, on parle de haute ef­fi­ca­cité. Mais un bénéfice réduit pour un effort élevé signifie que l’ef­fi­ca­cité est faible.

Efficacité = Bénéfice / Effort

Les données sont censées être utiles. Avec des Dark Data, le bénéfice réel est limité. Néanmoins, un effort continu doit être déployé pour stocker les données. Par con­sé­quent, le stockage des Dark Data est inef­fi­cace.

Im­pos­sible de trouver l’aiguille de l’in­for­ma­tion dans la botte de foin des Dark Data

Imaginons que l’ensemble des données d’une or­ga­ni­sa­tion soit un iceberg. Alors la majorité des données sont des Dark Data. Mal­heu­reu­se­ment, ce n’est pas le cas des données utiles qui s’ac­cu­mu­lent à la surface. Au contraire, elles sont mélangées aux Dark Data et sont dif­fi­ciles à séparer. Pour trouver des données utiles, il faut sonder tout l’iceberg.

En raison de la masse con­si­dé­rable de Dark Data, des in­for­ma­tions utiles peuvent rester cachées. Il est difficile de dé­ter­mi­ner si une données à de la valeur en soi. Les données man­quantes ou erronées con­dui­sent à des in­for­ma­tions in­cor­rectes. Les Dark Data in­fluen­cent donc les con­clu­sions qui sont tirées des in­for­ma­tions dis­po­nibles. Cette situation limite la capacité de l’en­tre­prise à faire preuve d’in­tel­li­gence.

Personne ne sait ce qu’il y a dans les Dark Data

Les Dark Data sont par dé­fi­ni­tion sombres. On ne peut jamais être sûr qu’elles ne com­por­tent pas quelque chose d’utile. Il n’est pas non plus exclu que les données con­tien­nent des in­for­ma­tions sensibles qui ne doivent pas tomber entre de mauvaises mains.

Les données sont gé­né­ra­le­ment stockées pendant de longues périodes. Les Dark Data sont peu utiles à l’en­tre­prise. Il y a souvent un manque de mo­ti­va­tion pour sécuriser les données. Les données stockées non utilisées sont fa­ci­le­ment oubliées. Il est donc plus probable de trouver des Dark Data in­suf­fi­sam­ment sé­cu­ri­sées.

En principe, les données peuvent toujours inclure des in­for­ma­tions qui né­ces­si­tent une pro­tec­tion par­ti­cu­lière. Dans la plupart des cas, les données in­di­vi­duelles sont inof­fen­sives ; en revanche, des in­for­ma­tions sensibles peuvent être extraites de grandes quantités de données. Par exemple, des profils de mouvement peuvent être créés à partir de données de lo­ca­li­sa­tion re­cueil­lies sur de plus longues périodes. La perte de Dark Data présente donc un risque élevé de dommages.

En plus de la fuite de données sensibles, il existe un autre risque associé aux Dark Data. En effet, ces données peuvent ne pas être ré­cu­pé­rées après un incident par le plan de reprise après sinistre. Imaginons un système qui fonc­tionne pro­pre­ment. Tous les com­po­sants sont censés être connus et des sau­ve­gardes Cloud de ces com­po­sants ont été con­ser­vées. Ce que personne ne sait : l’un des com­po­sants était constitué de Dark Data. Lorsque le système est restauré, il manque une pièce es­sen­tielle. Dans le pire des cas, cela peut entraîner la dé­fail­lance de systèmes im­por­tants.

Managed Nextcloud de IONOS Cloud
Tra­vail­lez en équipe dans votre propre Cloud
  • Sécurité des données
  • Outils de col­la­bo­ra­tion intégrés
  • Hé­ber­ge­ment dans des data centers européens

Les Dark Data sont dif­fi­ciles à éliminer

Une montagne de données est difficile à suivre. Les Dark Data peuvent contenir des in­for­ma­tions utiles ou sensibles. Certaines périodes de con­ser­va­tion peuvent être pres­crites pour le stockage des données. Il n’est donc pas facile de se dé­bar­ras­ser de ces données.

Cette situation est com­pa­rable à celle des déchets dangereux, qui sont dif­fi­ciles ou im­pos­sibles à trier. Si une tonne de déchets contient un gramme de matière hautement toxique, la tonne entière est traitée comme un déchet dangereux. Les données con­ti­nuent donc d’être stockées, la montagne de données continue de croître. Cela augmente également les coûts liés à son stockage.

Aller au menu principal