Le terme de « data reduction » désigne les méthodes qui per­met­tent de réduire la quantité de données à stocker phy­si­que­ment. Cette méthode permet d’éco­no­mi­ser de l’espace de stockage et de réduire les coûts.

Qu’est-ce que la réduction de données ?

Les méthodes de data reduction re­grou­pent dif­fé­rents procédés d’op­ti­mi­sa­tion de la capacité. Celles-ci ont pour objectif de réduire la quantité de données à stocker. Le nombre de données ne cessant d’augmenter dans le monde entier, une telle réduction est né­ces­saire pour garantir un stockage des données efficace en termes de res­sources et de coûts.

On distingue dif­fé­rentes approches de data reduction : la com­pres­sion des données et la dé­du­pli­ca­tion. Alors que la com­pres­sion sans perte utilise des re­don­dances au sein d’un fichier pour comprimer les données, les al­go­rithmes de dé­du­pli­ca­tion, eux, égalisent les données entre les fichiers afin d’éviter les ré­pé­ti­tions.

Data reduction : la dé­du­pli­ca­tion

La technique de dé­du­pli­ca­tion désigne un processus de réduction de données per­met­tant d’éviter la re­don­dance de données sur l’espace de stockage d’un système. Une machine de dé­du­pli­ca­tion est utilisée pour éliminer les fichiers ou blocs de données re­don­dants grâce à des al­go­rithmes spéciaux. Le domaine d’ap­pli­ca­tion central de la dé­du­pli­ca­tion est la sau­ve­garde des données.

Le but de la dé­du­pli­ca­tion comme technique de stockage est d’écrire autant d’in­for­ma­tions que né­ces­saire sur un support non volatil, afin de re­cons­ti­tuer un fichier sans perte. Plus il y a de du­pli­ca­tas enlevés, plus la quantité de données devant être stockée et transmise est réduite.

L’iden­ti­fi­ca­tion de du­pli­ca­tas peut par exemple se faire sur Git ou Dropbox au niveau du fichier, mais les al­go­rithmes qui tra­vail­lent au niveau des sous-fichiers restent plus efficaces. Les fichiers sont ainsi démontés en blocs de données (chunks) qui sont dotés de sommes de contrôle uniques, également appelés valeurs de hachage. Une base de données de suivi sert d’instance de contrôle centrale et contient toutes ces sommes de contrôle.

La méthode de dé­du­pli­ca­tion basée sur la cons­truc­tion de blocs comporte deux variantes :

  • Dé­du­pli­ca­tion avec de longs blocs solides : l’al­go­rithme subdivise les fichiers en extraits de longueur identique, gé­né­ra­le­ment orientée vers la taille du groupe de fichiers (cluster) ou système RAID (4 KB ha­bi­tuel­le­ment), mais il peut aussi être configuré ma­nuel­le­ment.
  • Dé­du­pli­ca­tion avec des blocs à longueur variable : l’al­go­rithme répartit les données en dif­fé­rents blocs, chacun ayant une longueur variable en fonction du type de données à traiter.

Le type de ré­par­ti­tion a une influence de plus en plus im­por­tante sur l’ef­fi­ca­cité de la dé­du­pli­ca­tion, surtout lors de mo­di­fi­ca­tions ul­té­rieures des données dé­du­pli­quées. Par exemple, si l’on élargit un bloc de données solide en y ajoutant des in­for­ma­tions sup­plé­men­taires, l’al­go­rithme de dé­du­pli­ca­tion considère tous les blocs suivants comme nouveaux en raison du dé­pla­ce­ment des limites des blocs. Cette situation entraîne une aug­men­ta­tion de la charge de calcul et de l’uti­li­sa­tion de la bande passante.

Si, en revanche, un al­go­rithme utilise des limites de blocs variables, les mo­di­fi­ca­tions apportées à un seul bloc ne se ré­per­cu­tent pas sur les segments adjacents. Au lieu de cela, seul le bloc de données modifié est étendu par les nouveaux octets et en­re­gis­tré. Cette approche allège la charge du réseau, car moins de données sont trans­mises lors d’une sau­ve­garde. Toutefois, cette flexi­bi­lité dans les mo­di­fi­ca­tions de données entraîne des coûts en termes de res­sources pro­ces­seur, car l’al­go­rithme doit d’abord dé­ter­mi­ner comment les chunks sont répartis.

Backup Cloud par Acronis
Protégez vos appareils et réduisez les temps d'arrêt
  • Sau­ve­garde au­to­ma­tique et res­tau­ra­tion facile
  • Gestion et pla­ni­fi­ca­tion in­tui­tives
  • Pro­tec­tion contre les menaces basée sur l'IA

Data reduction : la com­pres­sion de données

Avec la com­pres­sion de données, les fichiers sont trans­fé­rés en une re­pré­sen­ta­tion al­ter­na­tive qui est plus efficace que l’initiale. Le but de cet encodage est de réduire non seulement la mémoire dont on a besoin, mais aussi le temps de transfert. On dif­fé­ren­cie deux approches de gain de codage :

  • Com­pres­sion axée sur la re­don­dance : lors d’une com­pres­sion sans perte pour réduire une re­don­dance de données, ces dernières peuvent être dé­com­pres­sées au bit près après une com­pres­sion. Les données entrantes et sortantes sont donc iden­tiques. Une telle com­pres­sion n’est possible qu’à condition qu’une donnée contienne des in­for­ma­tions re­don­dantes.
  • Com­pres­sion axée sur la non-per­ti­nence : lors d’une com­pres­sion avec perte, des in­for­ma­tions in­sig­ni­fiantes sont enlevées afin de com­pres­ser un fichier. Ceci implique dans tous les cas une perte de données. Les données d’origine ne se res­tau­rent qu’ap­proxi­ma­ti­ve­ment après une com­pres­sion non per­ti­nente. Les données con­si­dé­rées comme non per­ti­nentes le sont de façon sub­jec­tive. Lors d’une com­pres­sion audio via MP3, les modèles de fré­quences con­si­dé­rés comme im­per­cep­tibles par des humains sont par exemple retirés.

Tandis que la com­pres­sion s’effectue sans perte au niveau des systèmes de stockage, les pertes de données sont dé­li­bé­ré­ment acceptées dans d’autres domaines dans d’autres domaines tels que l’image, la vidéo, ou la trans­mis­sion audio afin d’obtenir une réduction de la taille des fichiers.

La com­pres­sion nécessite autant de calcul que la dé­com­pres­sion de fichiers. Mais cette quantité de calcul dépend de la méthode de com­pres­sion utilisée. Tandis que quelques tech­niques sont conçues pour une re­pré­sen­ta­tion aussi compacte que possible des données sortantes, d’autres visent à réduire le temps de calcul né­ces­saire. Le choix de la méthode de com­pres­sion s’oriente toujours en fonction des exigences du domaine d’ap­pli­ca­tion en question.

Data reduction : com­pa­rai­son des dif­fé­rentes pos­si­bi­li­tés pour la réduction des données

Pour réaliser des pro­cé­dures de sau­ve­garde ou optimiser le stockage standard de systèmes de données, les en­tre­prises recourent gé­né­ra­le­ment à la dé­du­pli­ca­tion. Cela s’explique notamment par l’extrême ef­fi­ca­cité des systèmes de dé­du­pli­ca­tion lorsque des données iden­tiques doivent être classées. Les processus de com­pres­sion de données sont au contraire liés à un volume de calcul plus élevé et né­ces­si­tent des pla­te­formes plus onéreuses. Le plus efficace est d’utiliser une com­bi­nai­son des deux procédés de réduction de données sur un système de stockage. Les re­don­dances sont ainsi éliminées des fichiers stockés par dé­du­pli­ca­tion et les données restantes sont ensuite com­pres­sées,

Aller au menu principal