Data reduction : qu’est-ce que la réduction de données ?

Sommaire

Le terme de « data reduction » désigne les méthodes qui permettent de réduire la quantité de données à stocker physiquement. Cette méthode permet d’économiser de l’espace de stockage et de réduire les coûts.

Qu’est-ce que la réduction de données ?

Les méthodes de data reduction regroupent différents procédés d’optimisation de la capacité. Celles-ci ont pour objectif de réduire la quantité de données à stocker. Le nombre de données ne cessant d’augmenter dans le monde entier, une telle réduction est nécessaire pour garantir un stockage des données efficace en termes de ressources et de coûts.

On distingue différentes approches de data reduction : la compression des données et la déduplication. Alors que la compression sans perte utilise des redondances au sein d’un fichier pour comprimer les données, les algorithmes de déduplication, eux, égalisent les données entre les fichiers afin d’éviter les répétitions.

Data reduction : la déduplication

La technique de déduplication désigne un processus de réduction de données permettant d’éviter la redondance de données sur l’espace de stockage d’un système. Une machine de déduplication est utilisée pour éliminer les fichiers ou blocs de données redondants grâce à des algorithmes spéciaux. Le domaine d’application central de la déduplication est la sauvegarde des données.

Le but de la déduplication comme technique de stockage est d’écrire autant d’informations que nécessaire sur un support non volatil, afin de reconstituer un fichier sans perte. Plus il y a de duplicatas enlevés, plus la quantité de données devant être stockée et transmise est réduite.

L’identification de duplicatas peut par exemple se faire sur Git ou Dropbox au niveau du fichier, mais les algorithmes qui travaillent au niveau des sous-fichiers restent plus efficaces. Les fichiers sont ainsi démontés en blocs de données (chunks) qui sont dotés de sommes de contrôle uniques, également appelés valeurs de hachage. Une base de données de suivi sert d’instance de contrôle centrale et contient toutes ces sommes de contrôle.

La méthode de déduplication basée sur la construction de blocs comporte deux variantes :

Déduplication avec de longs blocs solides : l’algorithme subdivise les fichiers en extraits de longueur identique, généralement orientée vers la taille du groupe de fichiers (cluster) ou système RAID (4 KB habituellement), mais il peut aussi être configuré manuellement.
Déduplication avec des blocs à longueur variable : l’algorithme répartit les données en différents blocs, chacun ayant une longueur variable en fonction du type de données à traiter.

Le type de répartition a une influence de plus en plus importante sur l’efficacité de la déduplication, surtout lors de modifications ultérieures des données dédupliquées. Par exemple, si l’on élargit un bloc de données solide en y ajoutant des informations supplémentaires, l’algorithme de déduplication considère tous les blocs suivants comme nouveaux en raison du déplacement des limites des blocs. Cette situation entraîne une augmentation de la charge de calcul et de l’utilisation de la bande passante.

Si, en revanche, un algorithme utilise des limites de blocs variables, les modifications apportées à un seul bloc ne se répercutent pas sur les segments adjacents. Au lieu de cela, seul le bloc de données modifié est étendu par les nouveaux octets et enregistré. Cette approche allège la charge du réseau, car moins de données sont transmises lors d’une sauvegarde. Toutefois, cette flexibilité dans les modifications de données entraîne des coûts en termes de ressources processeur, car l’algorithme doit d’abord déterminer comment les chunks sont répartis.

Backup Cloud par Acronis

Protégez vos appareils et réduisez les temps d'arrêt

Sauvegarde automatique et restauration facile
Gestion et planification intuitives
Protection contre les menaces basée sur l'IA

Data reduction : la compression de données

Avec la compression de données, les fichiers sont transférés en une représentation alternative qui est plus efficace que l’initiale. Le but de cet encodage est de réduire non seulement la mémoire dont on a besoin, mais aussi le temps de transfert. On différencie deux approches de gain de codage :

Compression axée sur la redondance : lors d’une compression sans perte pour réduire une redondance de données, ces dernières peuvent être décompressées au bit près après une compression. Les données entrantes et sortantes sont donc identiques. Une telle compression n’est possible qu’à condition qu’une donnée contienne des informations redondantes.
Compression axée sur la non-pertinence : lors d’une compression avec perte, des informations insignifiantes sont enlevées afin de compresser un fichier. Ceci implique dans tous les cas une perte de données. Les données d’origine ne se restaurent qu’approximativement après une compression non pertinente. Les données considérées comme non pertinentes le sont de façon subjective. Lors d’une compression audio via MP3, les modèles de fréquences considérés comme imperceptibles par des humains sont par exemple retirés.

Tandis que la compression s’effectue sans perte au niveau des systèmes de stockage, les pertes de données sont délibérément acceptées dans d’autres domaines dans d’autres domaines tels que l’image, la vidéo, ou la transmission audio afin d’obtenir une réduction de la taille des fichiers.

La compression nécessite autant de calcul que la décompression de fichiers. Mais cette quantité de calcul dépend de la méthode de compression utilisée. Tandis que quelques techniques sont conçues pour une représentation aussi compacte que possible des données sortantes, d’autres visent à réduire le temps de calcul nécessaire. Le choix de la méthode de compression s’oriente toujours en fonction des exigences du domaine d’application en question.

Data reduction : comparaison des différentes possibilités pour la réduction des données

Pour réaliser des procédures de sauvegarde ou optimiser le stockage standard de systèmes de données, les entreprises recourent généralement à la déduplication. Cela s’explique notamment par l’extrême efficacité des systèmes de déduplication lorsque des données identiques doivent être classées. Les processus de compression de données sont au contraire liés à un volume de calcul plus élevé et nécessitent des plateformes plus onéreuses. Le plus efficace est d’utiliser une combinaison des deux procédés de réduction de données sur un système de stockage. Les redondances sont ainsi éliminées des fichiers stockés par déduplication et les données restantes sont ensuite compressées,

Tout savoir sur l’IA

Inscrivez-vous à notre newsletter pour découvrir les dernières tendances de l’IA et recevoir des conseils pratiques.

Articles Populaires

Revente de nom de domaine : comment gagner de l’argent avec les noms de domaines ?

Acheter et vendre des noms de domaines peut être lucratif, à condition toutefois de savoir…

5 alternatives à Nextcloud en comparaison directe

À la recherche d’une alternative à Nextcloud performante ? Découvrez les meilleures…

Comparaison des 7 meilleurs services de sauvegarde en ligne

Sauvegardez vos données de manière fiable dans le Cloud ! Vos données sont en sécurité…

Debian 13 Upgrade : comment mettre à niveau vers Debian 13 étape par étape ?

Ce guide vous aide à mettre à niveau Debian 13 en toute sécurité, à préparer votre système…

4 alternatives gratuites à Adobe InDesign

La publication assistée par ordinateur (PAO) avec Adobe est trop chère ? Il existe des…

Load balancer : pour un meilleur temps d’accès au serveur

La disponibilité d’un site Web ou d’une boutique en ligne est cruciale pour le succès des entreprises. Nombre d’entre elles s’appuient donc sur des load balancers pour répartir uniformément les requêtes vers les serveurs sur plusieurs ordinateurs. Le load balancing assure une…

Lexique

dizainShutterstock

Sauvegarde de bases de données

Créer des sauvegardes permet de protéger les bases de données. Ce processus nécessite du matériel informatique supplémentaire et la mise en place d’un support de stockage. Comment est-il possible de sécuriser son propre réseau, c.-à-d. son serveur Web contre les attaques…

Base de Données
PHP
MySQL

ToriaShutterstock

Créer une sauvegarde rsync backup

Le meilleur moyen de sauvegarder les données importantes de vos projets en ligne et d’éviter la perte éventuelle de vos données est de procéder à la sauvegarde de votre serveur. À cette fin, les environnements de serveur mettent en œuvre une stratégie de sauvegarde sophistiquée,…

Base de Données
Linux
Windows

Wavebreakmedia Ltd UC19Shutterstock

Niveaux RAID : comparaison des principales approches RAID

Pour rassembler des disques durs au sein d’un système RAID, vous avez le choix entre plusieurs configurations standard, également appelées « niveaux RAID ». Celles-ci sont prédéfinies et précisent l’organisation des disques individuels et les procédures à suivre pour le stockage…

Protection des Données
Sécurité

UndreyShutterstock

Extension de fichier .tar : comment décompresser des fichiers .tar

Compresser des fichiers volumineux avec .tar offre de nombreux avantages. Ce format fonctionne sur tous les systèmes d’exploitation courants et permet un stockage très compact de grands volumes de données. Nous détaillons dans cet article les spécificités du format, comment les…

Tutoriels

Data reduction : qu’est-ce que la réduction de données ?

Qu’est-ce que la réduction de données ?

Data reduction : la dé­du­pli­ca­tion

Data reduction : la com­pres­sion de données

Data reduction : com­pa­rai­son des dif­fé­rentes pos­si­bi­li­tés pour la réduction des données

Data reduction : la déduplication

Data reduction : la compression de données

Data reduction : comparaison des différentes possibilités pour la réduction des données