Data reduction : qu’est-ce que la réduction de données ?

L'équipe éditoriale IONOS28/01/20216 mins

Sommaire

Le terme de « data reduction » désigne les méthodes qui permettent de réduire la quantité de données à stocker physiquement. Cette méthode permet d’économiser de l’espace de stockage et de réduire les coûts.

Qu’est-ce que la réduction de données ?

Les méthodes de data reduction regroupent différents procédés d’optimisation de la capacité. Celles-ci ont pour objectif de réduire la quantité de données à stocker. Le nombre de données ne cessant d’augmenter dans le monde entier, une telle réduction est nécessaire pour garantir un stockage des données efficace en termes de ressources et de coûts.

On distingue différentes approches de data reduction : la compression des données et la déduplication. Alors que la compression sans perte utilise des redondances au sein d’un fichier pour comprimer les données, les algorithmes de déduplication, eux, égalisent les données entre les fichiers afin d’éviter les répétitions.

Data reduction : la déduplication

La technique de déduplication désigne un processus de réduction de données permettant d’éviter la redondance de données sur l’espace de stockage d’un système. Une machine de déduplication est utilisée pour éliminer les fichiers ou blocs de données redondants grâce à des algorithmes spéciaux. Le domaine d’application central de la déduplication est la sauvegarde des données.

Le but de la déduplication comme technique de stockage est d’écrire autant d’informations que nécessaire sur un support non volatil, afin de reconstituer un fichier sans perte. Plus il y a de duplicatas enlevés, plus la quantité de données devant être stockée et transmise est réduite.

L’identification de duplicatas peut par exemple se faire sur Git ou Dropbox au niveau du fichier, mais les algorithmes qui travaillent au niveau des sous-fichiers restent plus efficaces. Les fichiers sont ainsi démontés en blocs de données (chunks) qui sont dotés de sommes de contrôle uniques, également appelés valeurs de hachage. Une base de données de suivi sert d’instance de contrôle centrale et contient toutes ces sommes de contrôle.

La méthode de déduplication basée sur la construction de blocs comporte deux variantes :

Déduplication avec de longs blocs solides : l’algorithme subdivise les fichiers en extraits de longueur identique, généralement orientée vers la taille du groupe de fichiers (cluster) ou système RAID (4 KB habituellement), mais il peut aussi être configuré manuellement.
Déduplication avec des blocs à longueur variable : l’algorithme répartit les données en différents blocs, chacun ayant une longueur variable en fonction du type de données à traiter.

Le type de répartition a une influence de plus en plus importante sur l’efficacité de la déduplication, surtout lors de modifications ultérieures des données dédupliquées. Par exemple, si l’on élargit un bloc de données solide en y ajoutant des informations supplémentaires, l’algorithme de déduplication considère tous les blocs suivants comme nouveaux en raison du déplacement des limites des blocs. Cette situation entraîne une augmentation de la charge de calcul et de l’utilisation de la bande passante.

Si, en revanche, un algorithme utilise des limites de blocs variables, les modifications apportées à un seul bloc ne se répercutent pas sur les segments adjacents. Au lieu de cela, seul le bloc de données modifié est étendu par les nouveaux octets et enregistré. Cette approche allège la charge du réseau, car moins de données sont transmises lors d’une sauvegarde. Toutefois, cette flexibilité dans les modifications de données entraîne des coûts en termes de ressources processeur, car l’algorithme doit d’abord déterminer comment les chunks sont répartis.

Backup Cloud par Acronis

Protégez vos appareils et réduisez les temps d'arrêt

Sauvegarde automatique et restauration facile
Gestion et planification intuitives
Protection contre les menaces basée sur l'IA

Data reduction : la compression de données

Avec la compression de données, les fichiers sont transférés en une représentation alternative qui est plus efficace que l’initiale. Le but de cet encodage est de réduire non seulement la mémoire dont on a besoin, mais aussi le temps de transfert. On différencie deux approches de gain de codage :

Compression axée sur la redondance : lors d’une compression sans perte pour réduire une redondance de données, ces dernières peuvent être décompressées au bit près après une compression. Les données entrantes et sortantes sont donc identiques. Une telle compression n’est possible qu’à condition qu’une donnée contienne des informations redondantes.
Compression axée sur la non-pertinence : lors d’une compression avec perte, des informations insignifiantes sont enlevées afin de compresser un fichier. Ceci implique dans tous les cas une perte de données. Les données d’origine ne se restaurent qu’approximativement après une compression non pertinente. Les données considérées comme non pertinentes le sont de façon subjective. Lors d’une compression audio via MP3, les modèles de fréquences considérés comme imperceptibles par des humains sont par exemple retirés.

Tandis que la compression s’effectue sans perte au niveau des systèmes de stockage, les pertes de données sont délibérément acceptées dans d’autres domaines dans d’autres domaines tels que l’image, la vidéo, ou la transmission audio afin d’obtenir une réduction de la taille des fichiers.

La compression nécessite autant de calcul que la décompression de fichiers. Mais cette quantité de calcul dépend de la méthode de compression utilisée. Tandis que quelques techniques sont conçues pour une représentation aussi compacte que possible des données sortantes, d’autres visent à réduire le temps de calcul nécessaire. Le choix de la méthode de compression s’oriente toujours en fonction des exigences du domaine d’application en question.

Data reduction : comparaison des différentes possibilités pour la réduction des données

Pour réaliser des procédures de sauvegarde ou optimiser le stockage standard de systèmes de données, les entreprises recourent généralement à la déduplication. Cela s’explique notamment par l’extrême efficacité des systèmes de déduplication lorsque des données identiques doivent être classées. Les processus de compression de données sont au contraire liés à un volume de calcul plus élevé et nécessitent des plateformes plus onéreuses. Le plus efficace est d’utiliser une combinaison des deux procédés de réduction de données sur un système de stockage. Les redondances sont ainsi éliminées des fichiers stockés par déduplication et les données restantes sont ensuite compressées,

Cet article vous a-t-il été utile ?

Articles Populaires

Nom de domaine mail : qu’est-ce que c’est et comment en créer un

Dans cet article dédié, nous vous présentons comment créer une adresse mail avec son…

Comment acheter un nom de domaine ?

Comment enregistrer un nom de domaine avec le domaine de premier et de deuxième niveau que…

Quels types de domaines existe-t-il ?

Quelle est la différence entre un domaine de premier et de deuxième niveau ? Qu’est-ce…

Le Prompt Engineering : explication

Qu’est-ce que le Prompt Engineering ? Comment peut-il améliorer les résultats de ChatGPT…

Aperçu de 7 types de sites Internet : quel site Web correspond à vos besoins ?

Le choix d’un bon type de site Internet est essentiel à la réussite de tout projet en…

Load balancer : pour un meilleur temps d’accès au serveur

Le bon fonctionnement d’un site Web d’entreprises, d’une boutique en ligne et d’un portail d’informations est le garant de son succès. De plus en plus de sociétés ont recours au load balancer pour répartir les demandes de serveur des internautes sur plusieurs équipements. Si…

Lexique

Sauvegarde de bases de données

Créer des sauvegardes permet de protéger les bases de données. Ce processus nécessite du matériel informatique supplémentaire et la mise en place d’un support de stockage. Comment est-il possible de sécuriser son propre réseau, c.-à-d. son serveur Web contre les attaques…

Base de Données
PHP
MySQL

Créer une sauvegarde rsync backup

Le meilleur moyen de sauvegarder les données importantes de vos projets en ligne et d’éviter la perte éventuelle de vos données est de procéder à la sauvegarde de votre serveur. À cette fin, les environnements de serveur mettent en œuvre une stratégie de sauvegarde sophistiquée,…

Base de Données
Linux
Windows

Niveaux RAID : comparaison des principales approches RAID

Pour rassembler des disques durs au sein d’un système RAID, vous avez le choix entre plusieurs configurations standard, également appelées « niveaux RAID ». Celles-ci sont prédéfinies et précisent l’organisation des disques individuels et les procédures à suivre pour le stockage…

Protection des Données
Sécurité

UndreyShutterstock

Extension de fichier .tar : comment décompresser des fichiers .tar

Compresser des fichiers volumineux avec .tar offre de nombreux avantages. Ce format fonctionne sur tous les systèmes d’exploitation courants et permet un stockage très compact de grands volumes de données. Nous détaillons dans cet article les spécificités du format, comment les…

Tutoriels