Les systèmes de stockage dis­tri­bués sont la solution pour en­re­gis­trer et gérer des données trop vo­lu­mi­neuses pour un serveur typique. Mais ce n’est pas uni­que­ment une question de taille. En effet, un système de fichiers classique avec une structure de dossiers ne permet pas de traiter les données non struc­tu­rées.

IONOS Cloud Object Storage
Stockage de données sûr et éco­no­mique

Augmentez votre ren­ta­bi­lité grâce à un stockage évolutif, qui s'intègre à vos scénarios d'ap­pli­ca­tion. Vos données sont protégées par nos serveurs d'une grande fiabilité et un contrôle des accès per­son­na­lisé.

En­re­gis­trer de gros volumes de données : c’est possible avec GlusterFS et Ceph

Lorsqu’on est confronté à une masse de données, la quantité exacte de ces données n’est pas connue au début du projet. Par con­sé­quent, les systèmes doivent être ex­ten­sibles très fa­ci­le­ment en cours de fonc­tion­ne­ment avec des serveurs sup­plé­men­taires s’intégrant par­fai­te­ment dans un système de stockage existant. Pour l’uti­li­sa­teur, le système de fichiers distribué ressemble à un dossier unique dans un système de fichiers tra­di­tion­nel. Il n’a pas cons­cience que certains fichiers in­di­vi­duels voire des parties de fichiers peuvent être situés sur dif­fé­rents serveurs qui peuvent être localisés dans des endroits géo­gra­phi­que­ment éloignés. GlusterFS et Ceph sont des couches lo­gi­cielles sur les systèmes d’ex­ploi­ta­tion Linux. Ils ne posent donc aucune exigence par­ti­cu­lière en termes de matériel. Linux fonc­tionne sur n’importe quel serveur standard et supporte tous les types de disques courants.

Une dis­po­ni­bi­lité élevée est in­dis­pen­sable

Lorsqu’il s’agit des solutions de stockage distribué, la dis­po­ni­bi­lité est un point essentiel. Les pannes ma­té­rielles doivent être aussi rares que possible et le logiciel né­ces­saire au fonc­tion­ne­ment doit tenir son rôle sans in­ter­rup­tion, même lorsque de nouveaux com­po­sants sont ajoutés. Les travaux de main­te­nance doivent être réa­li­sables en cours de fonc­tion­ne­ment. L’ensemble des mé­ta­don­nées es­sen­tielles ne doivent pas être en­re­gis­trées en un seul endroit cen­tra­lisé. L’accès aux mé­ta­don­nées doit pouvoir être effectué de façon dé­cen­tra­li­sée et tous les points doivent comporter une re­don­dance. En aucun cas, une panne de serveur ne doit pouvoir nuire à la cohérence de l’in­té­gra­lité du système. Malgré leur approche dif­fé­rente, GlusterFS et Ceph sont des systèmes ex­ten­sibles pra­ti­que­ment à volonté per­met­tant de ras­sem­bler et re­cher­cher dans un même système des données de projets du big data.

Remarque

Le terme « big data » est utilisé pour de très grands volumes de données complexes et peu struc­tu­rés tels qu’on en trouve dans les capteurs scien­ti­fiques (par exemple sur les sa­tel­lites GPS), dans les réseaux mé­téo­ro­lo­giques ou en sta­tis­tique. En plus du stockage, l’ef­fi­ca­cité de la recherche et la sys­té­ma­ti­sa­tion des données sont également im­por­tantes dans le big data.

Brève pré­sen­ta­tion de GlusterFS

GlusterFS est un système de fichiers distribué avec une structure modulaire. Dif­fé­rents serveurs sont connectés ensemble via un réseau TCP/IP. GlusterFS est un système de fichiers conforme aux normes POSIX (Portable Operating System Interface) pouvant être fa­ci­le­ment intégré dans les en­vi­ron­ne­ments de serveur Linux existants. Il fonc­tionne aussi avec les systèmes d’ex­ploi­ta­tion FreeBSD, Open­So­la­ris et macOS qui sup­por­tent également POSIX. Jusqu’à présent, l’in­té­gra­tion dans un en­vi­ron­ne­ment Windows est uni­que­ment possible en utilisant un serveur Linux comme portail.

Fonc­tion­ne­ment de GlusterFS

À ses débuts, GlusterFS était un système de stockage classique basé sur les fichiers. Son orien­ta­tion objet est venue seulement plus tard lorsqu’une im­por­tance par­ti­cu­lière a été accordée à une in­té­gra­tion optimale dans la célèbre solution Cloud OpenStack dis­po­nible en open source. En arrière-plan, GlusterFS fonc­tionne toujours à partir de fichiers, mais chaque fichier est attribué à un objet dont la connexion est établie via des liens physiques dans le système de fichiers. Aucun serveur dédié n’apparaît à l’uti­li­sa­teur car il dispose d’in­ter­faces propres pour en­re­gis­trer ses données sur GlusterFS qui lui apparaît comme un système global.

Avantages In­con­vé­nients
In­té­gra­tion facile dans les systèmes Linux In­té­gra­tion dans les systèmes Windows par une voie détournée
Com­pa­ti­bi­lité POSIX
Com­pa­ti­bi­lité avec FUSE (File System in User Space)

Brève pré­sen­ta­tion de Ceph

Dis­po­nible en open source, la solution de stockage distribué Ceph est un stockage objet basé sur des objets binaires qui contourne ainsi les struc­tures de blocs fixes des supports de données clas­siques. Si d’un point de vue physique, Ceph utilise également des disques durs, un al­go­rithme propre se charge toutefois de la gestion des objets binaires qui sont répartis entre plusieurs serveurs en autant de parts que né­ces­saire avant d’être re­cons­ti­tués a pos­te­riori.

Fonc­tion­ne­ment de Ceph

Tous les com­po­sants fonc­tion­nent de façon dé­cen­tra­li­sée. L’ensemble des OSD (Object Based Storage Device = appareils de stockage basés sur un objet) sont sur un même pied d’égalité. Il est ainsi possible de connecter ensemble un nombre illimité de serveurs avec dif­fé­rents disques pour former un seul et même système de stockage. Ceph offre diverses pos­si­bi­li­tés d’in­té­gra­tion dans des en­vi­ron­ne­ments système existants par le biais de trois in­ter­faces im­por­tantes : CephFS qui joue le rôle de pilote de système de fichiers sous Linux, RADOS Block Devices (RBD) qui tient lieu d’appareil Linux pouvant être intégré di­rec­te­ment et le portail RADOS com­pa­tible avec Swift et Amazon S3.

Avantages In­con­vé­nients
Une in­té­gra­tion simple dans tous les systèmes, quel que soit le système d’ex­ploi­ta­tion utilisé Des fonc­tion­na­li­tés de système de fichier plus légères
Block Device pour Linux Un effort d’ap­pren­tis­sage important du fait de struc­tures en­tiè­re­ment nouvelles
Un système de fichiers CephFS pour Linux
Une interface Amazon S3
Une connexion fluide avec l’au­then­ti­fi­ca­tion Keystone
Un module FUSE (File System in User Space) pour supporter les systèmes sans client CephFS

Com­pa­ra­tif : GlusterFS versus Ceph

Au vu des dif­fé­rences tech­niques entre GlusterFS et Ceph, il est im­pos­sible de les dé­par­ta­ger. Sur le principe, Ceph est un stockage basé sur les objets pour des données non struc­tu­rées alors que GlusterFS utilise des ar­bo­res­cences de système de fichiers dans des stockages sous forme de bloc. GlusterFS trouve son origine dans un système de stockage très efficace basé sur des fichiers, dont le dé­ve­lop­pe­ment tend de plus en plus vers une orien­ta­tion objet. Au contraire, Ceph a été développé dès le départ comme un stockage d’objets binaires (Object Storage) et non comme un système de fichiers classique, ce qui peut entraîner des lacunes pour ce qui est des opé­ra­tions de système de fichiers typiques.

GlusterFS Ceph
Des atouts dans l’aspect système de fichiers Des atouts dans l’aspect Object Store
Un al­go­rithme de stockage plus rapide Une meilleure per­for­mance sur un matériel simple
Aucun serveur de mé­ta­don­nées central n’est né­ces­saire Une in­té­gra­tion simple dans tous les systèmes, quel que soit le système d’ex­ploi­ta­tion utilisé
Une faible com­plexité Block Device pour Linux
Une meilleure adé­qua­tion au stockage de gros fichiers (à partir de 4 Mo par fichier) La sim­pli­cité des mo­di­fi­ca­tions spé­ci­fiques au client
Une meilleure adé­qua­tion pour les fichiers avec un accès sé­quen­tiel La com­pa­ti­bi­lité RADOS

Quand est-il pertinent d’utiliser tel ou tel système ?

Grâce à ses diverses in­ter­faces, Ceph peut être utilisé ef­fi­ca­ce­ment dans des réseaux hé­té­ro­gènes où Linux n’est pas le seul système d’ex­ploi­ta­tion pouvant être utilisé. En revanche, GlusterFS se démarque lorsqu’il s’agit de stocker un grand nombre de fichiers clas­siques et plus vo­lu­mi­neux. Comme Ceph a été développé dès le début comme une solution open source, dans de nombreux domaines, il était plus simple par le passé de l’utiliser que GlusterFS qui n’a été publié en open source que tar­di­ve­ment. Les solutions Cloud cons­ti­tuent un domaine d’uti­li­sa­tion important des stockages dis­tri­bués. Dans ce cadre, OpenStack est l’un des prin­ci­paux projets logiciels proposant des ar­chi­tec­tures pour le Cloud computing. Que ce soit GlusterFS ou Ceph, ils fonc­tion­nent tous deux par­fai­te­ment avec OpenStack.

Aller au menu principal