Diagnostic et remplacement d'un disque dur défectueux (Serveur Dédié Windows avec Raid Hardware)

Dans cet article, nous vous montrons comment identifier un disque dur défectueux et comment préparer le serveur pour remplacer le disque défectueux.

Remarque

Cet article suppose une connaissance de base de l'administration du serveur avec Microsoft Windows. Si vous avez des questions ou avez besoin d'aide concernant le remplacement d'un disque dur défectueux, veuillez contacter le service client.

Afin d'assurer la plus grande fiabilité possible, il est nécessaire que vous surveilliez le raid matériel de votre serveur dédié. Si vous découvrez qu'un disque dur est défectueux, ou si vous recevez un email de notification concernant un disque dur défectueux, vous devez contacter le service client pour le remplacer. Pour cela, il faut d'abord identifier le disque dur défectueux et préparer le serveur pour l'échange du support de données défectueux.

Veuillez noter

Les systèmes RAID permettent une plus grande fiabilité et/ou une plus grande vitesse. Cependant, ils ne remplacent pas les sauvegardes régulières. Pour éviter toute perte de données, nous vous recommandons de sauvegarder régulièrement vos données. Assurez-vous également de sauvegarder vos données avant d'effectuer les étapes suivantes pour assurer la sécurité de vos données.

Pour plus d'informations sur la création de sauvegardes, consultez cet article :

Solutions de sauvegarde

Contrôleur RAID matériel : Informations générales

Un contrôleur RAID matériel est un contrôleur physique intégré au serveur en tant que composant matériel. Ce contrôleur possède son propre processeur pour le calcul des opérations RAID. Ce processeur organise et gère l'espace mémoire. Ainsi, le CPU du serveur n'est pas surchargé par les calculs RAID. Pour les contrôleurs RAID matériels, la fonctionnalité RAID est indépendante du système d'exploitation. Ils sont gérés par des programmes spéciaux (Command Line Interface), qui peuvent varier selon le fabricant et le modèle.

Diagnostic des erreurs du disque dur

Afin de détecter les erreurs du disque dur, nous vous recommandons d'utiliser le programme smartctl.

Smartctl est un programme en ligne de commande pour surveiller les volumes à l'aide de SMART (Self-Monitoring, Analysis and Reporting Technology). Avec ce programme, vous pouvez vérifier si un disque dur est défectueux. C'est une composante des Smartmontools.

Une liste des contrôleurs matériels supportés peut être trouvée ici :

https://www.smartmontools.org/wiki/Supported_RAID-Controlleurs

Installer Smartctl

Vous pouvez télécharger les Smartmontools via la page suivante :

https://www.smartmontools.org/wiki/Download#InstalltheWindowspackage

Identifier les contrôleurs RAID matériels

Voici comment vérifier quel contrôleur RAID matériel est intégré à votre serveur :

Ouvrez le Panneau de configuration.
Cliquez sur Matériel et audio > Périphériques et imprimantes > Gestionnaire de périphériques.
Dans la section Contrôleur de stockage, vérifiez quel contrôleur est installé sur le serveur.

Vérifier l'état du raid matériel

Vous trouverez des informations sur comment vérifier l'état du raid matériel ici :

Surveiller / Reconstruire RAID matériel (Windows)

Si un disque est manquant dans le tableau Raid, il peut être défectueux . Un RAID défectueux pourrait ressembler à ceci :

CLI> rsf info
# Name Disks TotalCap FreeCap DiskChannels State
===============================================================================
1 Raid Set # 00 3 2250.5GB 0.0GB 1x3 Degrade
2 Raid Set # 00 3 2250.5GB 2250.5GB x2x Incompleted
===============================================================================
GuiErrMsg<0x00>: Success.

Dans l'exemple ci-dessus, le disque 2 a le statut incompleted. Ceci indique un défaut.

Afficher des informations sur le disque dur

Smartctl se comporte de la même manière sous Windows et sous Linux. Pour cette raison, vous pouvez utiliser les mêmes commandes. Pour utiliser Smartctl pour le dépannage, vous devez ouvrir l'invite de commande et passer dans le répertoire où se trouvent les Smartmontools.

Pour utiliser Smartctl pour accéder aux informations du disque dur, vous devez toujours spécifier la commande appropriée en combinaison avec une option et un périphérique cible. L'appareil cible dépend du fabricant du contrôleur.

Utilisez les commandes ci-dessous pour consulter les informations nécessaires au diagnostic du disque dur :

Fabriquant	Disque dur	Commande
ARECA	1	smartctl -iHAl error /dev/sg1 -d areca,1
ARECA	2	smartctl -iHAl error /dev/sg1 -d areca,2
LSI / 3Ware	1	smartctl -iHAl error /dev/twe0 -d 3ware,0
LSI / 3Ware	2	smartctl -iHAl error /dev/twe0 -d 3ware,1
Adaptec	1	smartctl -iHAl error /dev/sg2 -d sat
Adaptec	2	smartctl -iHAl error /dev/sg3 -d sat
Adaptec	(3)	smartctl -iHAl error /dev/sg4 -d sat
Adaptec	(4)	smartctl -iHAl error /dev/sg5 -d sat
Dell	1	smartctl -iHAl error -d sat+megaraid,0 /dev/sda
Dell	2	smartctl -iHAl error -d sat+megaraid,1 /dev/sda
Broadcom	1	smartctl -iHAl error -d sat+megaraid,0 /dev/sda
Broadcom	2	smartctl -iHAl error -d sat+megaraid,1 /dev/sda

Vous trouverez des commandes supplémentaires pour les contrôleurs matériels pris en charge sur cette page.

Exemple :

[root@localhost ~]# smartctl -iHAl error /dev/sg1 -d areca,1

smartctl 7.0 2018-12-30 r4883 [x86_64-w64-mingw32-2016] (sf-7.0-1)
Copyright (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Hitachi/HGST Ultrastar 7K2
Device Model:     HGST HUS722T1TALA604
Serial Number:    WMC6M0JAUEV8
LU WWN Device Id: 5 0014ee 00482c2ec
Firmware Version: RAGNWA07
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Thu Jan 17 06:17:05 2019 CAST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   141   140   021    Pre-fail  Always       -       3933
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       15
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       34
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       10
 16 Gas_Gauge               0x0022   000   200   000    Old_age   Always       -       1822115874
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       6
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       9
194 Temperature_Celsius     0x0022   113   109   000    Old_age   Always       -       30
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

Interprétation des paramètres

La première section énumère les informations que vous pouvez utiliser pour identifier le disque dur. Dans cette section vous trouverez notamment le modèle de périphérique, le numéro de série et la taille du disque dur testé :

=== START OF INFORMATION SECTION ===
Model Family:     Hitachi/HGST Ultrastar 7K2
Device Model:     HGST HUS722T1TALA604
Serial Number:    WMC6M0JAUEV8
LU WWN Device Id: 5 0014ee 00482c2ec
Firmware Version: RAGNWA07
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Thu Jan 17 06:17:05 2019 CAST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

Dans la deuxième section, l'état actuel du disque dur est évalué par Smartctl. Si, par exemple, la valeur Failed ou UNKNOWN s'affiche à la place de la valeur PASSED, vous devez remplacer le disque dur dès que possible.

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

Dans la troisième section, les VALEURS SMART déterminées sont énumérées en détail. A côté de chaque valeur actuelle en pourcentage (VALUE), la valeur la plus mauvaise jamais mesurée (WORST) et la valeur limite correspondante (THRESH) sont indiquées. Si la valeur actuelle en pourcentage (VALUE) ou la pire valeur mesurée (WORST) dépasse la valeur limite (THRESH), un avertissement SMART est affiché dans la colonne WHEN_FAILED (par ex. FAILING_NOW).

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   141   140   021    Pre-fail  Always       -       3933
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       15
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       34
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       10
 16 Gas_Gauge               0x0022   000   200   000    Old_age   Always       -       1822115874
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       6
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       9
194 Temperature_Celsius     0x0022   113   109   000    Old_age   Always       -       30
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

Les paramètres suivants peuvent indiquer une panne imminente du disque dur avant qu'un avertissement SMART ne s'affiche :

Reallocated_Sector_Ct : Spécifie le nombre de secteurs réassignés en raison d'erreurs de lecture. Si un secteur ne peut plus être lu, écrit ou vérifié correctement, un secteur de remplacement lui est automatiquement affecté. Le secteur défectueux est marqué en permanence comme illisible. Il s'agit d'un signe d'avertissement clair de problèmes naissants. Si cette valeur n'est pas égale à zéro, une panne de disque dur est souvent imminente. Cette valeur est l'indicateur le plus important pour un remplacement de disque dur.

Current_Pending_Sector_Ct : Spécifie le nombre de secteurs instables en attente de remappage. Si un secteur ne peut pas être lu et écrit correctement, il reçoit d'abord le statut Current Pending Sector. Le secteur n'est pas réassigné dans cet état, puisque les données du secteur sont inconnues. Ce n'est qu'après plusieurs tentatives de lecture ou d'écriture infructueuses qu'un secteur de remplacement est attribué et le secteur défectueux est marqué de façon permanente comme illisible. La valeur Current_Pending_Sector_Ct est un indicateur important pour un remplacement de disque dur. Si cette valeur n'est pas égale à zéro, une panne de disque dur est souvent imminente.

Offline_Uncorrectable : Spécifie le nombre d'erreurs d'écriture et de lecture non corrigeables.

La dernière section traite du journal interne du disque dur. Les erreurs sont enregistrées ici si les tâches du serveur n'ont pas été traitées correctement par le disque dur. Si le nombre d'erreurs dans cette section est d'au moins 10, vous devez remplacer le disque dur dès que possible.

SMART Error Log Version: 1
No Errors Logged

Consulter les fichiers journaux

Pour plus d'informations sur l'appel des fichiers journaux, reportez-vous à la documentation du fabricant concerné.

Areca
http://areca.starline.de/RaidCards/Documents/Manual_Spec/Software

3ware
http://www.3ware.com/support/userdocs.asp

Adaptec
http://download.adaptec.com/pdfs/user_guides/microsemi_raid_controller_iug_6_2017.pdf

Dell
https://www.dell.com/support/home/fr/fr/frdhs1/product-support/product/poweredge-rc-h330/manuals?lwp=rt

Broadcom
https://www.broadcom.com/products/storage/raid-controllers/megaraid-9440-8i#documentation

Préparer le remplacement du disque dur

Consulter des informations détaillées pour le remplacement de disque

Les informations suivantes sont nécessaires pour remplacer le disque dur défectueux :

Nom du disque dur dans le RAID
Numéro de série
Modèle
Fichier journal (facultatif)

Créer un journal SMART

Utilisez les commandes listées ci-dessous pour générer un journal SMART complet :

Fabriquant	Disque dur	Commande
ARECA	1	smartctl –x /dev/sg1 -d areca,1
ARECA	2	smartctl –x /dev/sg1 -d areca,2
LSI / 3Ware	1	smartctl –x /dev/twe0 -d 3ware,0
LSI / 3Ware	2	smartctl –x /dev/twe0 -d 3ware,1
Adaptec	1	smartctl –x /dev/sg2 -d sat
Adaptec	2	smartctl –x /dev/sg3 -d sat
Adaptec	(3)	smartctl –x /dev/sg4 -d sat
Adaptec	(4)	smartctl –x /dev/sg5 -d sat
Dell	1	smartctl –x -d sat+megaraid,0 /dev/sda
Dell	2	smartctl –x -d sat+megaraid,1 /dev/sda
Broadcom	1	smartctl –x -d sat+megaraid,0 /dev/sda
Broadcom	2	smartctl –x -d sat+megaraid,1 /dev/sda

Remarques

Si le journal SMART a été créé comme décrit ci-dessus, c'est suffisant. Vous pouvez alors faire remplacer le disque dur défectueux. Veuillez contacter le Service Client IONOS.
Si vous ne pouvez pas fournir le numéro de série du disque dur défectueux à l'aide de smartctl, vous pouvez également fournir au service client le numéro de série du ou des disque(s) dur(s) qui fonctionne(nt).
Si vous n'êtes pas en mesure de déterminer les informations requises pour le remplacement et que vous souhaitez remplacer le disque dur, le matériel doit être vérifié avant de le remplacer. Lors de cette vérification, le serveur est généralement temporairement indisponible. Si un défaut du disque dur est détecté pendant ce test, il est remplacé.

Demander le remplacement du disque dur

Vous pouvez désormais faire remplacer le disque dur défectueux. Veuillez contacter le Service Client IONOS.

Étapes à suivre après le remplacement du disque dur

Une fois le disque dur défectueux remplacé, la reconstruction du système RAID commence généralement automatiquement. Veuillez vérifier si la reconstruction du système RAID a démarré et s'est bien déroulée.

Contenu

Contrôleur RAID matériel : Informations générales
Diagnostic des erreurs du disque dur
Afficher des informations sur le disque dur
Interprétation des paramètres
Consulter les fichiers journaux
Préparer le remplacement du disque dur
Demander le remplacement du disque dur
Étapes à suivre après le remplacement du disque dur
Haut de page