[RESOLU] RAID Degraded (disque sdb inexistant?)

mickbad · Le 25/08/2017, à 10:08

Bonjour,

sur un serveur Ubuntu 16.04, j'ai l'information que mon raid md2 est clean mais dégradé. (md1 pour / et md2 pour /home sont dans le même cas)

# mdadm --detail /dev/md2
/dev/md2:
        Version : 0.90
  Creation Time : Wed Apr  6 10:03:25 2016
     Raid Level : raid1
     Array Size : 447843264 (427.10 GiB 458.59 GB)
  Used Dev Size : 447843264 (427.10 GiB 458.59 GB)
   Raid Devices : 2
  Total Devices : 1
Preferred Minor : 2
    Persistence : Superblock is persistent

  Intent Bitmap : Internal

    Update Time : Fri Aug 25 10:40:02 2017
          State : active, degraded
 Active Devices : 1
Working Devices : 1
 Failed Devices : 0
  Spare Devices : 0

           UUID : 30d58ec2:dabc6fce:a4d2adc2:26fd5302
         Events : 0.64425544

    Number   Major   Minor   RaidDevice State
       0       8        2        0      active sync   /dev/sda2
       2       0        0        2      removed

j'ai ce cas d'usage mais cela m'inquiète un peu car c'est un serveur avec bcp de trafic. Est-ce un problème de défaillance du disque sdb ? le serveur n'a pas été redémarré depuis plusieurs mois, un reboot peut-il remettre droit un raid (utopie quand tu nous tiens ) ?

Merci de vos explications et éventuel tuto
Mick

Dernière modification par mickbad (Le 30/08/2017, à 14:14)

bruno · Le 25/08/2017, à 10:37

Effectivement une des partitions a été supprimée du RAID. Il faudrait avoir toutes les infos, les retours (en tant que root) de :

parted -l

cat /proc/mdstat

et aussi pour md1 :

mdadm -D /dev/md1

Si le disque (sdb ?) a été retiré des deux partitions RAID c'est sans doute qu'il est défectueux et qu'il doit être remplacé.

Une bonne ressource pour les bases de la gestion d'un RAID 1 : http://www.linuxpedia.fr/doku.php/expert/mdadm

Dernière modification par bruno (Le 25/08/2017, à 10:39)

mickbad · Le 25/08/2017, à 10:46

Merci de ta réponse, oui je me demande bien si le disque sdb n'est pas défectueux car j'ai vu que md1 et md2 sont dégradés

Pour tes questions :

# parted -l
Model: ATA INTEL SSDSC2BB48 (scsi)
Disk /dev/sda: 480GB
Sector size (logical/physical): 512B/4096B
Partition Table: msdos
Disk Flags: 

Number  Start   End     Size    Type     File system     Flags
 1      2097kB  21.0GB  21.0GB  primary  ext4            boot, raid
 2      21.0GB  480GB   459GB   primary  ext4            raid
 3      480GB   480GB   536MB   primary  linux-swap(v1)


Model: ATA INTEL SSDSC2BB48 (scsi)
Disk /dev/sdb: 480GB
Sector size (logical/physical): 512B/4096B
Partition Table: msdos
Disk Flags: 

Number  Start   End     Size    Type     File system     Flags
 1      2097kB  21.0GB  21.0GB  primary  ext4            boot, raid
 2      21.0GB  480GB   459GB   primary  ext4            raid
 3      480GB   480GB   536MB   primary  linux-swap(v1)


Model: Linux Software RAID Array (md)
Disk /dev/md1: 21.0GB
Sector size (logical/physical): 512B/4096B
Partition Table: loop
Disk Flags: 

Number  Start  End     Size    File system  Flags
 1      0.00B  21.0GB  21.0GB  ext4


Model: Linux Software RAID Array (md)
Disk /dev/md2: 459GB
Sector size (logical/physical): 512B/4096B
Partition Table: loop
Disk Flags: 

Number  Start  End    Size   File system  Flags
 1      0.00B  459GB  459GB  ext4

# cat /proc/mdstat
Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath] [faulty] 
md1 : active raid1 sda1[0]
      20478912 blocks [2/1] [U_]
      
md2 : active raid1 sda2[0]
      447843264 blocks [2/1] [U_]
      bitmap: 4/4 pages [16KB], 65536KB chunk

unused devices: <none>

# mdadm -D /dev/md1
/dev/md1:
        Version : 0.90
  Creation Time : Wed Apr  6 10:03:25 2016
     Raid Level : raid1
     Array Size : 20478912 (19.53 GiB 20.97 GB)
  Used Dev Size : 20478912 (19.53 GiB 20.97 GB)
   Raid Devices : 2
  Total Devices : 1
Preferred Minor : 1
    Persistence : Superblock is persistent

    Update Time : Fri Aug 25 11:44:31 2017
          State : clean, degraded 
 Active Devices : 1
Working Devices : 1
 Failed Devices : 0
  Spare Devices : 0

           UUID : 860702e4:f7671ce2:a4d2adc2:26fd5302
         Events : 0.18658816

    Number   Major   Minor   RaidDevice State
       0       8        1        0      active sync   /dev/sda1
       2       0        0        2      removed

cela confirmerait il qu'il faille un changement de disque ?

Je vais regarder ton lien mais dans le cas d'un remplacement, ce qui n'est pas rédhibitoire, les commandes de reconstructions et synchro sont-ils simples et peuvent être fait en live (ie hors rescue) ?

Merci bcp,
Mick

bruno · Le 25/08/2017, à 12:52

Avant de changer le disque tu devrais faire un contrôle du disque avec les smartmontools (installer le paquet du même nom s'ils ne sont pas présents)
Pour voir les infos du disque :

smartctl -a /dev/sdb

Pour lancer un test SMART court :

smartctl -t short /dev/sdb

puis relancer la première commande une fois le test fini.

En cas d'erreurs, donnes-nous les retours, mais le disque sera à remplacer. S'il n'y pas d'erreurs, il faut faire une vérification des systèmes de fichiers sur sdb :

fsck -f -y /dev/sdb1
fsck -f -y /dev/sdb2

Si tout va bien tu pourras réintégrer tes partition aux volumes RAID (voir les docs et ma mdadm) :

mdadm /dev/md1 --add /dev/sdb1

mdadm /dev/md2 --add /dev/sdb2

Si tu dois changer le disque, il faudra récréer la même table de partition sur le nouveau disque (voir ici par exemple) et réintégrer les partitions comme ci-dessus. Si ta machine supporte le branchement de disques à chaud il n'y a pas besoin de redémarrer.

Dernière modification par bruno (Le 25/08/2017, à 12:53)

mickbad · Le 25/08/2017, à 14:12

Merci pour ces indications, c'était délicat car je n'étais pas vraiment tombé sur ce genre de cas encore (étrange car a priori répandu)

Sinon:

# smartctl -a /dev/sdb
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-3.14.32-xxxx-grs-ipv6-64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Intel 730 and DC S35x0/3610/3700 Series SSDs
Device Model:     INTEL SSDSC2BB480G6
Serial Number:    PHWA547501UG480FGN
LU WWN Device Id: 5 5cd2e4 04c678a35
Firmware Version: G2010140
User Capacity:    480,103,981,056 bytes [480 GB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 T13/2015-D revision 3
SATA Version is:  SATA 2.6, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Fri Aug 25 15:04:49 2017 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x02) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever 
                                        been run.
Total time to complete Offline 
data collection:                (    2) seconds.
Offline data collection
capabilities:                    (0x79) SMART execute Offline immediate.
                                        No Auto Offline data collection support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        (   2) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x003d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0032   100   100   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       12164
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       7
170 Available_Reservd_Space 0x0033   100   100   010    Pre-fail  Always       -       0
171 Program_Fail_Count      0x0032   100   100   000    Old_age   Always       -       0
172 Erase_Fail_Count        0x0032   100   100   000    Old_age   Always       -       0
174 Unsafe_Shutdown_Count   0x0032   100   100   000    Old_age   Always       -       5
175 Power_Loss_Cap_Test     0x0033   100   100   010    Pre-fail  Always       -       5490 (72 8955)
183 SATA_Downshift_Count    0x0032   100   100   000    Old_age   Always       -       44
184 End-to-End_Error        0x0033   100   100   090    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
190 Temperature_Case        0x0022   067   061   000    Old_age   Always       -       33 (Min/Max 12/39)
192 Unsafe_Shutdown_Count   0x0032   100   100   000    Old_age   Always       -       5
194 Temperature_Internal    0x0022   100   100   000    Old_age   Always       -       33
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
199 CRC_Error_Count         0x003e   100   100   000    Old_age   Always       -       437
225 Host_Writes_32MiB       0x0032   100   100   000    Old_age   Always       -       349709
226 Workld_Media_Wear_Indic 0x0032   100   100   000    Old_age   Always       -       1157
227 Workld_Host_Reads_Perc  0x0032   100   100   000    Old_age   Always       -       14
228 Workload_Minutes        0x0032   100   100   000    Old_age   Always       -       729891
232 Available_Reservd_Space 0x0033   100   100   010    Pre-fail  Always       -       0
233 Media_Wearout_Indicator 0x0032   099   099   000    Old_age   Always       -       0
234 Thermal_Throttle        0x0032   100   100   000    Old_age   Always       -       0/0
241 Host_Writes_32MiB       0x0032   100   100   000    Old_age   Always       -       349709
242 Host_Reads_32MiB        0x0032   100   100   000    Old_age   Always       -       58042
243 NAND_Writes_32MiB       0x0032   100   100   000    Old_age   Always       -       574584

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     12164         -
# 2  Short offline       Completed without error       00%         1         -
# 3  Short offline       Completed without error       00%         1         -
# 4  Short offline       Completed without error       00%         1         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

# fsck -f -y /dev/sdb1
fsck from util-linux 2.27.1

# fsck -f -y /dev/sdb2
fsck from util-linux 2.27.1

# mdadm /dev/md1 --add /dev/sdb1
mdadm: added /dev/sdb1

# mdadm /dev/md2 --add /dev/sdb2
mdadm: re-added /dev/sdb2

En ce moment cela se reconstruit effectivement (md1 et md2) :

          UUID : 30d58ec2:dabc6fce:a4d2adc2:26fd5302
         Events : 0.64438616

    Number   Major   Minor   RaidDevice State
       0       8        2        0      active sync   /dev/sda2
       2       8       18        1      spare rebuilding   /dev/sdb2

patience mais je pense que c'est résolu. C'est juste une perte de synchronisation ( ? ) et pas un disque qui a flanché
cela arrive-t-il si souvent ? dû au trafic sur les disques ?

Merci bcp en tout cas
Mick

bruno · Le 25/08/2017, à 14:38

Ton disque ne semble pas présenter d'erreur. Il faut voir si la reconstruction va jusqu'au bout et surveiller cela dans les semaines qui suivent.

Ce qui est curieux c'est que les partitions aient été marquées comme supprimées (removed) des volumes RAID. Normalement en cas de problème avec un disque la partition est marquée comme « faulty » (fautif). À ma connaissance, un disque ne peut être marqué comme supprimé que par une action manuelle de la part de l'administrateur (ou éventuellement un débranchement physique du disque).

N.B. : avoir deux disques en RAID 1 permet d'avoir un serveur haute disponibilité. En cas de défaillance de l'un des disques on doit pouvoir le remplacer à chaud et reconstruire le RAID sans interrompre les services. Ce n'est en aucun cas un moyen de sauvegarde, ni une assurance contre la perte de données. Il peut arriver que les deux disques tombent coup sur coup en panne (vécu), en particulier avec deux disques identiques…

Les défaillances disque peuvent toujours arriver un jour où l'autre. La probabilité d'avoir une panne augmente avec le temps et la charge du serveur (fréquence des lectures/écritures sur le disque). Il est donc bon lorsque l'on administre un serveur d'avoir sous la main quelques note sur la procédure à suivre pour remplacer un disque.

mickbad · Le 30/08/2017, à 14:14

Bonjour,

Après quelques jours, les disques se comportent bien et le raid fonctionne
merci pour les commandes d'assemblages et explications.

Je trouve cela aussi bizarre que le disque ait été déclaré en "removed" alors qu'aucune intervention n'a été programmé et que le temps d'utilisation de sdb est le même que sda (à peu de chose près .. ou justement cette différence est peut être un indice)

Toujours est-il que j'ai récupéré les performances et la fonction mirroir.

Bien entendu, et je suis déjà sensibilisé à ça, les sauvegardes sont gérées en interne et en externe du serveur

Merci encore une fois
Bonne journée,
Mick

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#1 Le 25/08/2017, à 10:08

[RESOLU] RAID Degraded (disque sdb inexistant?)

#2 Le 25/08/2017, à 10:37

Re : [RESOLU] RAID Degraded (disque sdb inexistant?)

#3 Le 25/08/2017, à 10:46

Re : [RESOLU] RAID Degraded (disque sdb inexistant?)

#4 Le 25/08/2017, à 12:52

Re : [RESOLU] RAID Degraded (disque sdb inexistant?)

#5 Le 25/08/2017, à 14:12

Re : [RESOLU] RAID Degraded (disque sdb inexistant?)

#6 Le 25/08/2017, à 14:38

Re : [RESOLU] RAID Degraded (disque sdb inexistant?)

#7 Le 30/08/2017, à 14:14

Re : [RESOLU] RAID Degraded (disque sdb inexistant?)

Pied de page des forums