Pages : 1
#1 Le 25/08/2017, à 10:08
- mickbad
[RESOLU] RAID Degraded (disque sdb inexistant?)
Bonjour,
sur un serveur Ubuntu 16.04, j'ai l'information que mon raid md2 est clean mais dégradé. (md1 pour / et md2 pour /home sont dans le même cas)
# mdadm --detail /dev/md2
/dev/md2:
Version : 0.90
Creation Time : Wed Apr 6 10:03:25 2016
Raid Level : raid1
Array Size : 447843264 (427.10 GiB 458.59 GB)
Used Dev Size : 447843264 (427.10 GiB 458.59 GB)
Raid Devices : 2
Total Devices : 1
Preferred Minor : 2
Persistence : Superblock is persistent
Intent Bitmap : Internal
Update Time : Fri Aug 25 10:40:02 2017
State : active, degraded
Active Devices : 1
Working Devices : 1
Failed Devices : 0
Spare Devices : 0
UUID : 30d58ec2:dabc6fce:a4d2adc2:26fd5302
Events : 0.64425544
Number Major Minor RaidDevice State
0 8 2 0 active sync /dev/sda2
2 0 0 2 removed
j'ai ce cas d'usage mais cela m'inquiète un peu car c'est un serveur avec bcp de trafic. Est-ce un problème de défaillance du disque sdb ? le serveur n'a pas été redémarré depuis plusieurs mois, un reboot peut-il remettre droit un raid (utopie quand tu nous tiens ) ?
Merci de vos explications et éventuel tuto
Mick
Dernière modification par mickbad (Le 30/08/2017, à 14:14)
Somewhere in town
Hors ligne
#2 Le 25/08/2017, à 10:37
- bruno
Re : [RESOLU] RAID Degraded (disque sdb inexistant?)
Effectivement une des partitions a été supprimée du RAID. Il faudrait avoir toutes les infos, les retours (en tant que root) de :
parted -l
cat /proc/mdstat
et aussi pour md1 :
mdadm -D /dev/md1
Si le disque (sdb ?) a été retiré des deux partitions RAID c'est sans doute qu'il est défectueux et qu'il doit être remplacé.
Une bonne ressource pour les bases de la gestion d'un RAID 1 : http://www.linuxpedia.fr/doku.php/expert/mdadm
Dernière modification par bruno (Le 25/08/2017, à 10:39)
#3 Le 25/08/2017, à 10:46
- mickbad
Re : [RESOLU] RAID Degraded (disque sdb inexistant?)
Merci de ta réponse, oui je me demande bien si le disque sdb n'est pas défectueux car j'ai vu que md1 et md2 sont dégradés
Pour tes questions :
# parted -l
Model: ATA INTEL SSDSC2BB48 (scsi)
Disk /dev/sda: 480GB
Sector size (logical/physical): 512B/4096B
Partition Table: msdos
Disk Flags:
Number Start End Size Type File system Flags
1 2097kB 21.0GB 21.0GB primary ext4 boot, raid
2 21.0GB 480GB 459GB primary ext4 raid
3 480GB 480GB 536MB primary linux-swap(v1)
Model: ATA INTEL SSDSC2BB48 (scsi)
Disk /dev/sdb: 480GB
Sector size (logical/physical): 512B/4096B
Partition Table: msdos
Disk Flags:
Number Start End Size Type File system Flags
1 2097kB 21.0GB 21.0GB primary ext4 boot, raid
2 21.0GB 480GB 459GB primary ext4 raid
3 480GB 480GB 536MB primary linux-swap(v1)
Model: Linux Software RAID Array (md)
Disk /dev/md1: 21.0GB
Sector size (logical/physical): 512B/4096B
Partition Table: loop
Disk Flags:
Number Start End Size File system Flags
1 0.00B 21.0GB 21.0GB ext4
Model: Linux Software RAID Array (md)
Disk /dev/md2: 459GB
Sector size (logical/physical): 512B/4096B
Partition Table: loop
Disk Flags:
Number Start End Size File system Flags
1 0.00B 459GB 459GB ext4
# cat /proc/mdstat
Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath] [faulty]
md1 : active raid1 sda1[0]
20478912 blocks [2/1] [U_]
md2 : active raid1 sda2[0]
447843264 blocks [2/1] [U_]
bitmap: 4/4 pages [16KB], 65536KB chunk
unused devices: <none>
# mdadm -D /dev/md1
/dev/md1:
Version : 0.90
Creation Time : Wed Apr 6 10:03:25 2016
Raid Level : raid1
Array Size : 20478912 (19.53 GiB 20.97 GB)
Used Dev Size : 20478912 (19.53 GiB 20.97 GB)
Raid Devices : 2
Total Devices : 1
Preferred Minor : 1
Persistence : Superblock is persistent
Update Time : Fri Aug 25 11:44:31 2017
State : clean, degraded
Active Devices : 1
Working Devices : 1
Failed Devices : 0
Spare Devices : 0
UUID : 860702e4:f7671ce2:a4d2adc2:26fd5302
Events : 0.18658816
Number Major Minor RaidDevice State
0 8 1 0 active sync /dev/sda1
2 0 0 2 removed
cela confirmerait il qu'il faille un changement de disque ?
Je vais regarder ton lien mais dans le cas d'un remplacement, ce qui n'est pas rédhibitoire, les commandes de reconstructions et synchro sont-ils simples et peuvent être fait en live (ie hors rescue) ?
Merci bcp,
Mick
Somewhere in town
Hors ligne
#4 Le 25/08/2017, à 12:52
- bruno
Re : [RESOLU] RAID Degraded (disque sdb inexistant?)
Avant de changer le disque tu devrais faire un contrôle du disque avec les smartmontools (installer le paquet du même nom s'ils ne sont pas présents)
Pour voir les infos du disque :
smartctl -a /dev/sdb
Pour lancer un test SMART court :
smartctl -t short /dev/sdb
puis relancer la première commande une fois le test fini.
En cas d'erreurs, donnes-nous les retours, mais le disque sera à remplacer. S'il n'y pas d'erreurs, il faut faire une vérification des systèmes de fichiers sur sdb :
fsck -f -y /dev/sdb1
fsck -f -y /dev/sdb2
Si tout va bien tu pourras réintégrer tes partition aux volumes RAID (voir les docs et ma mdadm) :
mdadm /dev/md1 --add /dev/sdb1
mdadm /dev/md2 --add /dev/sdb2
Si tu dois changer le disque, il faudra récréer la même table de partition sur le nouveau disque (voir ici par exemple) et réintégrer les partitions comme ci-dessus. Si ta machine supporte le branchement de disques à chaud il n'y a pas besoin de redémarrer.
Dernière modification par bruno (Le 25/08/2017, à 12:53)
#5 Le 25/08/2017, à 14:12
- mickbad
Re : [RESOLU] RAID Degraded (disque sdb inexistant?)
Merci pour ces indications, c'était délicat car je n'étais pas vraiment tombé sur ce genre de cas encore (étrange car a priori répandu)
Sinon:
# smartctl -a /dev/sdb
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-3.14.32-xxxx-grs-ipv6-64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Intel 730 and DC S35x0/3610/3700 Series SSDs
Device Model: INTEL SSDSC2BB480G6
Serial Number: PHWA547501UG480FGN
LU WWN Device Id: 5 5cd2e4 04c678a35
Firmware Version: G2010140
User Capacity: 480,103,981,056 bytes [480 GB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: Solid State Device
Form Factor: 2.5 inches
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2 T13/2015-D revision 3
SATA Version is: SATA 2.6, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is: Fri Aug 25 15:04:49 2017 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x02) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 2) seconds.
Offline data collection
capabilities: (0x79) SMART execute Offline immediate.
No Auto Offline data collection support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 2) minutes.
Conveyance self-test routine
recommended polling time: ( 2) minutes.
SCT capabilities: (0x003d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
5 Reallocated_Sector_Ct 0x0032 100 100 000 Old_age Always - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 12164
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 7
170 Available_Reservd_Space 0x0033 100 100 010 Pre-fail Always - 0
171 Program_Fail_Count 0x0032 100 100 000 Old_age Always - 0
172 Erase_Fail_Count 0x0032 100 100 000 Old_age Always - 0
174 Unsafe_Shutdown_Count 0x0032 100 100 000 Old_age Always - 5
175 Power_Loss_Cap_Test 0x0033 100 100 010 Pre-fail Always - 5490 (72 8955)
183 SATA_Downshift_Count 0x0032 100 100 000 Old_age Always - 44
184 End-to-End_Error 0x0033 100 100 090 Pre-fail Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
190 Temperature_Case 0x0022 067 061 000 Old_age Always - 33 (Min/Max 12/39)
192 Unsafe_Shutdown_Count 0x0032 100 100 000 Old_age Always - 5
194 Temperature_Internal 0x0022 100 100 000 Old_age Always - 33
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
199 CRC_Error_Count 0x003e 100 100 000 Old_age Always - 437
225 Host_Writes_32MiB 0x0032 100 100 000 Old_age Always - 349709
226 Workld_Media_Wear_Indic 0x0032 100 100 000 Old_age Always - 1157
227 Workld_Host_Reads_Perc 0x0032 100 100 000 Old_age Always - 14
228 Workload_Minutes 0x0032 100 100 000 Old_age Always - 729891
232 Available_Reservd_Space 0x0033 100 100 010 Pre-fail Always - 0
233 Media_Wearout_Indicator 0x0032 099 099 000 Old_age Always - 0
234 Thermal_Throttle 0x0032 100 100 000 Old_age Always - 0/0
241 Host_Writes_32MiB 0x0032 100 100 000 Old_age Always - 349709
242 Host_Reads_32MiB 0x0032 100 100 000 Old_age Always - 58042
243 NAND_Writes_32MiB 0x0032 100 100 000 Old_age Always - 574584
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 12164 -
# 2 Short offline Completed without error 00% 1 -
# 3 Short offline Completed without error 00% 1 -
# 4 Short offline Completed without error 00% 1 -
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
# fsck -f -y /dev/sdb1
fsck from util-linux 2.27.1
# fsck -f -y /dev/sdb2
fsck from util-linux 2.27.1
# mdadm /dev/md1 --add /dev/sdb1
mdadm: added /dev/sdb1
# mdadm /dev/md2 --add /dev/sdb2
mdadm: re-added /dev/sdb2
En ce moment cela se reconstruit effectivement (md1 et md2) :
UUID : 30d58ec2:dabc6fce:a4d2adc2:26fd5302
Events : 0.64438616
Number Major Minor RaidDevice State
0 8 2 0 active sync /dev/sda2
2 8 18 1 spare rebuilding /dev/sdb2
patience mais je pense que c'est résolu. C'est juste une perte de synchronisation ( ? ) et pas un disque qui a flanché
cela arrive-t-il si souvent ? dû au trafic sur les disques ?
Merci bcp en tout cas
Mick
Somewhere in town
Hors ligne
#6 Le 25/08/2017, à 14:38
- bruno
Re : [RESOLU] RAID Degraded (disque sdb inexistant?)
Ton disque ne semble pas présenter d'erreur. Il faut voir si la reconstruction va jusqu'au bout et surveiller cela dans les semaines qui suivent.
Ce qui est curieux c'est que les partitions aient été marquées comme supprimées (removed) des volumes RAID. Normalement en cas de problème avec un disque la partition est marquée comme « faulty » (fautif). À ma connaissance, un disque ne peut être marqué comme supprimé que par une action manuelle de la part de l'administrateur (ou éventuellement un débranchement physique du disque).
N.B. : avoir deux disques en RAID 1 permet d'avoir un serveur haute disponibilité. En cas de défaillance de l'un des disques on doit pouvoir le remplacer à chaud et reconstruire le RAID sans interrompre les services. Ce n'est en aucun cas un moyen de sauvegarde, ni une assurance contre la perte de données. Il peut arriver que les deux disques tombent coup sur coup en panne (vécu), en particulier avec deux disques identiques…
Les défaillances disque peuvent toujours arriver un jour où l'autre. La probabilité d'avoir une panne augmente avec le temps et la charge du serveur (fréquence des lectures/écritures sur le disque). Il est donc bon lorsque l'on administre un serveur d'avoir sous la main quelques note sur la procédure à suivre pour remplacer un disque.
#7 Le 30/08/2017, à 14:14
- mickbad
Re : [RESOLU] RAID Degraded (disque sdb inexistant?)
Bonjour,
Après quelques jours, les disques se comportent bien et le raid fonctionne
merci pour les commandes d'assemblages et explications.
Je trouve cela aussi bizarre que le disque ait été déclaré en "removed" alors qu'aucune intervention n'a été programmé et que le temps d'utilisation de sdb est le même que sda (à peu de chose près .. ou justement cette différence est peut être un indice)
Toujours est-il que j'ai récupéré les performances et la fonction mirroir.
Bien entendu, et je suis déjà sensibilisé à ça, les sauvegardes sont gérées en interne et en externe du serveur
Merci encore une fois
Bonne journée,
Mick
Somewhere in town
Hors ligne
Pages : 1