NAS raid 5 - 2 Drives removed - SOS!

makar · Le 17/01/2018, à 15:23

Bonjour!

je cherche désesperement de l'aide sur le net pour notre cas:

On est sur Iomega StroCenter px12-350r avec 4 dd de 3TB en RAID5
ya un moins un de drive est tombé en Failed qqs jours après le deuxième à suivi, et est devenu Non reconnu

voici ce que j'ai pu faire (en utilisant Putty) suivant les autres pannes trouvé sur ce site et ailleurs:

[b]root@iomega:/# cat /proc/mdstat
[/b]
Personalities : [raid0] [raid1] [raid10] [raid6] [raid5] [raid4]
md1 : active raid5 sda2[0](F) sdc2[3] sdb2[2]
      8727856128 blocks super 1.0 level 5, 512k chunk, algorithm 2 [4/2] [__UU]

md0 : active raid1 sdb1[0] sdc1[3]
      20980816 blocks super 1.0 [4/2] [U__U]



[b]root@iomega:/# mdadm --detail /dev/md1
[/b]/dev/md1:
        Version : 1.00
  Creation Time : Tue Feb 28 02:56:39 2012
     Raid Level : raid5
     Array Size : 8727856128 (8323.53 GiB 8937.32 GB)
  Used Dev Size : 2909285376 (2774.51 GiB 2979.11 GB)
   Raid Devices : 4
  Total Devices : 3
    Persistence : Superblock is persistent

    Update Time : Fri Jan 12 09:43:44 2018
          State : clean, degraded
 Active Devices : 2
Working Devices : 2
 Failed Devices : 1
  Spare Devices : 0

         Layout : left-symmetric
     Chunk Size : 512K

           Name : px12-BNZUA4:1
           UUID : 9bb8f551:87a2fa74:32bdcaa0:8a503a74
         Events : 322914

    Number   Major   Minor   RaidDevice State
       0       0        0        0      removed
       1       0        0        1      removed
       2       8       18        2      active sync   /dev/sdb2
       3       8       34        3      active sync   /dev/sdc2

       0       8        2        -      faulty spare   /dev/sda2





[b]root@iomega:/# fdisk -l | head -50
[/b]
WARNING: GPT (GUID Partition Table) detected on '/dev/sda'! The util fdisk doesn't support GPT. Use GNU Parted.


WARNING: GPT (GUID Partition Table) detected on '/dev/sdb'! The util fdisk doesn't support GPT. Use GNU Parted.


WARNING: GPT (GUID Partition Table) detected on '/dev/sdc'! The util fdisk doesn't support GPT. Use GNU Parted.

Disk /dev/md0 doesn't contain a valid partition table
Disk /dev/md1 doesn't contain a valid partition table

Disk /dev/sda: 3000.5 GB, 3000592982016 bytes
255 heads, 63 sectors/track, 364801 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Disk identifier: 0x49f56d30

   Device Boot      Start         End      Blocks   Id  System
/dev/sda1               1      267350  2147483647+  ee  EFI GPT

Disk /dev/sdb: 3000.5 GB, 3000592982016 bytes
255 heads, 63 sectors/track, 364801 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Disk identifier: 0x1c37f46c

   Device Boot      Start         End      Blocks   Id  System
/dev/sdb1               1      267350  2147483647+  ee  EFI GPT

Disk /dev/sdc: 3000.5 GB, 3000592982016 bytes
255 heads, 63 sectors/track, 364801 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Disk identifier: 0x4dd6479e

   Device Boot      Start         End      Blocks   Id  System
/dev/sdc1               1      267350  2147483647+  ee  EFI GPT

Disk /dev/sdd: 1031 MB, 1031798784 bytes
32 heads, 62 sectors/track, 1015 cylinders
Units = cylinders of 1984 * 512 = 1015808 bytes
Disk identifier: 0x00000000

   Device Boot      Start         End      Blocks   Id  System
/dev/sdd1               1         980      972129   83  Linux

Disk /dev/md0: 21.4 GB, 21484355584 bytes
2 heads, 4 sectors/track, 5245204 cylinders
Units = cylinders of 8 * 512 = 4096 bytes
Disk identifier: 0x00000000


Disk /dev/md1: 8937.3 GB, 8937324675072 bytes
2 heads, 4 sectors/track, -2113003264 cylinders
Units = cylinders of 8 * 512 = 4096 bytes
Disk identifier: 0x00000000

les deux drives de md1 sont marqués Removed selon mdadm comme on sait le voir. (je suppose que NAS les à "coupé" vu leur défaillance )
je sait qu'on ne peut pas exécuter certain commandes de recup qui peuvent définitivement faire perdre les infos..

Alors je ne sait pas par où avancer maintenant : faut il tester les dd, faire une image, lancé une reparataion ou recuperation des dd..

Je cherche donc qqn qui à plus d'exp que moi.
Je vous remercie vous pourriez m'aider avec tout ca, ou le diriger vers un bon forum...

Bien à vous!

Brunod · Le 17/01/2018, à 15:51

Salut,
Pour commencer tout éteindre, sortir les disques et les dupliquer par dd.
Travailler sur les copies, garder les originaux au chaud, prier si on y croit...
De tout coeur avec vous...
(Ne plus jamais traîner quand un disque tombe ...)

makar · Le 18/01/2018, à 10:08

Merci pour l réponse Brunod,
je le vais faire avec des exemples ci dessous:

dd if=/dev/sda of=/dev/sdb
dd if=/dev/sda | ssh 10.21.21.231 "dd of=/dev/sda"
dd if=/dev/hdb | gzip -c > /image.img

ensuite je suppose il faut tester les drives (ou les imges) pour définir c'est quoi leur faille exacte ?

?? · Le 18/01/2018, à 11:58

Bonjour
D'abord tu dois lancer le logiciel smarctl pour savoir ce qui ve va pas sur tes deux disques.
https://doc.ubuntu-fr.org/smartmontools
Tu peux poster au besoin.
Tu va certainement découvrir qu'il y a des secteurs illisibles====> Cela exclut l'usage de la commande dd et oblige l'utilisation de la commande ddrescue
https://doc.ubuntu-fr.org/ddrescue
Tu risques donc de devoir acheter deux nouveaux disques d'au moins une taille égale.

Dernière modification par ?? (Le 18/01/2018, à 12:06)

Brunod · Le 18/01/2018, à 12:15

makar a écrit :

Merci pour l réponse Brunod,
je le vais faire avec des exemples ci dessous:
dd if=/dev/sda of=/dev/sdb
dd if=/dev/sda | ssh 10.21.21.231 "dd of=/dev/sda"
dd if=/dev/hdb | gzip -c > /image.img
ensuite je suppose il faut tester les drives (ou les imges) pour définir c'est quoi leur faille exacte ?

?? a en partie raison, mais je diverge sur la façon de faire.
dd permet de travailler sur une copie exacte de tes disques, erreurs comprises. Si ils sont déjà en train de lâcher, lancer un rescue ou tout autre action dessus risque de les tuer complètement. Donc tu commences par créer tes images, en bootant le moins possible (parfois il ne bootent plus qu'une fois sur deux... avant de ne plus booter du tout !), et tu travailles sur tes images pour commencer. Tu backup tout ce que tu peux backuper de manière "normale", puis tu attaque avec des outils de recovery sur les images toujours. S'il reste des trous après tout ça, bien les circonscrire puis tu attaques enfin les originaux, mais c'est la dernière chance quand il n'y a plus rien à perdre à tenter le tout pour le tout. Je ne suis pas expert, mais sur le nombre d'années, j'ai déjà eu affaire à 3 cas semblables.
BD
Edit : comme je disais précédemment, il FAUT donc acheter de nouveaux disques de capacité = ou > pour créer les images par dd if=/dev/sda of=/dev/sdb. Le backup se fera ailleurs, mais ils serviront ensuite à remplacer la grappe de disques mourants.

Dernière modification par Brunod (Le 18/01/2018, à 12:17)

?? · Le 18/01/2018, à 13:20

Désolé, Lorsqu'une erreur de lecture se produit, les commandes standards y compris dd insistent lourdement avant de déclarer que c'est illisible, au risque de provoquer des dégâts irréparables dès le début de la copie en laissant tout le reste non recopié.

Je ne suis pas certain qu'il existe une option dans DD pour éviter de se planter lorsqu'une erreur irréparable se produit. Ce qui n'est pas le cas de DDRESCUE.
C'est pour cela que DDRESCUE a été créé. Lui, il n'insiste pas, il copie ce qui est lisible, puis après il s'intéresse à ce qui n'a pas pu être lu facilement. A ce niveau, il est comme les autres, il peut faire détruire le mécanisme de lecture mais au moins, 99,99% des secteurs ont été récupérés.
De plus il a une option pour positionner le taux d'agressivité de la lecture ainsi qu'une option de reprise automatique.
il faut commencer avec une valeur faible, puis continuer avec une valeur moyenne avant de passer à une valeur forte puis après aller jusqu'à la destruction du disque si on veut à tout prix lire ce qui est illisible.

J'ai vu une discussion avec un expert qui indique astucieusement qu'il est inutile de vouloir à tout prix lire des secteurs illisibles qui n'appartiennent pas à des fichiers.
Il a donc ajouté une séquence permettant d'identifier parmi les secteurs détectés illisibles, ceux qu'il faut vraiment lire et ceux qu'il est inutile de lire. Je pense qu'elle est retrouvable. Surtout si dans quelques jours, il lit ta discussion RAIDS.
Cette recherche se passe sur la duplication afin de préserver l'original.
Lorsque tout cela est fait, il ne reste plus qu'à faire des fsck pour contrôler (En RAIDS je maîtrise mal).

Dernière modification par ?? (Le 18/01/2018, à 16:34)

makar · Le 18/01/2018, à 16:15

voila voila
smartctl -Hc /dev/sda2 je vois que smart test FAILED mais je ne sait pas si c'est réparable

=== START OF INFORMATION SECTION ===
Device Model:     HUA723030ALA640
Serial Number:    YHGV9YTA
Firmware Version: MKAOA690
User Capacity:    3,000,592,982,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Thu Jan 18 12:55:11 2018 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less than 24 hours. SAVE ALL DATA.
See vendor-specific Attribute list for failed Attributes.

General SMART Values:
Offline data collection status:  (0x84) Offline data collection activity
                                        was suspended by an interrupting command from host.
                                        Auto Offline Data Collection: Enabled.

Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.

Total time to complete Offline
data collection:                 (28081) seconds.

Offline data collection
capabilities:                    (0x5b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.

SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.

Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.

Short self-test routine
recommended polling time:        (   1) minutes.

Extended self-test routine
recommended polling time:        ( 255) minutes.

SCT capabilities:              (0x003f) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     	0x000b   059   059   016    Pre-fail  Always       -       579209661
  2 Throughput_Performance  	0x0005   134   134   054    Pre-fail  Offline      -       87
  3 Spin_Up_Time           	 0x0007   124   124   024    Pre-fail  Always       -       620 (Average 621)
  4 Start_Stop_Count        	0x0012   100   100   000    Old_age   Always       -       47
5 Reallocated_Sector_Ct   	0x0033   001   001   005    Pre-fail  Always   FAILING_NOW 2001
7 Seek_Error_Rate         	0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   	0x0005   135   135   020    Pre-fail  Offline      -       26
  9 Power_On_Hours          	0x0012   093   093   000    Old_age   Always       -       49390
 10 Spin_Retry_Count        	0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       	0x0032   100   100   000    Old_age   Always       -       47
192 Power-Off_Retract_Count 	0x0032   099   099   000    Old_age   Always       -       1553
193 Load_Cycle_Count        	0x0012   099   099   000    Old_age   Always       -       1553
194 Temperature_Celsius     	0x0002   171   171   000    Old_age   Always       -       35 (Min/Max 9/50)
196 Reallocated_Event_Count 	0x0032   001   001   000    Old_age   Always       -       3421
197 Current_Pending_Sector  	0x0022   100   100   000    Old_age   Always       -       4
198 Offline_Uncorrectable   	0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    	0x000a   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
ATA Error Count: 185 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 185 occurred at disk power-on lifetime: 49390 hours (2057 days + 22 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 a8 40 b2 73 09

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 18 50 68 b9 73 40 00      00:32:33.060  READ FPDMA QUEUED
  60 a8 00 d8 b4 73 40 00      00:32:33.059  READ FPDMA QUEUED
  60 f8 48 e0 b3 73 40 00      00:32:31.142  READ FPDMA QUEUED
  60 f8 40 e8 b2 73 40 00      00:32:31.142  READ FPDMA QUEUED
  60 f8 38 f0 b1 73 40 00      00:32:31.142  READ FPDMA QUEUED

Error 184 occurred at disk power-on lifetime: 49390 hours (2057 days + 22 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 70 f8 ea d0 0b

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  61 02 20 60 a3 50 40 00      00:31:32.486  WRITE FPDMA QUEUED
  60 58 18 60 ec d0 40 00      00:31:22.511  READ FPDMA QUEUED
  60 f8 10 68 eb d0 40 00      00:31:22.511  READ FPDMA QUEUED
  60 f0 08 78 ea d0 40 00      00:31:22.511  READ FPDMA QUEUED
  60 f8 00 80 e9 d0 40 00      00:31:22.511  READ FPDMA QUEUED

Error 183 occurred at disk power-on lifetime: 49389 hours (2057 days + 21 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 b0 90 03 ab 0d

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  61 02 00 60 a3 50 40 00      00:28:13.488  WRITE FPDMA QUEUED
  60 d0 50 70 03 ab 40 00      00:28:06.379  READ FPDMA QUEUED
  60 f8 48 78 02 ab 40 00      00:28:06.379  READ FPDMA QUEUED
  60 f8 40 80 01 ab 40 00      00:28:06.379  READ FPDMA QUEUED
  60 20 38 60 71 b8 40 00      00:28:06.378  READ FPDMA QUEUED

Error 182 occurred at disk power-on lifetime: 49389 hours (2057 days + 21 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 18 80 cd 85 03

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 28 f8 68 e0 85 40 00      00:23:51.862  READ FPDMA QUEUED
  60 f8 78 70 df 85 40 00      00:23:51.862  READ FPDMA QUEUED
  60 f8 70 78 de 85 40 00      00:23:51.862  READ FPDMA QUEUED
  60 f8 68 80 dd 85 40 00      00:23:51.862  READ FPDMA QUEUED
  60 20 60 60 dd 85 40 00      00:23:51.862  READ FPDMA QUEUED

Error 181 occurred at disk power-on lifetime: 49389 hours (2057 days + 21 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 e8 80 bf 85 03

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 f0 b0 90 c8 85 40 00      00:22:30.182  READ FPDMA QUEUED
  60 20 a8 70 c8 85 40 00      00:22:30.182  READ FPDMA QUEUED
  60 00 a0 70 c7 85 40 00      00:22:30.182  READ FPDMA QUEUED
  60 f8 98 78 c6 85 40 00      00:22:30.181  READ FPDMA QUEUED
  60 f8 90 80 c5 85 40 00      00:22:30.181  READ FPDMA QUEUED

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

en plus il dit : Drive failure expected in less than 24 hours. ca c'est capoute?
je vous met les autres infos au plus vite

Dernière modification par makar (Le 18/01/2018, à 16:57)

?? · Le 18/01/2018, à 17:10

Réponse rapide pour l'analyse du disque SDA et pas de la partition SDA2.
5 Reallocated_Sector_Ct 0x0033 001 001 005 Pre-fail Always FAILING_NOW 2001

Réparer cela est très compliqué, Il faut rebâtir la table interne de gestion des secteurs défectueux. C'est un formatage usine.
Certains constructeurs fournissent un logiciel. La majorité NON. Ce problème sera à traiter plus tard.

Il y a déjà eu 2001 secteurs rencontrés avec des défauts et le seuil est quasiment atteint. Ne resterait plus que 1 % de disponible. Normalement, tu aurais du être informé par le mécanisme de suivi de la qualité du disque (probablement mal paramétré) lorsque le seuil a atteint 5 % soit donc vers 1900 secteurs.

197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 4
Actuellement, tu as 4 secteurs qui ne peuvent plus du tout être lu. En théorie, ils sont récupérables lorsqu'on les réécrits en les remplaçant par des secteurs de la table des réalloués qui est maintenant complètement utilisée . Tu ne peux donc plus écrire sur le disque.

Error 185 occurred at disk power-on lifetime: 49390 hours (2057 days + 22 hours)
Le dernier incident de lecture remonte à 49390 heures soit maintenant.
9 Power_On_Hours 0x0012 093 093 000 Old_age Always - 49390

J'ai noté que tu n'as pas encore fourni l'état de l'autre disque qui a été éjecté.
Je suis donc incapable d'émettre un avis pour savoir lequel des deux disques est à traiter en priorité pour réparation.
En effet, il suffit de remettre en état un seul des deux disques, de relancer le raids et c'est lui qui va rebâtir le disque manquant.
Je te poste déjà cela dans l'attente de l'état du second disque.

Je vais aussi te demander une commande pour connaître quel disque a été viré en premier du raids. ( Le temps que je la retrouve)
C'est probablement lui qu'il va falloir éviter de réparer sauf si l'autre apparaît en plus mauvais état.

Tu donneras aussi le retour de ces commandes

sudo sudo mdadm --misc /dev/sda2 -E

sudo sudo mdadm --misc /dev/sda1 -E

sudo sudo mdadm --misc /dev/sdd2 -E

sudo sudo mdadm --misc /dev/sdd1 -E

et j'essaie aussi

sudo sudo mdadm --misc /dev/sd[a-d][1-2] -E

Ce disque ( HUA723030ALA640 ) est garanti 5ans par le constructeur et il a des secteurs physiques de 512 octets. https://www.hgst.com/sites/default/file … 000_ds.pdf

Dernière modification par ?? (Le 18/01/2018, à 18:10)

Brunod · Le 19/01/2018, à 07:01

?? a écrit :

...
J'ai noté que tu n'as pas encore fourni l'état de l'autre disque qui a été éjecté.
Je suis donc incapable d'émettre un avis pour savoir lequel des deux disques est à traiter en priorité pour réparation.
En effet, il suffit de remettre en état un seul des deux disques, de relancer le raids et c'est lui qui va rebâtir le disque manquant.
Je te poste déjà cela dans l'attente de l'état du second disque.
...

Comme j'ai compris, les deux disques n'ont pas été retirés au même moment; il y a plusieurs jours d'écarts... Attention à la désynchronisation de la grappe.

makar · Le 19/01/2018, à 14:07

voici d'abord les réponses :

 oot@iomega:/# mdadm --misc /dev/sda2 -E
mdadm: No md superblock detected on /dev/sda2.
root@iomega:/#

mdadm: No md superblock detected on /dev/sda1.

mdadm: cannot open /dev/sdd2: No such device or address

mdadm: No md superblock detected on /dev/sdd1.

et pour mdadm --misc /dev/sd[a-d][1-2] -E

mdadm: No md superblock detected on /dev/sda1.
mdadm: No md superblock detected on /dev/sda2.
/dev/sdb1:
          Magic : a92b4efc
        Version : 1.0
    Feature Map : 0x0
     Array UUID : e997f070:499eb23d:8173b68a:3fdc9ce0
           Name : px12-BNZUA4:0
  Creation Time : Tue Feb 28 02:56:29 2012
     Raid Level : raid1
   Raid Devices : 4

 Avail Dev Size : 41961632 (20.01 GiB 21.48 GB)
     Array Size : 41961632 (20.01 GiB 21.48 GB)
   Super Offset : 41961760 sectors
          State : clean
    Device UUID : 17c794f4:44312e2e:f3f29b8b:344f8a4c

    Update Time : Thu Dec 21 10:47:18 2017
       Checksum : 351345c7 - correct
         Events : 305045


   Device Role : Active device 1
   Array State : AA.A ('A' == active, '.' == missing)
/dev/sdb2:
          Magic : a92b4efc
        Version : 1.0
    Feature Map : 0x0
     Array UUID : 9bb8f551:87a2fa74:32bdcaa0:8a503a74
           Name : px12-BNZUA4:1
  Creation Time : Tue Feb 28 02:56:39 2012
     Raid Level : raid5
   Raid Devices : 4

 Avail Dev Size : 5818570976 (2774.51 GiB 2979.11 GB)
     Array Size : 17455712256 (8323.53 GiB 8937.32 GB)
  Used Dev Size : 5818570752 (2774.51 GiB 2979.11 GB)
   Super Offset : 5818571232 sectors
          State : clean
    Device UUID : db9f8045:e95f5db7:eddf6b97:e79ed2c5

    Update Time : Fri Jan 19 13:18:38 2018
       Checksum : 5f5849fe - correct
         Events : 323929

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 0
   Array State : A.AA ('A' == active, '.' == missing)
/dev/sdc1:
          Magic : a92b4efc
        Version : 1.0
    Feature Map : 0x0
     Array UUID : e997f070:499eb23d:8173b68a:3fdc9ce0
           Name : px12-BNZUA4:0
  Creation Time : Tue Feb 28 02:56:29 2012
     Raid Level : raid1
   Raid Devices : 4

 Avail Dev Size : 41961632 (20.01 GiB 21.48 GB)
     Array Size : 41961632 (20.01 GiB 21.48 GB)
   Super Offset : 41961760 sectors
          State : clean
    Device UUID : f27d604d:40ee38aa:6008371c:4d0063e6

    Update Time : Fri Jan 19 13:31:53 2018
       Checksum : 34810186 - correct
         Events : 313060


   Device Role : Active device 0
   Array State : A..A ('A' == active, '.' == missing)
/dev/sdc2:
          Magic : a92b4efc
        Version : 1.0
    Feature Map : 0x0
     Array UUID : 9bb8f551:87a2fa74:32bdcaa0:8a503a74
           Name : px12-BNZUA4:1
  Creation Time : Tue Feb 28 02:56:39 2012
     Raid Level : raid5
   Raid Devices : 4

 Avail Dev Size : 5818570976 (2774.51 GiB 2979.11 GB)
     Array Size : 17455712256 (8323.53 GiB 8937.32 GB)
  Used Dev Size : 5818570752 (2774.51 GiB 2979.11 GB)
   Super Offset : 5818571232 sectors
          State : clean
    Device UUID : 50eb5a67:92e51153:22ba8961:f9b7b2b2

    Update Time : Fri Jan 19 13:18:38 2018
       Checksum : d3e50e64 - correct
         Events : 323929

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 2
   Array State : A.AA ('A' == active, '.' == missing)
mdadm: No md superblock detected on /dev/sdd1.
mdadm: cannot open /dev/sdd2: No such device or address
root@iomega:/#

makar · Le 19/01/2018, à 14:43

un truc etrange aujourdhui pour smartctl -a /dev/sda j'ai ça :

smartctl 5.40 2010-10-16 r3189 [x86_64-unknown-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

Short INQUIRY response, skip product id
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.
root@iomega:/#

et pour smartctl -a /dev/sdb ceci :

smartctl 5.40 2010-10-16 r3189 [x86_64-unknown-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     HUA723030ALA640
Serial Number:    YHGV9YTA
Firmware Version: MKAOA690
User Capacity:    3,000,592,982,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Fri Jan 19 14:21:18 2018 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less than 24 hours. SAVE ALL DATA.
See vendor-specific Attribute list for failed Attributes.

General SMART Values:
Offline data collection status:  (0x84) Offline data collection activity
                                        was suspended by an interrupting command from host.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 (28081) seconds.
Offline data collection
capabilities:                    (0x5b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 255) minutes.
SCT capabilities:              (0x003f) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   030   030   016    Pre-fail  Always       -       1273872184
  2 Throughput_Performance  0x0005   134   134   054    Pre-fail  Offline      -       88
  3 Spin_Up_Time            0x0007   124   124   024    Pre-fail  Always       -       620 (Average 621)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       47
  5 Reallocated_Sector_Ct   0x0033   001   001   005    Pre-fail  Always   FAILING_NOW 2001
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   135   135   020    Pre-fail  Offline      -       26
  9 Power_On_Hours          0x0012   093   093   000    Old_age   Always       -       49415
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       47
192 Power-Off_Retract_Count 0x0032   099   099   000    Old_age   Always       -       1553
193 Load_Cycle_Count        0x0012   099   099   000    Old_age   Always       -       1553
194 Temperature_Celsius     0x0002   157   157   000    Old_age   Always       -       38 (Min/Max 9/50)
196 Reallocated_Event_Count 0x0032   001   001   000    Old_age   Always       -       3421
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       4
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
ATA Error Count: 248 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 248 occurred at disk power-on lifetime: 49413 hours (2058 days + 21 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 70 00 a8 d0 0f

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 08 00 b0 1c 71 40 00   1d+00:08:02.242  READ FPDMA QUEUED
  60 10 20 70 a9 d0 40 00   1d+00:08:02.227  READ FPDMA QUEUED
  60 00 18 70 a8 d0 40 00   1d+00:08:02.227  READ FPDMA QUEUED
  60 00 10 70 a7 d0 40 00   1d+00:08:02.227  READ FPDMA QUEUED
  60 f8 08 78 a6 d0 40 00   1d+00:08:02.227  READ FPDMA QUEUED

Error 247 occurred at disk power-on lifetime: 49413 hours (2058 days + 21 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 20 d0 6c d0 0f

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 f0 6b d0 40 00      23:55:19.098  READ FPDMA QUEUED
  60 00 01 01 00 00 a0 ff      23:55:09.887  READ FPDMA QUEUED
  60 00 00 f0 6b d0 0f ff      23:55:09.887  READ FPDMA QUEUED
  60 00 00 f0 6b d0 40 00      23:55:09.809  READ FPDMA QUEUED
  60 00 00 f0 6b d0 40 00      23:54:55.263  READ FPDMA QUEUED

Error 246 occurred at disk power-on lifetime: 49413 hours (2058 days + 21 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 90 60 6c d0 0f

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 f0 6b d0 40 00      23:54:55.263  READ FPDMA QUEUED
  60 10 60 90 6c d0 4f 04      23:54:45.327  READ FPDMA QUEUED
  60 10 00 e0 9b 58 40 00      23:54:31.216  READ FPDMA QUEUED
  60 00 08 f0 6b d0 40 00      23:54:31.206  READ FPDMA QUEUED
  61 08 00 d0 89 dd 40 00      23:54:31.206  WRITE FPDMA QUEUED

Error 245 occurred at disk power-on lifetime: 49413 hours (2058 days + 21 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 18 58 6b d0 0f

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 10 18 a0 56 2b 40 00      23:53:59.671  READ FPDMA QUEUED
  60 80 10 70 6b d0 40 00      23:53:59.670  READ FPDMA QUEUED
  60 f8 08 78 6a d0 40 00      23:53:59.670  READ FPDMA QUEUED
  60 f8 00 80 69 d0 40 00      23:53:59.670  READ FPDMA QUEUED
  60 10 00 80 99 58 40 00      23:53:59.652  READ FPDMA QUEUED

Error 244 occurred at disk power-on lifetime: 49413 hours (2058 days + 21 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 90 e0 ba 1c 08

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 f8 40 68 bc 1c 40 00      23:44:46.203  READ FPDMA QUEUED
  60 f8 80 70 bb 1c 40 00      23:44:46.203  READ FPDMA QUEUED
  60 f8 78 78 ba 1c 40 00      23:44:46.203  READ FPDMA QUEUED
  60 f8 70 80 b9 1c 40 00      23:44:46.202  READ FPDMA QUEUED
  60 f8 68 80 bd 1c 40 00      23:44:46.202  READ FPDMA QUEUED

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

?? · Le 19/01/2018, à 17:55

Bonjour
Tout d'abord, je tiens à te dire que j'ai une connaissance pratique de la structure RAID5 nulle et très limitée pour la structure RAID1.
Ayant vu ta présentation

"On est sur Iomega StroCenter px12-350r avec [b]4[/b] dd de 3TB en RAID[b]5[/b]"

ôt que SD
Je m'attendais à trouver la présence de 4 disques SDA SDB SDC et certainement SDD plutôt qu'une autre lettre.
Et il y en a bien 4

[b]root@iomega:/# mdadm --detail /dev/md1
[/b]/dev/md1:
        Version : 1.00
  Creation Time : Tue Feb 28 02:56:39 2012
     Raid Level : raid5
     Array Size : 8727856128 (8323.53 GiB 8937.32 GB)
  Used Dev Size : 2909285376 (2774.51 GiB 2979.11 GB)
   Raid Devices : 4
  Total Devices : 3

Pour tirer cela au clair, peux-tu aussi donner le retour de
sudo lsblk -o size,name,fstype,label,mountpoint

Dernière modification par ?? (Le 28/01/2018, à 18:34)

?? · Le 19/01/2018, à 18:25

Hier, tu as écris
"smartctl -Hc /dev/sda2 je vois que smart test FAILED mais je ne sait pas si c'est réparable
=== START OF INFORMATION SECTION ===
Device Model: HUA723030ALA640
Serial Number: YHGV9YTA"

Aujourd'hui tu écris

pour smartctl -a /dev/sdb ceci :
smartctl 5.40 2010-10-16 r3189 [x86_64-unknown-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net
=== START OF INFORMATION SECTION ===
Device Model:     HUA723030ALA640
Serial Number:    [b]YHGV9YTA[/b]

On voit clairement que le SDA de hier est le SDB de maintenant. Il va falloir fair gaffe de ne pas se tromper de disque
Ce nouvel SDA pourrait être ce fameux 4eme disque.

Peux-tu donner le résultat de

sudo smartctl -s on   -T verypermissive -a /dev/sda

et de

sudo ls -als /dev/disk/by-id

afin d'établir avec certitude l'identité des disques.

Dernière modification par ?? (Le 19/01/2018, à 18:29)

makar · Le 25/01/2018, à 16:52

Bonjour !

Voila, désolé de ne plus donner de nouvelles, mais comme vous l'avez compris je présume, l'affaire s'est aggravé ...
toujours est-il on a réussie de copié environ 90 % de data en redémarrant le nas chaque fois qu'il se plantait.. (dizaine de fois par jour depuis le debut)

Merci à votre participation et votre aide !
Heureusement qu'il y a encore ce genre de site

Bien à vous
M

Dernière modification par makar (Le 25/01/2018, à 16:52)

?? · Le 28/01/2018, à 18:37

Bonjour
J'espère pour toi que tu pourras réactiver ce RAID5 avec seulement 3 disques dont l'un n'est reconstitué qu'à 90%. Cela me semble un mauvais score pour DDRESCUE. Je n'avais pas imaginé ce disque en si mauvais état.

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#1 Le 17/01/2018, à 15:23

NAS raid 5 - 2 Drives removed - SOS!

#2 Le 17/01/2018, à 15:51

Re : NAS raid 5 - 2 Drives removed - SOS!

#3 Le 18/01/2018, à 10:08

Re : NAS raid 5 - 2 Drives removed - SOS!

#4 Le 18/01/2018, à 11:58

Re : NAS raid 5 - 2 Drives removed - SOS!

#5 Le 18/01/2018, à 12:15

Re : NAS raid 5 - 2 Drives removed - SOS!

#6 Le 18/01/2018, à 13:20

Re : NAS raid 5 - 2 Drives removed - SOS!

#7 Le 18/01/2018, à 16:15

Re : NAS raid 5 - 2 Drives removed - SOS!

#8 Le 18/01/2018, à 17:10

Re : NAS raid 5 - 2 Drives removed - SOS!

#9 Le 19/01/2018, à 07:01

Re : NAS raid 5 - 2 Drives removed - SOS!

#10 Le 19/01/2018, à 14:07

Re : NAS raid 5 - 2 Drives removed - SOS!

#11 Le 19/01/2018, à 14:43

Re : NAS raid 5 - 2 Drives removed - SOS!

#12 Le 19/01/2018, à 17:55

Re : NAS raid 5 - 2 Drives removed - SOS!

#13 Le 19/01/2018, à 18:25

Re : NAS raid 5 - 2 Drives removed - SOS!

#14 Le 25/01/2018, à 16:52

Re : NAS raid 5 - 2 Drives removed - SOS!

#15 Le 28/01/2018, à 18:37

Re : NAS raid 5 - 2 Drives removed - SOS!

Pied de page des forums