#151 Le 02/12/2016, à 18:37
- piouk03
Re : [Résolu] Problème RAID5 mdadm
Bonsoir,
Les câbles sont neufs, je veux bien essayer de les changer demain pour voir s'il y a une amélioration, mais honnêtement j'ai quelques doutes.
Je ne suis pas connaisseur du tout, mais à l'oeil il y a ata 0.0.2, ata 0.0.3 et ata0.0.4, j'en ai déduit que le dernier numéro correspondait à un disque en particulier. Or il y en a 3 qui apparaissent, correspondants aux 3 disques de mon RAID d'origine, excluant donc le disque neuf. Donc un problème qui serait sur tous les disques présents lors du crash initial de mon serveur !? (je suis peut-être complètement à côté de la plaque... )
Je viens d'essayer
cat /var/log/syslog | grep fail
, mais j'ai l'impression que tout n'apparait pas sur putty, car quand je remonte tout en haut je n'ai plus la commande que j'ai tapé :
Nov 27 20:10:57 server systemd[1]: nmbd.service: Unit entered failed state.
Nov 27 20:12:18 server smbd[2414]: ...fail!
Nov 27 20:12:18 server systemd[1]: smbd.service: Unit entered failed state.
Nov 27 20:12:18 server nmbd[2459]: ...fail!
Nov 27 20:12:18 server systemd[1]: nmbd.service: Unit entered failed state.
Nov 27 20:16:13 server smbd[4223]: ...fail!
Nov 27 20:16:13 server systemd[1]: smbd.service: Unit entered failed state.
Nov 27 20:16:49 server smbd[4344]: ...fail!
Nov 27 20:16:49 server systemd[1]: smbd.service: Unit entered failed state.
Nov 27 20:16:49 server nmbd[4389]: ...fail!
Nov 27 20:16:49 server systemd[1]: nmbd.service: Unit entered failed state.
Nov 27 20:17:22 server kernel: [ 737.373307] ata3.00: failed command: WRITE FPDMA QUEUED
Nov 27 20:17:52 server kernel: [ 767.521333] ata3.00: failed command: WRITE FPDMA QUEUED
Nov 27 20:19:38 server smbd[5948]: ...fail!
Nov 27 20:19:38 server systemd[1]: smbd.service: Unit entered failed state.
Nov 28 19:23:07 server systemd-udevd[541]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 28 19:23:07 server systemd-udevd[543]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 28 19:23:07 server systemd-udevd[537]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 28 19:23:07 server systemd-udevd[535]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 28 19:23:07 server systemd-udevd[535]: Process '/sbin/mdadm --incremental /dev/sdb1 --offroot' failed with exit code 1.
Nov 28 19:23:07 server systemd-udevd[543]: Process '/sbin/mdadm --incremental /dev/sdc1 --offroot' failed with exit code 1.
Nov 28 19:23:07 server systemd-udevd[537]: Process '/sbin/mdadm --incremental /dev/sdd1 --offroot' failed with exit code 1.
Nov 28 19:23:07 server systemd-udevd[541]: Process '/sbin/mdadm --incremental /dev/sda1 --offroot' failed with exit code 1.
Nov 28 19:23:07 server rpcbind[885]: rpcbind: xdr_/run/rpcbind/rpcbind.xdr: failed
Nov 28 19:23:07 server rpcbind[885]: rpcbind: xdr_/run/rpcbind/portmap.xdr: failed
Nov 28 19:23:07 server smartd[902]: Device: /dev/sda [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 186 to 183
Nov 28 19:23:07 server smartd[902]: Device: /dev/sdb [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 100 to 171
Nov 28 19:23:07 server smartd[902]: Device: /dev/sdc [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 174 to 173
Nov 28 19:23:07 server smartd[902]: Device: /dev/sdd [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 175 to 174
Nov 28 19:23:07 server kernel: [ 0.017460] ACPI Error: [\_SB_.PCI0.XHC_.RHUB.HS11] Namespace lookup failure, AE_NOT_FOUND (20150930/dswload-210)
Nov 28 19:23:07 server kernel: [ 0.023205] ACPI Error: 1 table load failures, 7 successful (20150930/tbxfload-214)
Nov 28 19:23:07 server kernel: [ 0.158452] acpi PNP0A08:00: _OSC failed (AE_ERROR); disabling ASPM
Nov 28 19:23:09 server kernel: [ 9.766815] ata2.00: failed command: READ FPDMA QUEUED
Nov 28 19:23:09 server kernel: [ 9.769170] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 28 19:23:09 server kernel: [ 9.773071] ata4.00: failed command: WRITE FPDMA QUEUED
Nov 28 19:23:09 server kernel: [ 10.102632] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 28 19:23:09 server kernel: [ 10.104797] ata2.00: failed command: READ FPDMA QUEUED
Nov 28 19:23:09 server kernel: [ 10.108686] ata4.00: failed command: WRITE FPDMA QUEUED
Nov 28 19:23:10 server kernel: [ 10.434753] ata2.00: failed command: READ FPDMA QUEUED
Nov 28 19:23:10 server kernel: [ 10.437104] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 28 19:23:10 server kernel: [ 10.441391] ata4.00: failed command: WRITE FPDMA QUEUED
Nov 28 19:23:10 server kernel: [ 10.771226] ata4.00: failed command: WRITE FPDMA QUEUED
Nov 28 19:23:10 server kernel: [ 10.776303] ata2.00: failed command: READ FPDMA QUEUED
Nov 28 19:23:10 server kernel: [ 10.778911] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 28 19:23:31 server smbd[1059]: ...fail!
Nov 28 19:23:31 server systemd[1]: smbd.service: Unit entered failed state.
Nov 28 19:23:31 server sh[866]: Job for smbd.service failed because the control process exited with error code. See "systemctl status smbd.service" and "journalctl -xe" for details.
Nov 28 19:23:31 server sh[866]: invoke-rc.d: initscript smbd, action "reload" failed.
Nov 28 19:23:47 server systemd[1]: snapd.refresh.service: Unit entered failed state.
Nov 28 19:23:57 server systemd[1]: apache2.service: Unit entered failed state.
Nov 28 19:27:48 server kernel: [ 288.086266] ata3.00: failed command: WRITE FPDMA QUEUED
Nov 28 19:29:41 server kernel: [ 400.399640] md/raid:md0: Disk failure on sda1, disabling device.
Nov 28 19:31:56 server kernel: [ 536.119311] ata3.00: failed command: READ FPDMA QUEUED
Nov 28 19:31:56 server kernel: [ 536.119533] ata3.00: failed command: WRITE FPDMA QUEUED
Nov 28 19:34:01 server kernel: [ 660.529002] md/raid:md0: Disk failure on sdb1, disabling device.
Nov 28 19:36:27 server kernel: [ 806.812997] md/raid:md0: Disk failure on sdc1, disabling device.
Nov 28 19:42:06 server systemd-udevd[22288]: Process '/sbin/mdadm -If sdc1 --path pci-0000:00:17.0-ata-3' failed with exit code 1.
Nov 28 19:42:06 server systemd-udevd[22281]: Process '/sbin/mdadm --incremental /dev/sdc1 --offroot' failed with exit code 2.
Nov 28 19:42:06 server systemd-udevd[22281]: Process '/sbin/mdadm -If sdc1 --path pci-0000:00:17.0-ata-3' failed with exit code 1.
Nov 28 19:42:06 server systemd-udevd[22281]: Process '/sbin/mdadm --incremental /dev/sdc1 --offroot' failed with exit code 2.
Nov 30 19:41:16 server systemd-udevd[549]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 30 19:41:16 server systemd-udevd[548]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 30 19:41:16 server systemd-udevd[537]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 30 19:41:16 server systemd-udevd[538]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 30 19:41:16 server systemd-udevd[537]: Process '/sbin/mdadm --incremental /dev/sdb1 --offroot' failed with exit code 1.
Nov 30 19:41:16 server systemd-udevd[538]: Process '/sbin/mdadm --incremental /dev/sdd1 --offroot' failed with exit code 1.
Nov 30 19:41:16 server systemd-udevd[548]: Process '/sbin/mdadm --incremental /dev/sda1 --offroot' failed with exit code 1.
Nov 30 19:41:16 server systemd-udevd[540]: Process '/sbin/mdadm --incremental /dev/sdc1 --offroot' failed with exit code 1.
Nov 30 19:41:16 server kernel: [ 0.017737] ACPI Error: [\_SB_.PCI0.XHC_.RHUB.HS11] Namespace lookup failure, AE_NOT_FOUND (20150930/dswload-210)
Nov 30 19:41:16 server kernel: [ 0.024079] ACPI Error: 1 table load failures, 7 successful (20150930/tbxfload-214)
Nov 30 19:41:16 server rpcbind[876]: rpcbind: xdr_/run/rpcbind/rpcbind.xdr: failed
Nov 30 19:41:16 server rpcbind[876]: rpcbind: xdr_/run/rpcbind/portmap.xdr: failed
Nov 30 19:41:16 server kernel: [ 0.173262] acpi PNP0A08:00: _OSC failed (AE_ERROR); disabling ASPM
Nov 30 19:41:16 server kernel: [ 7.457007] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 30 19:41:16 server kernel: [ 7.460758] ata4.00: failed command: WRITE FPDMA QUEUED
Nov 30 19:41:16 server kernel: [ 7.462870] ata4.00: failed command: WRITE FPDMA QUEUED
Nov 30 19:41:16 server kernel: [ 7.788905] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 30 19:41:16 server kernel: [ 7.792999] ata4.00: failed command: WRITE FPDMA QUEUED
Nov 30 19:41:16 server kernel: [ 8.121138] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 30 19:41:16 server kernel: [ 8.125305] ata4.00: failed command: WRITE FPDMA QUEUED
Nov 30 19:41:17 server kernel: [ 8.453211] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 30 19:41:17 server kernel: [ 8.457764] ata4.00: failed command: WRITE FPDMA QUEUED
Nov 30 19:41:28 server smbd[1071]: ...fail!
Nov 30 19:41:28 server systemd[1]: smbd.service: Unit entered failed state.
Nov 30 19:41:28 server sh[882]: Job for smbd.service failed because the control process exited with error code. See "systemctl status smbd.service" and "journalctl -xe" for details.
Nov 30 19:41:28 server sh[882]: invoke-rc.d: initscript smbd, action "reload" failed.
Nov 30 19:41:28 server smartd[963]: Device: /dev/sda [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 183 to 180
Nov 30 19:41:28 server smartd[963]: Device: /dev/sdb [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 171 to 173
Nov 30 19:41:28 server smartd[963]: Device: /dev/sdc [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 173 to 177
Nov 30 19:41:28 server smartd[963]: Device: /dev/sdd [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 174 to 176
Nov 30 19:55:42 server kernel: [ 873.679266] ata3.00: failed command: READ FPDMA QUEUED
Nov 30 19:55:42 server kernel: [ 873.679353] ata3.00: failed command: WRITE FPDMA QUEUED
Nov 30 19:57:17 server smbd[3999]: ...fail!
Nov 30 19:57:17 server systemd[1]: smbd.service: Unit entered failed state.
Nov 30 19:57:19 server nmbd[4045]: ...fail!
Nov 30 19:57:19 server systemd[1]: nmbd.service: Unit entered failed state.
Nov 30 19:57:22 server kernel: [ 972.935123] ata3.00: failed command: READ FPDMA QUEUED
Nov 30 19:57:22 server kernel: [ 972.935364] ata3.00: failed command: WRITE FPDMA QUEUED
Nov 30 19:58:18 server kernel: [ 1029.710660] ata1.00: failed command: READ FPDMA QUEUED
Nov 30 19:58:18 server kernel: [ 1029.710883] ata1.00: failed command: WRITE FPDMA QUEUED
Nov 30 20:02:03 server dhclient[1117]: receive_packet failed on enp3s0: Network is down
Nov 30 20:02:55 server smbd[4827]: ...fail!
Nov 30 20:02:55 server systemd[1]: smbd.service: Unit entered failed state.
Nov 30 20:02:55 server nmbd[4872]: ...fail!
Nov 30 20:02:55 server systemd[1]: nmbd.service: Unit entered failed state.
Nov 30 21:33:43 server systemd-udevd[549]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 30 21:33:43 server systemd-udevd[542]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 30 21:33:43 server systemd-udevd[546]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 30 21:33:43 server systemd-udevd[548]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 30 21:33:43 server systemd-udevd[542]: Process '/sbin/mdadm --incremental /dev/sdd1 --offroot' failed with exit code 1.
Nov 30 21:33:43 server systemd-udevd[546]: Process '/sbin/mdadm --incremental /dev/sda1 --offroot' failed with exit code 1.
Nov 30 21:33:43 server systemd-udevd[549]: Process '/sbin/mdadm --incremental /dev/sdc1 --offroot' failed with exit code 1.
Nov 30 21:33:43 server systemd-udevd[548]: Process '/sbin/mdadm --incremental /dev/sdb1 --offroot' failed with exit code 1.
Nov 30 21:33:43 server kernel: [ 0.017466] ACPI Error: [\_SB_.PCI0.XHC_.RHUB.HS11] Namespace lookup failure, AE_NOT_FOUND (20150930/dswload-210)
Nov 30 21:33:43 server kernel: [ 0.023066] ACPI Error: 1 table load failures, 7 successful (20150930/tbxfload-214)
Nov 30 21:33:43 server kernel: [ 0.162425] acpi PNP0A08:00: _OSC failed (AE_ERROR); disabling ASPM
Nov 30 21:33:43 server kernel: [ 6.507191] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 30 21:33:43 server kernel: [ 8.218744] ata4.00: failed command: WRITE FPDMA QUEUED
Nov 30 21:33:43 server kernel: [ 8.222538] ata2.00: failed command: READ FPDMA QUEUED
Nov 30 21:33:43 server kernel: [ 8.224652] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 30 21:33:43 server kernel: [ 8.550749] ata4.00: failed command: WRITE FPDMA QUEUED
Nov 30 21:33:43 server kernel: [ 8.554771] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 30 21:33:43 server kernel: [ 8.557086] ata2.00: failed command: READ FPDMA QUEUED
Nov 30 21:33:43 server kernel: [ 8.879325] ata4.00: failed command: WRITE FPDMA QUEUED
Nov 30 21:33:43 server kernel: [ 8.891060] ata2.00: failed command: READ FPDMA QUEUED
Nov 30 21:33:43 server kernel: [ 8.893586] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 30 21:33:43 server kernel: [ 9.211110] ata4.00: failed command: WRITE FPDMA QUEUED
Nov 30 21:33:43 server rpcbind[883]: rpcbind: xdr_/run/rpcbind/rpcbind.xdr: failed
Nov 30 21:33:43 server rpcbind[883]: rpcbind: xdr_/run/rpcbind/portmap.xdr: failed
Nov 30 21:33:43 server ntpdate[1072]: name server cannot be used: Temporary failure in name resolution (-3)
Nov 30 21:33:43 server ntpdate[1125]: name server cannot be used: Temporary failure in name resolution (-3)
Nov 30 21:33:53 server kernel: [ 20.172292] md/raid:md0: Disk failure on sdd1, disabling device.
Nov 30 21:33:53 server kernel: [ 20.172618] sd 3:0:0:0: [sdd] Synchronize Cache(10) failed: Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Nov 30 21:33:53 server kernel: [ 20.172622] sd 3:0:0:0: [sdd] Start/Stop Unit failed: Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Nov 30 21:33:58 server smartd[924]: Device: /dev/sdc [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 177 to 176
Nov 30 21:34:09 server smbd[1202]: ...fail!
Nov 30 21:34:09 server systemd[1]: smbd.service: Unit entered failed state.
Nov 30 21:45:20 server systemd-udevd[569]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 30 21:45:20 server systemd-udevd[571]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 30 21:45:20 server systemd-udevd[567]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 30 21:45:20 server systemd-udevd[562]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 30 21:45:20 server systemd-udevd[569]: Process '/sbin/mdadm --incremental /dev/sdc1 --offroot' failed with exit code 1.
Nov 30 21:45:20 server systemd-udevd[571]: Process '/sbin/mdadm --incremental /dev/sdb1 --offroot' failed with exit code 1.
Nov 30 21:45:20 server systemd-udevd[559]: Process '/sbin/mdadm --incremental /dev/sda1 --offroot' failed with exit code 1.
Nov 30 21:45:20 server systemd-udevd[562]: Process '/sbin/mdadm --incremental /dev/sdd1 --offroot' failed with exit code 2.
Nov 30 21:45:20 server kernel: [ 0.017456] ACPI Error: [\_SB_.PCI0.XHC_.RHUB.HS11] Namespace lookup failure, AE_NOT_FOUND (20150930/dswload-210)
Nov 30 21:45:20 server kernel: [ 0.023076] ACPI Error: 1 table load failures, 7 successful (20150930/tbxfload-214)
Nov 30 21:45:20 server kernel: [ 0.154295] acpi PNP0A08:00: _OSC failed (AE_ERROR); disabling ASPM
Nov 30 21:45:20 server rpcbind[900]: rpcbind: xdr_/run/rpcbind/rpcbind.xdr: failed
Nov 30 21:45:20 server rpcbind[900]: rpcbind: xdr_/run/rpcbind/portmap.xdr: failed
Nov 30 21:45:20 server ntpdate[1126]: name server cannot be used: Temporary failure in name resolution (-3)
Nov 30 21:45:20 server smartd[1021]: Device: /dev/sda [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 180 to 182
Nov 30 21:45:22 server kernel: [ 10.382312] ata2.00: failed command: READ FPDMA QUEUED
Nov 30 21:45:22 server kernel: [ 10.384253] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 30 21:45:22 server kernel: [ 10.718413] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 30 21:45:22 server kernel: [ 10.720448] ata2.00: failed command: READ FPDMA QUEUED
Nov 30 21:45:22 server kernel: [ 11.050416] ata2.00: failed command: READ FPDMA QUEUED
Nov 30 21:45:22 server kernel: [ 11.052617] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 30 21:45:23 server kernel: [ 11.386575] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 30 21:45:23 server kernel: [ 11.388984] ata2.00: failed command: READ FPDMA QUEUED
Nov 30 21:45:43 server systemd[1]: apache2.service: Unit entered failed state.
Nov 30 21:46:02 server smbd[1209]: ...fail!
Nov 30 21:46:02 server systemd[1]: smbd.service: Unit entered failed state.
Dec 1 20:35:17 server systemd-udevd[549]: Process '/lib/udev/hdparm' failed with exit code 5.
Dec 1 20:35:17 server systemd-udevd[543]: Process '/lib/udev/hdparm' failed with exit code 5.
Dec 1 20:35:17 server systemd-udevd[547]: Process '/lib/udev/hdparm' failed with exit code 5.
Dec 1 20:35:17 server systemd-udevd[555]: Process '/lib/udev/hdparm' failed with exit code 5.
Dec 1 20:35:17 server systemd-udevd[555]: Process '/sbin/mdadm --incremental /dev/sdb1 --offroot' failed with exit code 1.
Dec 1 20:35:17 server systemd-udevd[543]: Process '/sbin/mdadm --incremental /dev/sda1 --offroot' failed with exit code 1.
Dec 1 20:35:17 server systemd-udevd[547]: Process '/sbin/mdadm --incremental /dev/sdc1 --offroot' failed with exit code 1.
Dec 1 20:35:17 server systemd-udevd[549]: Process '/sbin/mdadm --incremental /dev/sdd1 --offroot' failed with exit code 2.
Dec 1 20:35:17 server kernel: [ 0.017458] ACPI Error: [\_SB_.PCI0.XHC_.RHUB.HS11] Namespace lookup failure, AE_NOT_FOUND (20150930/dswload-210)
Dec 1 20:35:17 server kernel: [ 0.023204] ACPI Error: 1 table load failures, 7 successful (20150930/tbxfload-214)
Dec 1 20:35:17 server kernel: [ 0.162402] acpi PNP0A08:00: _OSC failed (AE_ERROR); disabling ASPM
Dec 1 20:35:17 server rpcbind[899]: rpcbind: xdr_/run/rpcbind/rpcbind.xdr: failed
Dec 1 20:35:17 server rpcbind[899]: rpcbind: xdr_/run/rpcbind/portmap.xdr: failed
Dec 1 20:35:17 server ntpdate[1118]: name server cannot be used: Temporary failure in name resolution (-3)
Dec 1 20:35:17 server kernel: [ 6.475079] ata2.00: failed command: WRITE FPDMA QUEUED
Dec 1 20:35:17 server smartd[982]: Device: /dev/sdb [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 173 to 172
Dec 1 20:35:17 server kernel: [ 10.966233] ata2.00: failed command: READ FPDMA QUEUED
Dec 1 20:35:17 server kernel: [ 10.968153] ata2.00: failed command: WRITE FPDMA QUEUED
Dec 1 20:35:18 server kernel: [ 11.298453] ata2.00: failed command: WRITE FPDMA QUEUED
Dec 1 20:35:18 server kernel: [ 11.300469] ata2.00: failed command: READ FPDMA QUEUED
Dec 1 20:35:18 server kernel: [ 11.630469] ata2.00: failed command: READ FPDMA QUEUED
Dec 1 20:35:18 server kernel: [ 11.632677] ata2.00: failed command: WRITE FPDMA QUEUED
Dec 1 20:35:41 server systemd[1]: snapd.refresh.service: Unit entered failed state.
Dec 1 20:36:09 server smbd[1217]: ...fail!
Dec 1 20:36:09 server systemd[1]: smbd.service: Unit entered failed state.
Dec 1 20:40:42 server systemd-udevd[1768]: Process '/sbin/mdadm -If sdd1 --path pci-0000:00:17.0-ata-4' failed with exit code 1.
Dec 1 20:40:42 server systemd-udevd[1754]: Process '/sbin/mdadm --incremental /dev/sdd1 --offroot' failed with exit code 2.
Dec 1 20:40:42 server systemd-udevd[1754]: Process '/sbin/mdadm -If sdd1 --path pci-0000:00:17.0-ata-4' failed with exit code 1.
Dec 1 20:40:42 server systemd-udevd[1754]: Process '/sbin/mdadm --incremental /dev/sdd1 --offroot' failed with exit code 2.
Dec 1 20:45:52 server systemd-udevd[1861]: Process '/sbin/mdadm -If sdd1 --path pci-0000:00:17.0-ata-4' failed with exit code 1.
Dec 1 20:45:52 server systemd-udevd[1861]: Process '/sbin/mdadm --incremental /dev/sdd1 --offroot' failed with exit code 2.
Dec 1 20:47:35 server kernel: [ 748.083201] ata3.00: failed command: WRITE FPDMA QUEUED
Dec 1 20:47:35 server kernel: [ 748.083420] ata3.00: failed command: WRITE FPDMA QUEUED
Dec 2 12:13:13 server systemd-udevd[545]: Process '/lib/udev/hdparm' failed with exit code 5.
Dec 2 12:13:13 server systemd-udevd[544]: Process '/lib/udev/hdparm' failed with exit code 5.
Dec 2 12:13:13 server systemd-udevd[542]: Process '/lib/udev/hdparm' failed with exit code 5.
Dec 2 12:13:13 server systemd-udevd[551]: Process '/lib/udev/hdparm' failed with exit code 5.
Dec 2 12:13:13 server systemd-udevd[545]: Process '/sbin/mdadm --incremental /dev/sda1 --offroot' failed with exit code 1.
Dec 2 12:13:13 server systemd-udevd[539]: Process '/sbin/mdadm --incremental /dev/sdd1 --offroot' failed with exit code 2.
Dec 2 12:13:13 server systemd-udevd[544]: Process '/sbin/mdadm --incremental /dev/sdc1 --offroot' failed with exit code 1.
Dec 2 12:13:13 server systemd-udevd[551]: Process '/sbin/mdadm --incremental /dev/sdb1 --offroot' failed with exit code 1.
Dec 2 12:13:13 server kernel: [ 0.017476] ACPI Error: [\_SB_.PCI0.XHC_.RHUB.HS11] Namespace lookup failure, AE_NOT_FOUND (20150930/dswload-210)
Dec 2 12:13:13 server kernel: [ 0.023076] ACPI Error: 1 table load failures, 7 successful (20150930/tbxfload-214)
Dec 2 12:13:13 server kernel: [ 0.162184] acpi PNP0A08:00: _OSC failed (AE_ERROR); disabling ASPM
Dec 2 12:13:13 server kernel: [ 2.027381] ata2.00: failed command: WRITE FPDMA QUEUED
Dec 2 12:13:13 server rpcbind[876]: rpcbind: xdr_/run/rpcbind/rpcbind.xdr: failed
Dec 2 12:13:13 server rpcbind[876]: rpcbind: xdr_/run/rpcbind/portmap.xdr: failed
Dec 2 12:13:13 server kernel: [ 7.724957] ata2.00: failed command: WRITE FPDMA QUEUED
Dec 2 12:13:13 server kernel: [ 8.090343] ata2.00: failed command: READ FPDMA QUEUED
Dec 2 12:13:13 server kernel: [ 8.092309] ata2.00: failed command: WRITE FPDMA QUEUED
Dec 2 12:13:14 server ntpdate[1114]: name server cannot be used: Temporary failure in name resolution (-3)
Dec 2 12:13:14 server kernel: [ 8.422437] ata2.00: failed command: WRITE FPDMA QUEUED
Dec 2 12:13:14 server kernel: [ 8.424538] ata2.00: failed command: READ FPDMA QUEUED
Dec 2 12:13:15 server smartd[994]: Device: /dev/sdc [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 176 to 175
Dec 2 12:13:15 server smartd[994]: Device: /dev/sdd [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 176 to 175
Dec 2 12:13:17 server systemd[1]: snapd.refresh.service: Unit entered failed state.
Dec 2 12:13:30 server smbd[1210]: ...fail!
Dec 2 12:13:30 server systemd[1]: smbd.service: Unit entered failed state.
Dec 2 12:33:42 server systemd-udevd[1849]: Process '/sbin/mdadm -If sdd1 --path pci-0000:00:17.0-ata-4' failed with exit code 1.
Dec 2 12:33:42 server systemd-udevd[1849]: Process '/sbin/mdadm --incremental /dev/sdd1 --offroot' failed with exit code 2.
Dec 2 18:29:19 server systemd-udevd[523]: Process '/lib/udev/hdparm' failed with exit code 5.
Dec 2 18:29:19 server systemd-udevd[530]: Process '/lib/udev/hdparm' failed with exit code 5.
Dec 2 18:29:19 server systemd-udevd[527]: Process '/lib/udev/hdparm' failed with exit code 5.
Dec 2 18:29:19 server systemd-udevd[534]: Process '/lib/udev/hdparm' failed with exit code 5.
Dec 2 18:29:19 server systemd-udevd[531]: Process '/sbin/mdadm --incremental /dev/sda1 --offroot' failed with exit code 1.
Dec 2 18:29:19 server systemd-udevd[534]: Process '/sbin/mdadm --incremental /dev/sdb1 --offroot' failed with exit code 1.
Dec 2 18:29:19 server systemd-udevd[527]: Process '/sbin/mdadm --incremental /dev/sdc1 --offroot' failed with exit code 1.
Dec 2 18:29:19 server systemd-udevd[537]: Process '/sbin/mdadm --incremental /dev/sdd1 --offroot' failed with exit code 2.
Dec 2 18:29:19 server rpcbind[883]: rpcbind: xdr_/run/rpcbind/rpcbind.xdr: failed
Dec 2 18:29:19 server rpcbind[883]: rpcbind: xdr_/run/rpcbind/portmap.xdr: failed
Dec 2 18:29:19 server kernel: [ 0.017467] ACPI Error: [\_SB_.PCI0.XHC_.RHUB.HS11] Namespace lookup failure, AE_NOT_FOUND (20150930/dswload-210)
Dec 2 18:29:19 server kernel: [ 0.023230] ACPI Error: 1 table load failures, 7 successful (20150930/tbxfload-214)
Dec 2 18:29:19 server kernel: [ 0.154528] acpi PNP0A08:00: _OSC failed (AE_ERROR); disabling ASPM
Dec 2 18:29:19 server ntpdate[1103]: name server cannot be used: Temporary failure in name resolution (-3)
Dec 2 18:29:20 server smartd[987]: Device: /dev/sda [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 182 to 178
Dec 2 18:29:20 server smartd[987]: Device: /dev/sdb [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 172 to 170
Dec 2 18:29:20 server smartd[987]: Device: /dev/sdc [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 175 to 173
Dec 2 18:29:20 server smartd[987]: Device: /dev/sdd [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 175 to 173
Dec 2 18:29:20 server kernel: [ 8.866639] ata2.00: failed command: WRITE FPDMA QUEUED
Dec 2 18:29:20 server kernel: [ 8.868950] ata2.00: failed command: READ FPDMA QUEUED
Dec 2 18:29:21 server kernel: [ 9.198618] ata2.00: failed command: READ FPDMA QUEUED
Dec 2 18:29:21 server kernel: [ 9.200758] ata2.00: failed command: WRITE FPDMA QUEUED
Dec 2 18:29:21 server kernel: [ 9.530806] ata2.00: failed command: WRITE FPDMA QUEUED
Dec 2 18:29:21 server kernel: [ 9.533102] ata2.00: failed command: READ FPDMA QUEUED
Dec 2 18:29:21 server kernel: [ 9.862878] ata2.00: failed command: READ FPDMA QUEUED
Dec 2 18:29:21 server kernel: [ 9.865257] ata2.00: failed command: WRITE FPDMA QUEUED
Dec 2 18:29:22 server systemd[1]: snapd.refresh.service: Unit entered failed state.
Dec 2 18:29:43 server systemd[1]: apache2.service: Unit entered failed state.
Dec 2 18:30:06 server smbd[1191]: ...fail!
Dec 2 18:30:06 server systemd[1]: smbd.service: Unit entered failed state.
Dec 2 18:35:12 server systemd-udevd[1688]: Process '/sbin/mdadm -If sdd1 --path pci-0000:00:17.0-ata-4' failed with exit code 1.
Dec 2 18:35:12 server systemd-udevd[1688]: Process '/sbin/mdadm --incremental /dev/sdd1 --offroot' failed with exit code 2.
Dec 2 18:35:12 server systemd-udevd[1688]: Process '/sbin/mdadm -If sdd1 --path pci-0000:00:17.0-ata-4' failed with exit code 1.
Dec 2 18:35:12 server systemd-udevd[1688]: Process '/sbin/mdadm --incremental /dev/sdd1 --offroot' failed with exit code 2.
Par contre
cat /var/log/syslog.1 | grep fail
ne fonctionne pas :
cat: /var/log/syslog.1: Aucun fichier ou dossier de ce type
Hors ligne
#152 Le 04/12/2016, à 13:33
- piouk03
Re : [Résolu] Problème RAID5 mdadm
J'ai fais quelques recherches, le message d'erreur aurait comme origine des secteurs en attente de réallocation... Or j'ai suivi le début du tuto https://www.vincentliefooghe.net/conten … -un-disque sauf que j'obtiens cela :
root@server:~# smartctl -l selftest /dev/sda
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-47-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA _of_first_error
# 1 Short offline Completed without error 00% 1158 -
root@server:~# smartctl -l selftest /dev/sdb
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-47-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA _of_first_error
# 1 Short offline Completed without error 00% 83 -
root@server:~# smartctl -l selftest /dev/sdc
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-47-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA _of_first_error
# 1 Short offline Completed without error 00% 1157 -
root@server:~# smartctl -l selftest /dev/sdd
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-47-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA _of_first_error
# 1 Short offline Completed without error 00% 1157 -
Donc visiblement pas d'erreur.
Hors ligne
#153 Le 04/12/2016, à 14:17
- jamesbad000
Re : [Résolu] Problème RAID5 mdadm
Hello.
Je ne suis pas connaisseur du tout, mais à l'oeil il y a ata 0.0.2, ata 0.0.3 et ata0.0.4, j'en ai déduit que le dernier numéro correspondait à un disque en particulier. Or il y en a 3 qui apparaissent, correspondants aux 3 disques de mon RAID d'origine, excluant donc le disque neuf.
D'une part, ton nouveau disque est sdb (81 heures d'utilisation dans les derniers rapport smart) correspondant probablement à ata2.00. D'autre part on trouve également dans le log ci-dessus :
server kernel: [ 1029.710660] ata1.00: failed command: READ FPDMA QUEUED
Par ailleurs les différent éléments apparaissant dans la photo de la console du serveur : "UnrecovData", "Handshk", "ATA bus error", "interface fatal error". Pointent tous vers un problème dans la communication entre les disques et l'os ayant pour causes les plus probable :
- cable (y compris connecteur) de données SATA. Les cables ne sont pas forcément endommagés mais peut-être de mauvaise qualité, trop long, ou passent trop prêt d'une source de parasite électrique (ventilo...)
- cable d'alimentation SATA
- source d'alimentation électrique insuffisante
- mauvaise compatibilité disque / contrôleur (donc carte mère, à moins d'avoir une carte contrôleur sata séparée)
(cf https://lime-technology.com/wiki/index. … ce_Issues)
Au delà de tester avec un cable SATA différent (pas obligatoire de changer tous les câbles d'un coup). Déconnecter totalement le disque qui a été sorti du raid devrait permettre de confirmer ou d'infirmer l'option sur l'alimentation électrique.
j'ai l'impression que tout n'apparait pas sur putty, car quand je remonte tout en haut je n'ai plus la commande que j'ai tapé :
Putty, de même que les terminaux linux que je connais, doit avoir une paramètre permettant de fixer la limite du nombre de lignes...
Une autre approche c'est d'afficher les n dernière lignes du log après qu'elles sont apparues à la console du serveur:
tail -n 200 /var/log/syslog
quoiqu'il en soit, les fichiers dans /var/log sont des fichiers tout ce qu'il y a de plus standard et peuvent être copiés sur une clef USB ou via ssh...
Mais à ce stade, je doute qu'on en apprenne beaucoup plus dans les log...
Dernière modification par jamesbad000 (Le 04/12/2016, à 14:52)
L'espace et le temps sont les modes par lesquels nous pensons, et non les conditions dans lesquelles nous vivons. (Signé Albert)
Hors ligne
#154 Le 04/12/2016, à 14:22
- jamesbad000
Re : [Résolu] Problème RAID5 mdadm
J'ai fais quelques recherches, le message d'erreur aurait comme origine des secteurs en attente de réallocation
On a déjà vérifié ce point au post #141 https://forum.ubuntu-fr.org/viewtopic.p … #p21637784
Aucun problème n'est mis en évidence au niveau des disques eux même.
L'espace et le temps sont les modes par lesquels nous pensons, et non les conditions dans lesquelles nous vivons. (Signé Albert)
Hors ligne
#155 Le 04/12/2016, à 14:29
- Bougron
Re : [Résolu] Problème RAID5 mdadm
Bonjour
Il est fort possible que dans 100% des cas ce message d'erreur soit causé par une impossibilité de lire le secteur demandé.
Alors c'est quasi certain que dans 99% des cas la cause est le secteur qui ne peut pas être lu. Mais il reste 1% des cas où le problème se situe en AMONT.
Il est certain que tu es dans ce dernier contexte. Les stats montrent qu'aucun des 4 disques n'a de secteurs illisibles qu'on peut aussi trouver avec la commande
sudo smartctl -A /dev/sda | grep Current_Pending_Sector
Comme ton incident se produit sur trois disques, Il faut envisager la piste d'un manque de puissance électrique. Mais je ne sais pas si cela donnerait ce code d'erreur
Si tu as mis des câbles neufs, il faut aussi envisager le fait qu'ils ne soient pas certifiés pour le débit que tu leur demandes...
Ou qu'ils ne soient pas suffisamment enfichés!
Dernière modification par Bougron (Le 04/12/2016, à 18:14)
Hors ligne
#156 Le 04/12/2016, à 18:07
- piouk03
Re : [Résolu] Problème RAID5 mdadm
Bonsoir,
Merci pour vos réponses.
Je vais faire différents tests dans la semaine (changement des câbles, de l'alimentation, voir de la carte mère si nécessaire) Je vous tiens au courant des résultats.
Hors ligne
#157 Le 07/12/2016, à 18:16
- piouk03
Re : [Résolu] Problème RAID5 mdadm
Bonsoir,
Bon on va peut-être réussir à avoir un serveur qui tourne... J'ai de bonne nouvelles.
Premièrement j'ai passé le disque défectueux sur un autre PC, et j'ai réussi à faire la manip que tu m'as demandé jamesbad000. Voici le résultat qui visiblement est positif :
root@ubuntu:~# sudo hdparm -I /dev/disk/by-id/ata-WDC_WD20EZRX-00D8PB0_WD-WCC4N1174214
/dev/disk/by-id/ata-WDC_WD20EZRX-00D8PB0_WD-WCC4N1174214:
ATA device, with non-removable media
Model Number: WDC WD20EZRX-00D8PB0
Serial Number: WD-WCC4N1174214
Firmware Revision: 80.00A80
Transport: Serial, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0
Standards:
Supported: 9 8 7 6 5
Likely used: 9
Configuration:
Logical max current
cylinders 16383 16383
heads 16 16
sectors/track 63 63
--
CHS current addressable sectors: 16514064
LBA user addressable sectors: 268435455
LBA48 user addressable sectors: 3907027055
Logical Sector size: 512 bytes
Physical Sector size: 4096 bytes
device size with M = 1024*1024: 1907728 MBytes
device size with M = 1000*1000: 2000397 MBytes (2000 GB)
cache/buffer size = unknown
Nominal Media Rotation Rate: 5400
Capabilities:
LBA, IORDY(can be disabled)
Queue depth: 32
Standby timer values: spec'd by Standard, with device specific minimum
R/W multiple sector transfer: Max = 16 Current = 16
DMA: mdma0 mdma1 mdma2 udma0 udma1 udma2 udma3 udma4 udma5 *udma6
Cycle time: min=120ns recommended=120ns
PIO: pio0 pio1 pio2 pio3 pio4
Cycle time: no flow control=120ns IORDY flow control=120ns
Commands/features:
Enabled Supported:
* SMART feature set
Security Mode feature set
* Power Management feature set
* Write cache
* Look-ahead
* Host Protected Area feature set
* WRITE_BUFFER command
* READ_BUFFER command
* NOP cmd
* DOWNLOAD_MICROCODE
Power-Up In Standby feature set
* SET_FEATURES required to spinup after power up
SET_MAX security extension
* 48-bit Address feature set
* Device Configuration Overlay feature set
* Mandatory FLUSH_CACHE
* FLUSH_CACHE_EXT
* SMART error logging
* SMART self-test
* General Purpose Logging feature set
* 64-bit World wide name
* WRITE_UNCORRECTABLE_EXT command
* {READ,WRITE}_DMA_EXT_GPL commands
* Segmented DOWNLOAD_MICROCODE
* Gen1 signaling speed (1.5Gb/s)
* Gen2 signaling speed (3.0Gb/s)
* Gen3 signaling speed (6.0Gb/s)
* Native Command Queueing (NCQ)
* Host-initiated interface power management
* Phy event counters
* NCQ priority information
* unknown 76[15]
DMA Setup Auto-Activate optimization
Device-initiated interface power management
* Software settings preservation
* SMART Command Transport (SCT) feature set
* SCT LBA Segment Access (AC2)
* SCT Features Control (AC4)
* SCT Data Tables (AC5)
unknown 206[12] (vendor specific)
unknown 206[13] (vendor specific)
unknown 206[14] (vendor specific)
Security:
Master password revision code = 65534
supported
not enabled
not locked
not frozen
not expired: security count
supported: enhanced erase
266min for SECURITY ERASE UNIT. 266min for ENHANCED SECURITY ERASE UNIT.
Logical Unit WWN Device Identifier: 50014ee20a2352f9
NAA : 5
IEEE OUI : 0014ee
Unique ID : 20a2352f9
Checksum: correct
root@ubuntu:~# sudo smartctl -s on -a /dev/sda
smartctl 5.41 2011-06-09 r3365 [i686-linux-3.2.0-23-generic-pae] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net
=== START OF INFORMATION SECTION ===
Device Model: WDC WD20EZRX-00D8PB0
Serial Number: WD-WCC4N1174214
LU WWN Device Id: 5 0014ee 20a2352f9
Firmware Version: 80.00A80
User Capacity: 2 000 397 852 160 bytes [2,00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 9
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Wed Dec 7 16:56:54 2016 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF ENABLE/DISABLE COMMANDS SECTION ===
SMART Enabled.
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x84) Offline data collection activity
was suspended by an interrupting command from host.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (25140) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 254) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x7035) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 195 195 051 Pre-fail Always - 21710
3 Spin_Up_Time 0x0027 186 175 021 Pre-fail Always - 5700
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 462
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 1
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 099 099 000 Old_age Always - 1055
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 461
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 155
193 Load_Cycle_Count 0x0032 197 197 000 Old_age Always - 10473
194 Temperature_Celsius 0x0022 116 112 000 Old_age Always - 34
196 Reallocated_Event_Count 0x0032 199 199 000 Old_age Always - 1
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 17
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 25
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 196 000 Old_age Offline - 89
SMART Error Log Version: 1
ATA Error Count: 9 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.
Error 9 occurred at disk power-on lifetime: 108 hours (4 days + 12 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 61 45 00 00 00 a0 Device Fault; Error: ABRT
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ef 03 45 00 00 00 a0 0a 00:54:09.032 SET FEATURES [Set transfer mode]
ec 00 00 00 00 00 a0 0a 00:54:09.008 IDENTIFY DEVICE
ec 00 00 00 00 00 a0 0a 00:54:03.928 IDENTIFY DEVICE
ef 03 45 00 00 00 a0 0a 00:54:03.921 SET FEATURES [Set transfer mode]
ec 00 00 00 00 00 a0 0a 00:54:03.857 IDENTIFY DEVICE
Error 8 occurred at disk power-on lifetime: 108 hours (4 days + 12 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 61 45 00 00 00 a0 Device Fault; Error: ABRT
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ef 03 45 00 00 00 a0 0a 00:54:03.921 SET FEATURES [Set transfer mode]
ec 00 00 00 00 00 a0 0a 00:54:03.857 IDENTIFY DEVICE
ec 00 00 00 00 00 a0 0a 00:53:58.753 IDENTIFY DEVICE
ef 03 45 00 00 00 a0 0a 00:53:58.746 SET FEATURES [Set transfer mode]
ec 00 00 00 00 00 a0 0a 00:53:58.705 IDENTIFY DEVICE
Error 7 occurred at disk power-on lifetime: 108 hours (4 days + 12 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 61 45 00 00 00 a0 Device Fault; Error: ABRT
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ef 03 45 00 00 00 a0 0a 00:53:58.746 SET FEATURES [Set transfer mode]
ec 00 00 00 00 00 a0 0a 00:53:58.705 IDENTIFY DEVICE
ec 00 00 00 00 00 a0 0a 00:53:29.465 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 0a 00:53:29.457 SET FEATURES [Set transfer mode]
Error 6 occurred at disk power-on lifetime: 108 hours (4 days + 12 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 61 46 00 00 00 a0 Device Fault; Error: ABRT
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ef 03 46 00 00 00 a0 0a 00:53:29.457 SET FEATURES [Set transfer mode]
ec 00 00 00 00 00 a0 0a 00:53:29.444 IDENTIFY DEVICE
ec 00 00 00 00 00 a0 0a 00:53:29.433 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 0a 00:53:29.425 SET FEATURES [Set transfer mode]
Error 5 occurred at disk power-on lifetime: 108 hours (4 days + 12 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 61 46 00 00 00 a0 Device Fault; Error: ABRT
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ef 03 46 00 00 00 a0 0a 00:53:29.425 SET FEATURES [Set transfer mode]
ec 00 00 00 00 00 a0 0a 00:53:29.409 IDENTIFY DEVICE
ec 00 00 00 00 00 a0 0a 00:53:29.401 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 0a 00:53:29.393 SET FEATURES [Set transfer mode]
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed: read failure 40% 1015 1031414824
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Après quelques tests il semble que mes nouveaux câbles SATA soient en cause pour les erreurs. Le problème c'est que je n'arrive pas à faire fonctionner samba sur ubuntu 16.04 avec webmin... Je vais donc tout remettre comme avant en 12.04 pour pouvoir effectuer quelques tests de transferts depuis windows et je vous tiens informé des résultats.
Hors ligne
#158 Le 08/12/2016, à 18:21
- Bougron
Re : [Résolu] Problème RAID5 mdadm
Bonsoir
Espérons que la piste des câbles soit bonne.....
Pour le disque "abîmé". Je crois que tu n'as aucune donnée importante dedans
C'est le moment de faire
sudo dd If=/dev/zero of=/dev/sdX bs=1M
avec le X à la valeur qui convient pour écrire des zéros une nouvelle fois.
J'ai noté que les secteurs en attente de réallocation semblent revenus.
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 17
Il me semble que tu n'as pas encore traité ce problème
https://forum.ubuntu-fr.org/viewtopic.p … #p21632553
===>
l'utilitaire wdidle3 pour lequel tu trouveras un tuto écrit par un membre du forum
Ajout: Suite à la remarque de jamesbad000 qui indique que la commande va se planter
En fait, je ne suis pas assez doué pour savoir la valeur à mettre dans le paramètre count=999999999
Lorsque cela se plantera, Tu indiqueras la valeurs atteinte
Si la valeur est faible => Cela veut dire qu'on ne peut plus écrire le disque............
Si la valeur est forte => C'est peut-être la fin du disque qui a été atteinte. Donc c'est normal que cela se plante.
Pour info, Le disque fait: User Capacity: 2 000 397 852 160 bytes [2,00 TB]
Dans ces secteurs, il y en a une certaine quantité réservés pour que le firmware gère les secteurs de remplacement.
Je suis incapable de savoir combien il en prévoit . Mais comme tu écris par paquet de 1024*1024= 1.048.576
Il ne peut pas y avoir plus de 1.907.728 secteurs d'écrits.
A la fin de l'écriture un smarctctl pour savoir combien de secteurs ont basculés dans 'réallocated'
Puis dans quelques jours, on relira tout cela avec ddrescue en ignorant les secteurs illisibles.
Si on en trouve encore, C'est le moment de considérer qu'il n'est pas très fiable,
Dernière modification par Bougron (Le 09/12/2016, à 13:25)
Hors ligne
#159 Le 08/12/2016, à 20:58
- bruno
Re : [Résolu] Problème RAID5 mdadm
Pas mal, 158 messages pour un disque qui est bon pour la déchetterie.
#160 Le 08/12/2016, à 21:54
- Bougron
Re : [Résolu] Problème RAID5 mdadm
Pas mal, 158 messages pour un disque qui est bon pour la déchetterie.
Rien ne le prouve....
Instruis-toi en lisant quelques infos que j'ai mis dans le forum.
Fais la recherche avec "fyi" et 'vie d'un disque dur' ou 'vie d'un ssd'
Au fait , je répond encore de windows XP avec le SSD alors que je n'y croyais plus.
Dernière modification par Bougron (Le 08/12/2016, à 22:01)
Hors ligne
#161 Le 09/12/2016, à 00:29
- jamesbad000
Re : [Résolu] Problème RAID5 mdadm
Pas mal, 158 messages pour un disque qui est bon pour la déchetterie.
158 messages, pour récupérer un raid qui a perdu 2 disques, plus qui a un disque foireux, plus des problèmes de câble, plus la tentative de réabiliter le disque foireux, de corriger le problème de parcage de tête. Et tout ce qu'on a appris de nouveau au passage.
C'est toujours mieux qu'un seul message qui n'a aucune chance d'apporter quoi que ce soit à personne...
.
Premièrement j'ai passé le disque défectueux sur un autre PC, et j'ai réussi à faire la manip que tu m'as demandé jamesbad000. Voici le résultat qui visiblement est positif :
Certes, l'effacement par le biais du firmware du disque a été plus efficace que tout ce qu'on a fait jusque là. Mais il reste des secteurs qui pendouille, et pour moi c'est rédhibitoire.
Tenter de réécrire avec dd n'est pas vraiment une option qui apportera qq chose de plus. Sans parler que tel qu'il est indiqué, ca va s'arrêter à la première erreur de lecture/écriture.
Pour ce qui est de tester la stabilité de tes disques, il y a bien d'autres options que d'y accéder via samba. (winscp via ssh est vraiment simplicime à utiliser si tu n'a qu'un pc windows) ou encore des copies locales avec cp...
L'espace et le temps sont les modes par lesquels nous pensons, et non les conditions dans lesquelles nous vivons. (Signé Albert)
Hors ligne
#162 Le 09/12/2016, à 08:34
- bruno
Re : [Résolu] Problème RAID5 mdadm
Ok, désolé mais je n'ai pas pris le temps de lire tout le fil…
#163 Le 16/12/2016, à 19:07
- piouk03
Re : [Résolu] Problème RAID5 mdadm
Bonsoir,
Pour commencer désolé pour la réponse très tardive, mais j'avais beaucoup de travail ces derniers jours, donc pas temps à consacrer au serveur...
Là je m'y suis remis sérieusement et les nouvelles sont très positives. J'ai réinstallé tout le système en 16.04, ce qui m'a bien occupé car mon problème de Samba, était un problème de droits qui ne sont pas gérés tout à fait de la même façon avec la dernière version soit de webmin soit d'ubuntu...Bref à force de tâtonner ça fonctionne, ainsi que la partage en NFS. J'ai donc rechargé environ 4TO de données dans le serveur, et pas la moindre erreur ! Donc je pense que l'on peut dire que le problème est résolu.
Maintenant que tout fonctionne parfaitement à nouveau je vais me pencher sur le problème du disque défectueux pour voir si on arrive ou non à le sauver ! J'ai vu vos messages à ce propos, je vais avoir un peu de temps pour m'en occuper la semaine prochaine, je vous tiens informé dès que c'est fait.
Encore un grand grand merci à vous 2, je n'aurais jamais réussi tout seul
Hors ligne
#164 Le 27/01/2017, à 21:16
- piouk03
Re : [Résolu] Problème RAID5 mdadm
Bonsoir à tous,
Par manque de temps j'ai traîné pour regardé ce dernier problème de disque dur défectueux... Au final je me dis que je vais passer des heures sur un disques visiblement HS... Or mon emploi du temps plus que chargé ne me le permet gère, donc désolé mais le disque est parti à la poubelle. Par contre je tenais encore une fois a vous remercier car mon serveur fonctionne toujours très bien, et je n'ai visiblement perdu aucune info, donc encore un grand merci !
Comme tout est bouclé, il faut peut-être clore le sujet ? Ou indiquer que c'est résolu ? Si oui, comme faire ? Car je pense que le sujet peut intéressé d'autres personnes...
Bonnes soirée
Hors ligne
#165 Le 28/01/2017, à 00:12
- jamesbad000
Re : [Résolu] Problème RAID5 mdadm
Hello.
Pour passer en résolu, il suffit d'aller sur le 1er message du fil et cliquer sur modifier. Puis modifier le titre comme ceci :
[Résolu] Problème RAID5 mdadm
Bonne continuation
L'espace et le temps sont les modes par lesquels nous pensons, et non les conditions dans lesquelles nous vivons. (Signé Albert)
Hors ligne