NAS : RAID1 OK et disque en erreur, le retour ... - JWhy - 31-05-2022
Hello,
J'ai mon 2eme NAS (WD EX2 ULTRA) qui affiche une LED rouge ajd.
Dans la console, ça me dit que le RAID est OK, mais que coté disques (2 WD20EFRX) , c'est pas la forme
Coté SMART, ça reste tjrs super light (je vous ai mis ça dans excel pour que ce soit plus lisible)
Disque1 en erreur :
Disque2 OK :
A part la différence de POWER_ON_HOURS que je ne m'explique pas (les 2 disques sont censés démarrer en même temps !), tout à l'air OK.
mauvaise interprétation de ma part. par contre je pensais avoir acheté ces 2 disques neufs en même temps.... étrange...
Comme d'hab, je vais faire les sauvegardes qui s'imposent/contrôles des disques depuis le PC, mais voyez-vous qqchose que j'aurai loupé dans ce rapport SMART ?
Merci !
--------------
edit1 : Ah, je peux avoir un accès SSH, je vais voir ce que ça dit...
--------------
edit2 : Bon, rien trouvé de plus en ssh
dmesg & smartctl disent que tout va bien.
J'ai fait un test court des 2 disques et tout était ok.
J'ai fini par redémarrer le NAS, et plus de LED rouge / plus d'alerte
RE: NAS / RAID1 OK et disque en erreur, le retour ... - Sethenès - 31-05-2022
Coucou JWhy,
Je suis un peu ennuyé car les infos pertinentes se trouvent (chez moi) dans la 4ème colonne.
Comme tu peux le remarquer dans le header, les nombres d'allumages (241x) et le temps de fonctionnement (50142 heures) sont présentées dans le tableau S.M.A.R.T. dans la colonne "Raw Data".
RE: NAS / RAID1 OK et disque en erreur, le retour ... - JWhy - 31-05-2022
En effet !
un peu plus d'info
Le disque1 (qui était KO tout à l'heure, OK apres reboot)
Code : root@EX2Ultra ~ # smartctl -a /dev/sda
smartctl 6.6 2017-11-05 r4594 [armv7l-linux-4.14.22-armada-18.09.3] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Western Digital Red
Device Model: WDC WD20EFRX-68EUZN0
Firmware Version: 82.00A82
User Capacity: 2,000,398,934,016 bytes [2.00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 5400 rpm
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2 (minor revision not indicated)
SATA Version is: SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Tue May 31 18:50:31 2022 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 246) Self-test routine in progress...
60% of test remaining.
Total time to complete Offline
data collection: (26100) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 264) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x703d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 180 178 021 Pre-fail Always - 3966
4 Start_Stop_Count 0x0032 093 093 000 Old_age Always - 7621
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 032 032 000 Old_age Always - 50108
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 24
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 14
193 Load_Cycle_Count 0x0032 198 198 000 Old_age Always - 7610
194 Temperature_Celsius 0x0022 102 092 000 Old_age Always - 45
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 50107 -
# 2 Short offline Completed without error 00% 50107 -
# 3 Short offline Completed without error 00% 1789 -
# 4 Short offline Completed without error 00% 1262 -
# 5 Short offline Completed without error 00% 0 -
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Le disque2 (OK avant, OK apres)
Code : root@EX2Ultra ~ # smartctl -a /dev/sdb
smartctl 6.6 2017-11-05 r4594 [armv7l-linux-4.14.22-armada-18.09.3] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Western Digital Red
Device Model: WDC WD20EFRX-68EUZN0
Firmware Version: 82.00A82
User Capacity: 2,000,398,934,016 bytes [2.00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 5400 rpm
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2 (minor revision not indicated)
SATA Version is: SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Tue May 31 18:52:34 2022 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 248) Self-test routine in progress...
80% of test remaining.
Total time to complete Offline
data collection: (25920) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 262) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x703d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 174 171 021 Pre-fail Always - 4300
4 Start_Stop_Count 0x0032 090 090 000 Old_age Always - 10958
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 083 083 000 Old_age Always - 13122
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 24
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 14
193 Load_Cycle_Count 0x0032 197 197 000 Old_age Always - 10947
194 Temperature_Celsius 0x0022 102 093 000 Old_age Always - 45
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 13122 -
# 2 Short offline Completed without error 00% 13121 -
# 3 Short offline Completed without error 00% 596 -
# 4 Short offline Completed without error 00% 69 -
# 5 Short offline Completed without error 00% 0 -
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
RE: NAS : RAID1 OK et disque en erreur, le retour ... - Sethenès - 31-05-2022
Possible de se croiser sur Discord ? Comprends, en 5 minutes, je peux expliquer ce que je vais mettre 45 minutes à écrire.
RE: NAS : RAID1 OK et disque en erreur, le retour ... - JWhy - 31-05-2022
Pas tout de suite, mais je pense que je sais ce que tu vas me dire
Code : root@EX2Ultra ~ # hdparm -J /dev/sda
/dev/sda:
wdidle3 = 300 secs (or 13.8 secs for older drives)
root@EX2Ultra ~ # hdparm -J /dev/sdb
/dev/sdb:
wdidle3 = 300 secs (or 13.8 secs for older drives)
root@EX2Ultra ~ #
RE: NAS : RAID1 OK et disque en erreur, le retour ... - Sethenès - 31-05-2022
A ta meilleure convenance, je suis relativement souvent dispo.
Non, c'est lié à l'hibernation.
Je viens de voir, effectivement hdparm est en partie lié, mais l'option -J ne concerne que les WD Green.
RE: NAS : RAID1 OK et disque en erreur, le retour ... - JWhy - 03-06-2022
Une petite synthèse de l'échange avec Sethenès l'autre jour
- les 2 disques WD RED datent d'aout 2016 et ont tjrs été dans le même NAS
- le NAS (à son niveau) n'a pas d'hibernation des lecteurs (param. désactivé)
- les disques auraient le param. idle3 (qu'on retrouve généralement sur les WD green ou blue) et qui "parquent" les têtes de lecture après X mn d'inactivité , ce qui expliquerait la valeur du load_cycle_count
- les écarts power_on_hours et load_cycle_count entre les 2 disques pourraient provenir de l'usage du NAS : principalement accédé pour de la lecture via un processus unique (mediacenter), le NAS pourrait considérer qu'il n'y a pas besoin de répartir la charge sur les 2 disques et accéder majoritairement au premier (un peu dans le même genre que ce qui est décrit ici)
- on a discuté d'inverser les disk1 et disk2, histoire de faire plus bosser l'actuel disk2. Au final, on s'est dit que ce n'était pas une bonne idée car j'allais me retrouver avec un disk1 très usé (mais moins utilisé) et un disk2 qui allait devenir très usé... et donc risque accru que les 2 deviennent HS en même temps.
- on a discuté de bidouiller le param. idle3 des disques, mais il n'y a pas d'outil officiel WD pour faire ça sur les WD RED. Et pas sûr que les outils alternatifs fonctionnent bien sur ce type de disque. D'autant plus que , concrètement, les infos SMART montrent un ratio load_cycle_count/power_on_hour acceptable (même si pas "minimal")
=> donc au final, je ne touche à rien et ai juste mis un script qui trace quotidiennement les valeurs de ces 2 paramètres, afin de vérifier leurs évolutions et réagir si ça venait à "partir en vrille"...
Et j'ai ajouté un ventilateur usb sur le NAS pour réduire la temp. des disques (pb connu sur ce modèle ...)
A suivre !
(et merci Sethy)
RE: NAS : RAID1 OK et disque en erreur, le retour ... - Sethenès - 03-06-2022
Cool ... déjà, passer de 45°C à 29°C ... tes disques vont te dire merci cet été.
Je me permets de bien circonscrire l'hypothèse de travail afin que tout le monde puisse donner son avis.
Le setup de départ veut que les deux disques aient été installé au même moment. 50k heures (disque 1), correspond à peu près à 5,7 ans ce qui est en ligne avec la date d'achat des deux disques. 13k heures (disque 2) ... ben c'est juste le 1/4.
Donc l'hypothèse serait que le 2ème disque n'est réveillé que quand il faut écrire une donnée sur le Raid. Le reste du temps, il "dort". A contrario, le 1er disque lui "s'endormirait" moins souvent puisqu'il serait sollicité tant pour l'écriture que pour la lecture, ce qui justifierait qu'il ne réveille 1,44x moins souvent ...
C'est quand même tordu ...
Surtout que je trouve ceci sur le net :
"So, RAID1 should be faster than RAID0 for random read, and at least the same as for sequential read. Unfortunately, only UNIX RAID drivers like geom_mirror implement things like load balancing and round robin algoritms on the RAID1 layer. (...).
So short answer: no, Windows does not offer any advanced storage technology, like Linux/BSD do."
Source : https://forums.tomshardware.com/threads/does-raid-1-actually-increase-read-speed.664654/
RE: NAS : RAID1 OK et disque en erreur, le retour ... - Kana-chan - 04-06-2022
Bonjour,
Oui, mais son NAS n'est pas sous Windows ...
Donc, normalement le RAID 1 doit écrire sur les deux oui.
Sauf si c'est pas un RAID 1 mais un pseudo mode mirroir dans le NAS qui fait comme du RAID 1 sans que ce soit du RAID 1.
Voilà ...
RE: NAS : RAID1 OK et disque en erreur, le retour ... - Sethenès - 04-06-2022
L'hypothèse est bien qu'il écrit sur les deux.
Mais qu'il lit toujours sur le premier. En d'autres termes le premier est toujours "éveillé" et donc 1/ il s'endort moins et que 2/ il affiche une durée d'uptime supérieure.
|