NAS : RAID1 OK et disque en erreur, le retour ...
#1
Hello,

J'ai mon 2eme NAS (WD EX2 ULTRA) qui affiche une LED rouge ajd.

Dans la console, ça me dit que le RAID est OK, mais que coté disques (2 WD20EFRX) , c'est pas la forme
[Image: fune.png]
[Image: fx0f.png]
[Image: lmkn.png]

Coté SMART, ça reste tjrs super light (je vous ai mis ça dans excel pour que ce soit plus lisible)
Disque1 en erreur :
[Image: 3wsg.png]
Disque2  OK :
[Image: nvik.png]

A part la différence de POWER_ON_HOURS que je ne m'explique pas (les 2 disques sont censés démarrer en même temps !), tout à l'air OK.
mauvaise interprétation de ma part. par contre je pensais avoir acheté ces 2 disques neufs en même temps.... étrange...

Comme d'hab, je vais faire les sauvegardes qui s'imposent/contrôles des disques depuis le PC, mais voyez-vous qqchose que j'aurai loupé dans ce rapport SMART ?

Merci !

--------------

edit1 : Ah, je peux avoir un accès SSH, je vais voir ce que ça dit...

--------------

edit2 : Bon, rien trouvé de plus en ssh
dmesg & smartctl disent que tout va bien.
J'ai fait un test court des 2 disques et tout était ok.
J'ai fini par redémarrer le NAS, et plus de LED rouge / plus d'alerte Confused
Répondre
#2
Coucou JWhy,

Je suis un peu ennuyé car les infos pertinentes se trouvent (chez moi) dans la 4ème colonne.

Comme tu peux le remarquer dans le header, les nombres d'allumages (241x) et le temps de fonctionnement (50142 heures) sont présentées dans le tableau S.M.A.R.T. dans la colonne "Raw Data".

[Image: Capture.jpg]
Répondre
#3
En effet !

un peu plus d'info Smile

Le disque1 (qui était KO tout à l'heure, OK apres reboot)

Code :
root@EX2Ultra ~ # smartctl -a /dev/sda
smartctl 6.6 2017-11-05 r4594 [armv7l-linux-4.14.22-armada-18.09.3] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:    Western Digital Red
Device Model:    WDC WD20EFRX-68EUZN0
Firmware Version: 82.00A82
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Sizes:    512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:  ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Tue May 31 18:50:31 2022 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      ( 246) Self-test routine in progress...
                                        60% of test remaining.
Total time to complete Offline
data collection:                (26100) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (  2) minutes.
Extended self-test routine
recommended polling time:        ( 264) minutes.
Conveyance self-test routine
recommended polling time:        (  5) minutes.
SCT capabilities:              (0x703d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG    VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate    0x002f  200  200  051    Pre-fail  Always      -      0
  3 Spin_Up_Time            0x0027  180  178  021    Pre-fail  Always      -      3966
  4 Start_Stop_Count        0x0032  093  093  000    Old_age  Always      -      7621
  5 Reallocated_Sector_Ct  0x0033  200  200  140    Pre-fail  Always      -      0
  7 Seek_Error_Rate        0x002e  200  200  000    Old_age  Always      -      0
  9 Power_On_Hours          0x0032  032  032  000    Old_age  Always      -      50108
10 Spin_Retry_Count        0x0032  100  100  000    Old_age  Always      -      0
11 Calibration_Retry_Count 0x0032  100  253  000    Old_age  Always      -      0
12 Power_Cycle_Count      0x0032  100  100  000    Old_age  Always      -      24
192 Power-Off_Retract_Count 0x0032  200  200  000    Old_age  Always      -      14
193 Load_Cycle_Count        0x0032  198  198  000    Old_age  Always      -      7610
194 Temperature_Celsius    0x0022  102  092  000    Old_age  Always      -      45
196 Reallocated_Event_Count 0x0032  200  200  000    Old_age  Always      -      0
197 Current_Pending_Sector  0x0032  200  200  000    Old_age  Always      -      0
198 Offline_Uncorrectable  0x0030  100  253  000    Old_age  Offline      -      0
199 UDMA_CRC_Error_Count    0x0032  200  200  000    Old_age  Always      -      0
200 Multi_Zone_Error_Rate  0x0008  100  253  000    Old_age  Offline      -      0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline      Completed without error      00%    50107        -
# 2  Short offline      Completed without error      00%    50107        -
# 3  Short offline      Completed without error      00%      1789        -
# 4  Short offline      Completed without error      00%      1262        -
# 5  Short offline      Completed without error      00%        0        -

SMART Selective self-test log data structure revision number 1
SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.


Le disque2 (OK avant, OK apres)
Code :
root@EX2Ultra ~ # smartctl -a /dev/sdb
smartctl 6.6 2017-11-05 r4594 [armv7l-linux-4.14.22-armada-18.09.3] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Red
Device Model:     WDC WD20EFRX-68EUZN0
Firmware Version: 82.00A82
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Tue May 31 18:52:34 2022 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      ( 248) Self-test routine in progress...
                                        80% of test remaining.
Total time to complete Offline
data collection:                (25920) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 262) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x703d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   174   171   021    Pre-fail  Always       -       4300
  4 Start_Stop_Count        0x0032   090   090   000    Old_age   Always       -       10958
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   083   083   000    Old_age   Always       -       13122
10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       24
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       14
193 Load_Cycle_Count        0x0032   197   197   000    Old_age   Always       -       10947
194 Temperature_Celsius     0x0022   102   093   000    Old_age   Always       -       45
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     13122         -
# 2  Short offline       Completed without error       00%     13121         -
# 3  Short offline       Completed without error       00%       596         -
# 4  Short offline       Completed without error       00%        69         -
# 5  Short offline       Completed without error       00%         0         -

SMART Selective self-test log data structure revision number 1
SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Répondre
#4
Possible de se croiser sur Discord ? Comprends, en 5 minutes, je peux expliquer ce que je vais mettre 45 minutes à écrire.

[Image: Capture2.png]

[Image: Capture3.png]
Répondre
#5
Pas tout de suite, mais je pense que je sais ce que tu vas me dire Wink
Code :
root@EX2Ultra ~ # hdparm -J /dev/sda

/dev/sda:
wdidle3      = 300 secs (or 13.8 secs for older drives)
root@EX2Ultra ~ # hdparm -J /dev/sdb

/dev/sdb:
wdidle3      = 300 secs (or 13.8 secs for older drives)
root@EX2Ultra ~ #
Répondre
#6
A ta meilleure convenance, je suis relativement souvent dispo.

Non, c'est lié à l'hibernation.

Je viens de voir, effectivement hdparm est en partie lié, mais l'option -J ne concerne que les WD Green.
Répondre
#7
Une petite synthèse de l'échange avec Sethenès l'autre jour
- les 2 disques WD RED datent d'aout 2016 et ont tjrs été dans le même NAS
- le NAS (à son niveau) n'a pas d'hibernation des lecteurs  (param. désactivé)
- les disques auraient le param. idle3 (qu'on retrouve généralement sur les WD green ou blue) et qui "parquent" les têtes de lecture après X mn d'inactivité , ce qui expliquerait la valeur du load_cycle_count
- les écarts power_on_hours et load_cycle_count entre les 2 disques pourraient provenir de l'usage du NAS : principalement accédé pour de la lecture via un processus unique (mediacenter), le NAS pourrait considérer qu'il n'y a pas besoin de répartir la charge sur les 2 disques et accéder majoritairement au premier (un peu dans le même genre que ce qui est décrit ici)
- on a discuté d'inverser les disk1 et disk2, histoire de faire plus bosser l'actuel disk2. Au final, on s'est dit que ce n'était pas une bonne idée car j'allais me retrouver avec un disk1 très usé (mais moins utilisé) et  un disk2 qui allait devenir très usé... et donc risque accru que les 2 deviennent HS en même temps.
- on a discuté de bidouiller le param. idle3 des disques, mais il n'y a pas d'outil officiel WD pour faire ça sur les WD RED. Et pas sûr que les outils alternatifs fonctionnent bien sur ce type de disque. D'autant plus que , concrètement, les infos SMART montrent un ratio load_cycle_count/power_on_hour acceptable (même si pas "minimal")
=> donc au final, je ne touche à rien et ai juste mis un script qui trace quotidiennement les valeurs de ces 2 paramètres, afin de vérifier leurs évolutions et réagir si ça venait à "partir en vrille"...
[Image: 579a.png]
Et j'ai ajouté un ventilateur usb sur le NAS pour réduire la temp. des disques (pb connu sur ce modèle ...)
[Image: v0cs.png]

A suivre !
(et merci Sethy)
Répondre
#8
Cool ... déjà, passer de 45°C à 29°C ... tes disques vont te dire merci cet été.

Je me permets de bien circonscrire l'hypothèse de travail afin que tout le monde puisse donner son avis.

Le setup de départ veut que les deux disques aient été installé au même moment. 50k heures (disque 1), correspond à peu près à 5,7 ans ce qui est en ligne avec la date d'achat des deux disques. 13k heures (disque 2) ... ben c'est juste le 1/4.

Donc l'hypothèse serait que le 2ème disque n'est réveillé que quand il faut écrire une donnée sur le Raid. Le reste du temps, il "dort". A contrario, le 1er disque lui "s'endormirait" moins souvent puisqu'il serait sollicité tant pour l'écriture que pour la lecture, ce qui justifierait qu'il ne réveille 1,44x moins souvent ...

C'est quand même tordu ...

Surtout que je trouve ceci sur le net :

"So, RAID1 should be faster than RAID0 for random read, and at least the same as for sequential read. Unfortunately, only UNIX RAID drivers like geom_mirror implement things like load balancing and round robin algoritms on the RAID1 layer. (...).
So short answer: no, Windows does not offer any advanced storage technology, like Linux/BSD do."

Source : https://forums.tomshardware.com/threads/...ed.664654/
Répondre
#9
Bonjour,
Oui, mais son NAS n'est pas sous Windows ... Smile
Donc, normalement le RAID 1 doit écrire sur les deux oui.
Sauf si c'est pas un RAID 1 mais un pseudo mode mirroir dans le NAS qui fait comme du RAID 1 sans que ce soit du RAID 1.
Voilà ... Big Grin
---------------------------
@+, Kana-chan.
[Image: ?name=%5BZebulon.fr%5D_Kana-chan]
Répondre
#10
L'hypothèse est bien qu'il écrit sur les deux.

Mais qu'il lit toujours sur le premier. En d'autres termes le premier est toujours "éveillé" et donc 1/ il s'endort moins et que 2/ il affiche une durée d'uptime supérieure.
Répondre





Utilisateur(s) parcourant ce sujet : 1 visiteur(s)