mdadm сообщает, что неисправный диск, но умный не находит проблемы

У меня есть 9 дисковых набегов 5 массивов.

Сегодня я получил почту от своего сервера:

This is an automatically generated mail message from mdadm
running on Eldorado

A Fail event had been detected on md device /dev/md0.

It could be related to component device /dev/sdi1.

Faithfully yours, etc.

P.S. The /proc/mdstat file currently contains the following:

Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] 
md0 : active raid5 sdb1[1] sdi1[9](F) sdd1[5] sdh1[3] sdj1[7] sde1[4] sdg1[6] sdf1[0] sdc1[2]
  7801484288 blocks level 5, 64k chunk, algorithm 2 [9/8] [UUUUUUUU_]

unused devices: <none>

Это похоже на/dev/sdi mhas проблема.

Однако я работал

smartctl -t long -d 3ware,7 /dev/twa0

(диски работают 3ware контроллер, также я испытывал нехватку и тест удобства прежде), и в любом случае, smartctl не сообщает о серьезной проблеме:

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       7
  3 Spin_Up_Time            0x0027   228   109   021    Pre-fail  Always       -       1591
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       609
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   079   079   000    Old_age   Always       -       15445
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       607
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       606
193 Load_Cycle_Count        0x0032   134   134   000    Old_age   Always       -       199738
194 Temperature_Celsius     0x0022   113   106   000    Old_age   Always       -       34
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Conveyance offline  Completed without error       00%     15434         -
# 2  Short offline       Completed without error       00%     15434         -

Таким образом, в данный момент я не уверен, что вызывает отказ и могу ли я просто повторно добавить диск или потребность заменить его.

Я нахожусь на сервере человечности 12.04, mdadm v3.2.5

Какие-либо подсказки?

Я знаю о потоке программное обеспечение Сервера Ubuntu 12.04 RAID1 - Дефектная Запчасть - Умный Вывод Передал - Запутанный, который, кажется, зеркально отражает проблему. Но этому потоку не ответили, еще.

наилучшие пожелания, Stephan

0
задан 13 April 2017 в 15:14
1 ответ

При использовании дисков потребительского класса наиболее вероятная причина заключается в том, что накопитель слишком долго реагировал на запрос, а плата контроллера предполагала, что накопитель вышел из строя.

Микропрограмма накопителя потребительского класса дольше пытается восстановить данные из трудночитаемых секторов, чем микропрограмма серверного класса. Это делает их более надежными при работе с одним диском, но при использовании в RAID-массиве они помечаются как "отказавшие", когда на самом деле нет ничего плохого в диске.

Скорее всего, нет ничего плохого в диске. Если вы чувствуете себя параноиком, вы можете запустить проверку поверхности на наличие плохих блоков (только для чтения или для чтения-записи), но я бы просто поместил его обратно в массив.

*.
0
ответ дан 5 December 2019 в 13:39

Теги

Похожие вопросы