У меня есть 9 дисковых набегов 5 массивов.
Сегодня я получил почту от своего сервера:
This is an automatically generated mail message from mdadm
running on Eldorado
A Fail event had been detected on md device /dev/md0.
It could be related to component device /dev/sdi1.
Faithfully yours, etc.
P.S. The /proc/mdstat file currently contains the following:
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md0 : active raid5 sdb1[1] sdi1[9](F) sdd1[5] sdh1[3] sdj1[7] sde1[4] sdg1[6] sdf1[0] sdc1[2]
7801484288 blocks level 5, 64k chunk, algorithm 2 [9/8] [UUUUUUUU_]
unused devices: <none>
Это похоже на/dev/sdi mhas проблема.
Однако я работал
smartctl -t long -d 3ware,7 /dev/twa0
(диски работают 3ware контроллер, также я испытывал нехватку и тест удобства прежде), и в любом случае, smartctl не сообщает о серьезной проблеме:
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 7
3 Spin_Up_Time 0x0027 228 109 021 Pre-fail Always - 1591
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 609
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 079 079 000 Old_age Always - 15445
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 607
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 606
193 Load_Cycle_Count 0x0032 134 134 000 Old_age Always - 199738
194 Temperature_Celsius 0x0022 113 106 000 Old_age Always - 34
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Conveyance offline Completed without error 00% 15434 -
# 2 Short offline Completed without error 00% 15434 -
Таким образом, в данный момент я не уверен, что вызывает отказ и могу ли я просто повторно добавить диск или потребность заменить его.
Я нахожусь на сервере человечности 12.04, mdadm v3.2.5
Какие-либо подсказки?
Я знаю о потоке программное обеспечение Сервера Ubuntu 12.04 RAID1 - Дефектная Запчасть - Умный Вывод Передал - Запутанный, который, кажется, зеркально отражает проблему. Но этому потоку не ответили, еще.
наилучшие пожелания, Stephan
При использовании дисков потребительского класса наиболее вероятная причина заключается в том, что накопитель слишком долго реагировал на запрос, а плата контроллера предполагала, что накопитель вышел из строя.
Микропрограмма накопителя потребительского класса дольше пытается восстановить данные из трудночитаемых секторов, чем микропрограмма серверного класса. Это делает их более надежными при работе с одним диском, но при использовании в RAID-массиве они помечаются как "отказавшие", когда на самом деле нет ничего плохого в диске.
Скорее всего, нет ничего плохого в диске. Если вы чувствуете себя параноиком, вы можете запустить проверку поверхности на наличие плохих блоков (только для чтения или для чтения-записи), но я бы просто поместил его обратно в массив.
*.