В небольшой серверной системе у меня есть файловая система zfs с парой зеркальных дисков потребительского уровня (Seagate Barracudas). Недавно во время периодической операции очистки был получен следующий результат:
pool: storage
state: ONLINE
status: One or more devices has experienced an unrecoverable error. An
attempt was made to correct the error. Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
using 'zpool clear' or replace the device with 'zpool replace'.
see: http://zfsonlinux.org/msg/ZFS-8000-9P
scan: scrub repaired 10.9M in 44h14m with 0 errors on Tue Jun 6 00:11:23 2017
config:
NAME STATE READ WRITE CKSUM
storage ONLINE 0 0 0
mirror-0 ONLINE 0 0 0
map2_sda ONLINE 0 0 0
map2_sdb ONLINE 0 0 55
errors: No known data errors
Было несколько сбоев питания и подобных событий между этой операцией очистки и предыдущей, что, я думаю, может быть вероятной причиной сбоя, но я беспокоюсь о возможности того, что это надвигающийся отказ оборудования, особенно с учетом того, что один диск был полностью чист, а на другом было несколько ошибок.
smartctl сообщает мне, что подозреваемый В течение всего срока службы накопителя было зафиксировано 117 ошибок (935 дней), но наиболее очевидные индикаторы ошибок не соответствуют своим пороговым значениям:
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 109 081 006 Pre-fail Always - 22737688
5 Reallocated_Sector_Ct 0x0033 092 092 010 Pre-fail Always - 9784
7 Seek_Error_Rate 0x000f 083 060 030 Pre-fail Always - 213798923
9 Power_On_Hours 0x0032 075 075 000 Old_age Always - 22599
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
Указывает ли что-нибудь здесь на необходимость предварительной замены этого диска? Мне не нужно 100% время безотказной работы на этой машине, но я бы предпочел не беспокоиться о нескольких днях повторного обновления, которые потребовались бы, если бы мне все же пришлось заменить диск в чрезвычайной ситуации.
На вашем месте я бы не паниковал, уж точно не для того, чтобы заменить его (что на самом деле ставит вас в более сложную ситуацию, имея только один диск, почти три года работает более 44 часов ...) Я бы поместил самый большой диск, который я мог разумно себе позволить, в свободный слот и добавил его в пул (не как запасной, как трехстороннее зеркало), и когда (если) один из двух других отказал первым, я заменил его с еще одним большим и увеличивать пул ... одна из лучших функций zfs ... но это только я.
Старый, но см. опыт Google с SMART, частота отказов дисков, нагрев, возраст ...
Ошибки контрольной суммы гораздо менее критичны, чем ошибки чтения или записи. Хотя ошибки чтения / записи указывают на то, что блок не может быть прочитан или записан вообще (что наиболее вероятно из-за того, что он необратимо поврежден), ошибки контрольной суммы просто означают, что то, что было получено, не является тем, что должно было быть получено (согласно собственным данным ZFS. контрольные суммы).
Вы можете исследовать причину ошибок:
Если вы не можете ничего найти и получить дополнительное (возможно, увеличивающееся или большое) количество ошибок контрольной суммы, вы можете захотеть заменить диск. Вы можете сделать это, добавив сначала третье зеркало, как предлагал quadruplebucky, и перенаправить его в нерабочее время. Любая дополнительная нагрузка на машину замедлит процесс переноса серебра. В зависимости от диска, возможно, что один только «хороший» диск восстановится быстрее, чем оба, но только если «плохой» действительно плохой (чего я не предполагаю).