Как интерпретировать данные об ошибках, предоставляемые SMART и zfs

В небольшой серверной системе у меня есть файловая система zfs с парой зеркальных дисков потребительского уровня (Seagate Barracudas). Недавно во время периодической операции очистки был получен следующий результат:

  pool: storage
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
        attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
        using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 10.9M in 44h14m with 0 errors on Tue Jun  6 00:11:23 2017
config:

        NAME          STATE     READ WRITE CKSUM
        storage       ONLINE       0     0     0
          mirror-0    ONLINE       0     0     0
            map2_sda  ONLINE       0     0     0
            map2_sdb  ONLINE       0     0    55

errors: No known data errors

Было несколько сбоев питания и подобных событий между этой операцией очистки и предыдущей, что, я думаю, может быть вероятной причиной сбоя, но я беспокоюсь о возможности того, что это надвигающийся отказ оборудования, особенно с учетом того, что один диск был полностью чист, а на другом было несколько ошибок.

smartctl сообщает мне, что подозреваемый В течение всего срока службы накопителя было зафиксировано 117 ошибок (935 дней), но наиболее очевидные индикаторы ошибок не соответствуют своим пороговым значениям:

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   109   081   006    Pre-fail  Always       -       22737688
  5 Reallocated_Sector_Ct   0x0033   092   092   010    Pre-fail  Always       -       9784
  7 Seek_Error_Rate         0x000f   083   060   030    Pre-fail  Always       -       213798923
  9 Power_On_Hours          0x0032   075   075   000    Old_age   Always       -       22599
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0

Указывает ли что-нибудь здесь на необходимость предварительной замены этого диска? Мне не нужно 100% время безотказной работы на этой машине, но я бы предпочел не беспокоиться о нескольких днях повторного обновления, которые потребовались бы, если бы мне все же пришлось заменить диск в чрезвычайной ситуации.

2
задан 11 June 2017 в 19:57
2 ответа

На вашем месте я бы не паниковал, уж точно не для того, чтобы заменить его (что на самом деле ставит вас в более сложную ситуацию, имея только один диск, почти три года работает более 44 часов ...) Я бы поместил самый большой диск, который я мог разумно себе позволить, в свободный слот и добавил его в пул (не как запасной, как трехстороннее зеркало), и когда (если) один из двух других отказал первым, я заменил его с еще одним большим и увеличивать пул ... одна из лучших функций zfs ... но это только я.

Старый, но см. опыт Google с SMART, частота отказов дисков, нагрев, возраст ...

2
ответ дан 3 December 2019 в 10:35

Ошибки контрольной суммы гораздо менее критичны, чем ошибки чтения или записи. Хотя ошибки чтения / записи указывают на то, что блок не может быть прочитан или записан вообще (что наиболее вероятно из-за того, что он необратимо поврежден), ошибки контрольной суммы просто означают, что то, что было получено, не является тем, что должно было быть получено (согласно собственным данным ZFS. контрольные суммы).

Вы можете исследовать причину ошибок:

  • Произошли ли они уже когда-нибудь или это было в первый раз?
  • Что-нибудь случилось с машиной (кто-то переместил ее, коснулся ее, заменил другое оборудование)?
  • Были ли непредвиденные перезагрузки и / или потери питания или другие события с питанием (если ваши устройства позволяют это контролировать)?
  • Как обстоят дела с нагревом и ударами в корпусе для обоих дисков?
  • Оба диска чем-то отличаются (разные кабели, разные положения относительно кабелей, на разных контроллерах и т. Д.)?
  • Произошло ли что-нибудь странное в каких-либо доступных журналах?

Если вы не можете ничего найти и получить дополнительное (возможно, увеличивающееся или большое) количество ошибок контрольной суммы, вы можете захотеть заменить диск. Вы можете сделать это, добавив сначала третье зеркало, как предлагал quadruplebucky, и перенаправить его в нерабочее время. Любая дополнительная нагрузка на машину замедлит процесс переноса серебра. В зависимости от диска, возможно, что один только «хороший» диск восстановится быстрее, чем оба, но только если «плохой» действительно плохой (чего я не предполагаю).

1
ответ дан 3 December 2019 в 10:35

Теги

Похожие вопросы