УНИВЕРСАЛЬНЫЙ пул zfs по сравнению с ОТКАЗОМ

Мой резервный NAS (на основе Arch) сообщает об ухудшенном пуле. Он также сообщает о неисправном диске как о «ремонтируемом». Меня это смущает. Если предположить, что неисправный хуже, чем деградированный, должен ли я волноваться?

zpool status -v:

  pool: zdata
 state: DEGRADED
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: http://zfsonlinux.org/msg/ZFS-8000-8A
  scan: scrub in progress since Mon Dec 16 11:35:37 2019
        1.80T scanned at 438M/s, 996G issued at 73.7M/s, 2.22T total
        1.21M repaired, 43.86% done, 0 days 04:55:13 to go
config:

        NAME                            STATE     READ WRITE CKSUM
        zdata                           DEGRADED     0     0     0
          wwn-0x50014ee0019b83a6-part1  ONLINE       0     0     0
          wwn-0x50014ee057084591-part1  ONLINE       0     0     0
          wwn-0x50014ee0ac59cb99-part1  DEGRADED   224     0   454  too many errors  (repairing)
          wwn-0x50014ee2b3f6d328-part1  ONLINE       0     0     0
        logs
          wwn-0x50000f0056424431-part5  ONLINE       0     0     0
        cache
          wwn-0x50000f0056424431-part4  ONLINE       0     0     0

errors: Permanent errors have been detected in the following files:

        zdata/backup:<0x86697>

Также сообщается, что отказавший диск намного меньше: zpool iostat -v:

                                  capacity     operations     bandwidth
pool                            alloc   free   read  write   read  write
------------------------------  -----  -----  -----  -----  -----  -----
zdata                           2.22T  1.41T     33     34  31.3M  78.9K
  wwn-0x50014ee0019b83a6-part1   711G   217G     11      8  10.8M  18.0K
  wwn-0x50014ee057084591-part1   711G   217G     10     11  9.73M  24.6K
  wwn-0x50014ee0ac59cb99-part1   103G   825G      0     10      0  29.1K
  wwn-0x50014ee2b3f6d328-part1   744G   184G     11      2  10.7M  4.49K
logs                                -      -      -      -      -      -
  wwn-0x50000f0056424431-part5     4K   112M      0      0      0      0
cache                               -      -      -      -      -      -
  wwn-0x50000f0056424431-part4  94.9M  30.9G      0      1      0   128K
------------------------------  -----  -----  -----  -----  -----  -----

[РЕДАКТИРОВАТЬ] Поскольку жесткий диск продолжал сообщать об ошибках, я решил заменить его запасным. Сначала я выполнил команду добавления запасного для нового диска, который затем был включен в пул, после чего я выполнил команду замены, чтобы заменить деградировавший диск запасным. Возможно, это не улучшило ситуацию, так как теперь пул гласит:

  pool: zdata
 state: DEGRADED
status: One or more devices is currently being resilvered.  The pool will
        continue to function, possibly in a degraded state.
action: Wait for the resilver to complete.
  scan: resilver in progress since Sun Dec 22 10:20:20 2019
        36.5G scanned at 33.2M/s, 27.4G issued at 24.9M/s, 2.21T total
        0B resilvered, 1.21% done, 1 days 01:35:59 to go
config:

        NAME                              STATE     READ WRITE CKSUM
        zdata                             DEGRADED     0     0     0
          wwn-0x50014ee0019b83a6-part1    ONLINE       0     0     0
          wwn-0x50014ee057084591-part1    ONLINE       0     0     0
          spare-2                         DEGRADED     0     0     0
            wwn-0x50014ee0ac59cb99-part1  DEGRADED     0     0     0  too many errors
            wwn-0x50014ee25ea101ef        ONLINE       0     0     0
          wwn-0x50014ee2b3f6d328-part1    ONLINE       0     0     0
        logs
          wwn-0x50000f0056424431-part5    ONLINE       0     0     0
        cache
          wwn-0x50000f0056424431-part4    ONLINE       0     0     0
        spares
          wwn-0x50014ee25ea101ef          INUSE     currently in use

errors: No known data errors

Меня беспокоит то, что срок сдачи продолжает расти (!). В то время, когда я писал это, теперь оно читается как 1 день 05:40:10. Я предполагаю, что пул будет потерян навсегда при отказе другого диска, контроллера или питания.

[EDIT] Новый диск был восстановлен примерно через 4 часа. Оценка ZFS, по-видимому, была не совсем верной. После отсоединения неисправного диска у меня возникла ситуация, когда новый диск показывает, что из диска 1 ТБ используется только 103 ГБ. Так же, как и ДЕГРАДИРОВАННЫЙ диск. Как мне получить полный 1 ТБ?

2
задан 22 December 2019 в 15:28
1 ответ

Вообще говоря, УХУДШЕННЫЙ диск находится в лучше форма, чем НЕУДАВШАЯСЯ.

От страница справочника шпульки (немного переформатированный):

УХУДШЕННЫЙ: количество ошибок контрольной суммы превышает допустимые уровни, и устройство ухудшается как признак, что что-то может быть неправильным. ZFS продолжает использовать устройство по мере необходимости

ОТКАЗАВШИЙ: количество ошибок ввода-вывода превышает допустимые уровни, и устройство дано сбой для предотвращения дальнейшего использования устройства

В конкретном случае, scrub обнаружил, что многие читают и ошибка контрольной суммы на одном диске, и ZFS начал восстанавливать проблемный диск. Между тем, ЗЕТ (демон события ZFS) noticied пакет ошибок контрольной суммы и ухудшенный диск, чтобы не использовать/подчеркивать его.

, Когда куст заканчивается, я предлагаю Вас zpool clear Ваше объединение и работаю другой zfs scrub. Если второй куст не находит ошибок, можно продолжить использовать пул, но, рассмотрев, сколько ошибок Вы входите в текущий куст, я заменил бы диск как можно скорее.

, Если у Вас есть допустимая причина для живо диска самого, не отказ, Вы должны проанализированный dmesg и smartctl --all вывод для закрепления корневой ошибочной причины. Рассматриваемый вопрос: у Меня был диск, который был самостоятельно прекрасен, но производящий много фактических ошибок из-за шумного PSU/кабеля.

Так или иначе, золотое правило всегда применяется: обязательно имейте актуальное резервное копирование Ваших данных пула.

3
ответ дан 29 December 2019 в 22:17

Теги

Похожие вопросы