Како zfs raidz-2 закрепнува од 3 погони надолу?

Се прашувам што се случи, како ZFS успеа целосно да закрепне, или дали моите податоци сè уште се навистина тактични.
Кога влегов минатата ноќ, го видов ова за вознемиреност, тогаш збунетост.

zpool status
  pool: san
 state: DEGRADED
status: One or more devices has experienced an unrecoverable error.  An
        attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
        using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: resilvered 392K in 0h0m with 0 errors on Tue Jan 21 16:36:41 2020
config:

        NAME                                          STATE     READ WRITE CKSUM
        san                                           DEGRADED     0     0     0
          raidz2-0                                    DEGRADED     0     0     0
            ata-WDC_WD20EZRX-00DC0B0_WD-WMC1T3458346  ONLINE       0     0     0
            ata-ST2000DM001-9YN164_W1E07E0G           DEGRADED     0     0    38  too many errors
            ata-WDC_WD20EZRX-19D8PB0_WD-WCC4M0428332  DEGRADED     0     0    63  too many errors
            ata-ST2000NM0011_Z1P07NVZ                 ONLINE       0     0     0
            ata-WDC_WD20EARX-00PASB0_WD-WCAZAJ490344  ONLINE       0     0     0
            wwn-0x50014ee20949b6f9                    DEGRADED     0     0    75  too many errors

errors: No known data errors 

Како е можно да нема грешки во податоците, а целиот базен да не биде виновен?

Еден погон sdf има неуспешно тестирање на smartctl на S.M.A.R.T. прочитај неуспешно , другите малку помал проблем; непоправливи / сектори кои чекаат или Грешки во УДМА ЦРЦ.

Се обидов да го сменам секој дефект на возење офлајн, а потоа да се враќам на Интернет, едно по едно, тоа не помогна.

    $ zpool status
  pool: san
 state: DEGRADED
status: One or more devices has experienced an unrecoverable error.  An
        attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
        using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: resilvered 392K in 0h0m with 0 errors on Tue Jan 21 16:36:41 2020
config:

        NAME                                          STATE     READ WRITE CKSUM
        san                                           DEGRADED     0     0     0
          raidz2-0                                    DEGRADED     0     0     0
            ata-WDC_WD20EZRX-00DC0B0_WD-WMC1T3458346  ONLINE       0     0     0
            ata-ST2000DM001-9YN164_W1E07E0G           DEGRADED     0     0    38  too many errors
            ata-WDC_WD20EZRX-19D8PB0_WD-WCC4M0428332  OFFLINE      0     0    63
            ata-ST2000NM0011_Z1P07NVZ                 ONLINE       0     0     0
            ata-WDC_WD20EARX-00PASB0_WD-WCAZAJ490344  ONLINE       0     0     0
            wwn-0x50014ee20949b6f9                    DEGRADED     0     0    75  too many errors

Па, тогаш, чувствувајќи се како крајно среќен или малку збунет ако моите податоци сè уште можат да бидат таму, по инспекцијата за да го најдам најлошиот погон, заменив со единствениот резервен.

    $ zpool status
  pool: san
 state: DEGRADED
status: One or more devices is currently being resilvered.  The pool will
        continue to function, possibly in a degraded state.
action: Wait for the resilver to complete.
  scan: resilver in progress since Tue Jan 21 17:33:15 2020
        467G scanned out of 8.91T at 174M/s, 14h10m to go
        77.6G resilvered, 5.12% done
config:

        NAME                                              STATE     READ WRITE CKSUM
        san                                               DEGRADED     0     0     0
          raidz2-0                                        DEGRADED     0     0     0
            ata-WDC_WD20EZRX-00DC0B0_WD-WMC1T3458346      ONLINE       0     0     0
            replacing-1                                   DEGRADED     0     0     0
              ata-ST2000DM001-9YN164_W1E07E0G             OFFLINE      0     0    38
              ata-WDC_WD2000FYYZ-01UL1B1_WD-WCC1P1171516  ONLINE       0     0     0  (resilvering)
            ata-WDC_WD20EZRX-19D8PB0_WD-WCC4M0428332      DEGRADED     0     0    63  too many errors
            ata-ST2000NM0011_Z1P07NVZ                     ONLINE       0     0     0
            ata-WDC_WD20EARX-00PASB0_WD-WCAZAJ490344      ONLINE       0     0     0
            wwn-0x50014ee20949b6f9                        DEGRADED     0     0    75  too many errors

Резилверот заврши успешно.

$ zpool status
  pool: san
 state: DEGRADED
status: One or more devices has experienced an unrecoverable error.  An
        attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
        using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: resilvered 1.48T in 12h5m with 0 errors on Wed Jan 22 05:38:48 2020
config:

        NAME                                            STATE     READ WRITE CKSUM
        san                                             DEGRADED     0     0     0
          raidz2-0                                      DEGRADED     0     0     0
            ata-WDC_WD20EZRX-00DC0B0_WD-WMC1T3458346    ONLINE       0     0     0
            ata-WDC_WD2000FYYZ-01UL1B1_WD-WCC1P1171516  ONLINE       0     0     0
            ata-WDC_WD20EZRX-19D8PB0_WD-WCC4M0428332    DEGRADED     0     0    63  too many errors
            ata-ST2000NM0011_Z1P07NVZ                   ONLINE       0     0     0
            ata-WDC_WD20EARX-00PASB0_WD-WCAZAJ490344    ONLINE       0     0     0
            wwn-0x50014ee20949b6f9                      DEGRADED     0     0    75  too many errors

Сега сум на крстопат. Јас обично дд ги нулам првите 2 MB од дефектниот диск и го заменувам со самиот себе, што е добро со тоа, но ако навистина недостасуваат податоци, можеби ќе ми требаат овие два последни тома за да ги вратам работите.

Го имам овој sdf на моето биро, отстранет. Чувствувам дека можам, во најлошо сценарио, да го искористам ова за да помогнам во одредено закрепнување.

Во меѓувреме, мислам дека ќе го развлечам / поништам првиот деградиран погон сега и ќе го заменам сам со себе, и мислам дека работите треба да се одвиваат, исплакнат и повторат за 2-риот дефект на уредот, сè додека не можам да направам замена за рака.

Прашање Што се случи, како можеше да се закачи базенот или можеби ми недостасуваат некои податоци (сомнително со оглед на интегритетот на zfs и неговите извештаи)

Можеше да се случи тоа поради среќен редослед на неуспех, на пр. не горниот погон на оџакот што не успеа ??

Прашање Овој е само FYI, и не е поврзан со темата. Што предизвика сите 3 да не успеат во исто време? Мислам дека тоа беше пилиндер кој беше катализатор. Проверив претходната вечер и сите погони беа на Интернет.

Забелешка, каблирањето беше проблем во блиското минато, канцеларијата станува студена ноќе, но овие проблеми беа дискови недостапни , за разлика од грешките во проверката на сумата. Мислам дека тоа не е каблирање, но можеби стареечки погони, стари 5 години. Но, 3 неуспеси во еден ден? Ајде, тоа е доволно за да исплаши многу нас!

2
задан 23 January 2020 в 02:02
1 ответ

RAID-Z2 - это двойная четность , избыточность аналогична RAID 6. Два диска могут полностью выйти из строя, и данные будут восстановлены после четности. Предполагая, что остальная часть массива исправна.

У вас не обязательно были ошибки ввода-вывода. DEGRADED означает, что ZFS продолжает использовать диск , несмотря на ошибки контрольной суммы. Возможно, из-за нескольких переворотов, но привод все еще работает. По ссылка из этого вывода:

Запустите 'zpool status -x', чтобы определить, в каком пуле возникли ошибки.

Найдите устройство с ненулевым счетчиком ошибок для READ, WRITE или CKSUM. Это указывает на то, что в устройстве возникла ошибка чтения ввода-вывода, напишите Ошибка ввода-вывода или ошибка проверки контрольной суммы. Поскольку устройство является частью зеркало или устройство RAID-Z, ZFS смогла восстановиться после ошибки и впоследствии восстановить поврежденные данные.

Если эти ошибки сохраняются в течение определенного периода времени, ZFS может определить устройство неисправно и отметьте его как таковое. Однако это количество ошибок может или может не указывать на то, что устройство непригодно для использования.

Относительно работоспособности диска:

может быть устаревшие диски, которым 5 лет. Но 3 отказа в одном день? Да ладно, этого достаточно, чтобы напугать многих из нас!

Резервное копирование и восстановление сейчас проверяют важные данные. С другого носителя, а не из этого массива.

Замените приводы, которые продолжают выходить из строя. Определенно, если ядро ​​сообщает об ошибках ввода-вывода в системном журнале. Если по гарантии или контракту на поддержку, воспользуйтесь этим. Если прошла гарантия, производитель поспорил, что они не прослужат так долго, поэтому примите это во внимание.

2
ответ дан 23 January 2020 в 18:59

Теги

Похожие вопросы