Се прашувам што се случи, како ZFS успеа целосно да закрепне, или дали моите податоци сè уште се навистина тактични.
Кога влегов минатата ноќ, го видов ова за вознемиреност, тогаш збунетост.
zpool status
pool: san
state: DEGRADED
status: One or more devices has experienced an unrecoverable error. An
attempt was made to correct the error. Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
using 'zpool clear' or replace the device with 'zpool replace'.
see: http://zfsonlinux.org/msg/ZFS-8000-9P
scan: resilvered 392K in 0h0m with 0 errors on Tue Jan 21 16:36:41 2020
config:
NAME STATE READ WRITE CKSUM
san DEGRADED 0 0 0
raidz2-0 DEGRADED 0 0 0
ata-WDC_WD20EZRX-00DC0B0_WD-WMC1T3458346 ONLINE 0 0 0
ata-ST2000DM001-9YN164_W1E07E0G DEGRADED 0 0 38 too many errors
ata-WDC_WD20EZRX-19D8PB0_WD-WCC4M0428332 DEGRADED 0 0 63 too many errors
ata-ST2000NM0011_Z1P07NVZ ONLINE 0 0 0
ata-WDC_WD20EARX-00PASB0_WD-WCAZAJ490344 ONLINE 0 0 0
wwn-0x50014ee20949b6f9 DEGRADED 0 0 75 too many errors
errors: No known data errors
Како е можно да нема грешки во податоците, а целиот базен да не биде виновен?
Еден погон sdf
има неуспешно тестирање на smartctl на S.M.A.R.T. прочитај неуспешно
, другите малку помал проблем; непоправливи / сектори кои чекаат или Грешки во УДМА ЦРЦ.
Се обидов да го сменам секој дефект на возење офлајн, а потоа да се враќам на Интернет, едно по едно, тоа не помогна.
$ zpool status
pool: san
state: DEGRADED
status: One or more devices has experienced an unrecoverable error. An
attempt was made to correct the error. Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
using 'zpool clear' or replace the device with 'zpool replace'.
see: http://zfsonlinux.org/msg/ZFS-8000-9P
scan: resilvered 392K in 0h0m with 0 errors on Tue Jan 21 16:36:41 2020
config:
NAME STATE READ WRITE CKSUM
san DEGRADED 0 0 0
raidz2-0 DEGRADED 0 0 0
ata-WDC_WD20EZRX-00DC0B0_WD-WMC1T3458346 ONLINE 0 0 0
ata-ST2000DM001-9YN164_W1E07E0G DEGRADED 0 0 38 too many errors
ata-WDC_WD20EZRX-19D8PB0_WD-WCC4M0428332 OFFLINE 0 0 63
ata-ST2000NM0011_Z1P07NVZ ONLINE 0 0 0
ata-WDC_WD20EARX-00PASB0_WD-WCAZAJ490344 ONLINE 0 0 0
wwn-0x50014ee20949b6f9 DEGRADED 0 0 75 too many errors
Па, тогаш, чувствувајќи се како крајно среќен или малку збунет ако моите податоци сè уште можат да бидат таму, по инспекцијата за да го најдам најлошиот погон, заменив со единствениот резервен.
$ zpool status
pool: san
state: DEGRADED
status: One or more devices is currently being resilvered. The pool will
continue to function, possibly in a degraded state.
action: Wait for the resilver to complete.
scan: resilver in progress since Tue Jan 21 17:33:15 2020
467G scanned out of 8.91T at 174M/s, 14h10m to go
77.6G resilvered, 5.12% done
config:
NAME STATE READ WRITE CKSUM
san DEGRADED 0 0 0
raidz2-0 DEGRADED 0 0 0
ata-WDC_WD20EZRX-00DC0B0_WD-WMC1T3458346 ONLINE 0 0 0
replacing-1 DEGRADED 0 0 0
ata-ST2000DM001-9YN164_W1E07E0G OFFLINE 0 0 38
ata-WDC_WD2000FYYZ-01UL1B1_WD-WCC1P1171516 ONLINE 0 0 0 (resilvering)
ata-WDC_WD20EZRX-19D8PB0_WD-WCC4M0428332 DEGRADED 0 0 63 too many errors
ata-ST2000NM0011_Z1P07NVZ ONLINE 0 0 0
ata-WDC_WD20EARX-00PASB0_WD-WCAZAJ490344 ONLINE 0 0 0
wwn-0x50014ee20949b6f9 DEGRADED 0 0 75 too many errors
Резилверот заврши успешно.
$ zpool status
pool: san
state: DEGRADED
status: One or more devices has experienced an unrecoverable error. An
attempt was made to correct the error. Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
using 'zpool clear' or replace the device with 'zpool replace'.
see: http://zfsonlinux.org/msg/ZFS-8000-9P
scan: resilvered 1.48T in 12h5m with 0 errors on Wed Jan 22 05:38:48 2020
config:
NAME STATE READ WRITE CKSUM
san DEGRADED 0 0 0
raidz2-0 DEGRADED 0 0 0
ata-WDC_WD20EZRX-00DC0B0_WD-WMC1T3458346 ONLINE 0 0 0
ata-WDC_WD2000FYYZ-01UL1B1_WD-WCC1P1171516 ONLINE 0 0 0
ata-WDC_WD20EZRX-19D8PB0_WD-WCC4M0428332 DEGRADED 0 0 63 too many errors
ata-ST2000NM0011_Z1P07NVZ ONLINE 0 0 0
ata-WDC_WD20EARX-00PASB0_WD-WCAZAJ490344 ONLINE 0 0 0
wwn-0x50014ee20949b6f9 DEGRADED 0 0 75 too many errors
Сега сум на крстопат. Јас обично дд
ги нулам првите 2 MB од дефектниот диск и го заменувам со самиот себе, што е добро со тоа, но ако навистина недостасуваат податоци, можеби ќе ми требаат овие два последни тома за да ги вратам работите.
Го имам овој sdf
на моето биро, отстранет. Чувствувам дека можам, во најлошо сценарио, да го искористам ова за да помогнам во одредено закрепнување.
Во меѓувреме, мислам дека ќе го развлечам / поништам првиот деградиран погон сега и ќе го заменам сам со себе, и мислам дека работите треба да се одвиваат, исплакнат и повторат за 2-риот дефект на уредот, сè додека не можам да направам замена за рака.
Прашање Што се случи, како можеше да се закачи базенот или можеби ми недостасуваат некои податоци (сомнително со оглед на интегритетот на zfs и неговите извештаи)
Можеше да се случи тоа поради среќен редослед на неуспех, на пр. не горниот погон на оџакот што не успеа ??
Прашање Овој е само FYI, и не е поврзан со темата. Што предизвика сите 3 да не успеат во исто време? Мислам дека тоа беше пилиндер кој беше катализатор. Проверив претходната вечер и сите погони беа на Интернет.
Забелешка, каблирањето беше проблем во блиското минато, канцеларијата станува студена ноќе, но овие проблеми беа дискови недостапни
, за разлика од грешките во проверката на сумата. Мислам дека тоа не е каблирање, но можеби стареечки погони, стари 5 години. Но, 3 неуспеси во еден ден? Ајде, тоа е доволно за да исплаши многу нас!
RAID-Z2 - это двойная четность , избыточность аналогична RAID 6. Два диска могут полностью выйти из строя, и данные будут восстановлены после четности. Предполагая, что остальная часть массива исправна.
У вас не обязательно были ошибки ввода-вывода. DEGRADED означает, что ZFS продолжает использовать диск , несмотря на ошибки контрольной суммы. Возможно, из-за нескольких переворотов, но привод все еще работает. По ссылка из этого вывода:
Запустите 'zpool status -x', чтобы определить, в каком пуле возникли ошибки.
Найдите устройство с ненулевым счетчиком ошибок для READ, WRITE или CKSUM. Это указывает на то, что в устройстве возникла ошибка чтения ввода-вывода, напишите Ошибка ввода-вывода или ошибка проверки контрольной суммы. Поскольку устройство является частью зеркало или устройство RAID-Z, ZFS смогла восстановиться после ошибки и впоследствии восстановить поврежденные данные.
Если эти ошибки сохраняются в течение определенного периода времени, ZFS может определить устройство неисправно и отметьте его как таковое. Однако это количество ошибок может или может не указывать на то, что устройство непригодно для использования.
Относительно работоспособности диска:
может быть устаревшие диски, которым 5 лет. Но 3 отказа в одном день? Да ладно, этого достаточно, чтобы напугать многих из нас!
Резервное копирование и восстановление сейчас проверяют важные данные. С другого носителя, а не из этого массива.
Замените приводы, которые продолжают выходить из строя. Определенно, если ядро сообщает об ошибках ввода-вывода в системном журнале. Если по гарантии или контракту на поддержку, воспользуйтесь этим. Если прошла гарантия, производитель поспорил, что они не прослужат так долго, поэтому примите это во внимание.