Мне сделали пул ZFS из 6 RAIDZs. Один из RAIDZ ухудшается, из-за выпуска двух дисков в единственном RAIDZ достаточно близко вместе, что ZFS не смог восстановиться с первого отказа, прежде чем второй диск перестал работать. Вот вывод от "состояния шпульки" вскоре после перезагрузки:
pool: pod2
state: DEGRADED
status: One or more devices has experienced an error resulting in data
corruption. Applications may be affected.
action: Restore the file in question if possible. Otherwise restore the
entire pool from backup.
see: http://www.sun.com/msg/ZFS-8000-8A
scrub: resilver in progress for 0h6m, 0.05% done, 237h17m to go
config:
NAME STATE READ WRITE CKSUM
pod2 DEGRADED 0 0 29.3K
raidz1-0 ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F165XG ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F1660X ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F1678R ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F1689F ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F16AW9 ONLINE 0 0 0
raidz1-1 ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F16C6E ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F16C9F ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F16FCD ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F16JDQ ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17M6V ONLINE 0 0 0
raidz1-2 ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17MSZ ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17MXE ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17XKB ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17XMW ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17ZHY ONLINE 0 0 0
raidz1-3 ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F18BM4 ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F18BRF ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F18XLP ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F09880 ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F098BE ONLINE 0 0 0
raidz1-4 DEGRADED 0 0 58.7K
disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F09B0M ONLINE 0 0 0
spare-1 DEGRADED 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F09BEN UNAVAIL 0 0 0 cannot open
disk/by-id/scsi-SATA_ST3000DM001-1CH_W1F49M01 ONLINE 0 0 0 837K resilvered
disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0D6LC ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0CWD1 ONLINE 0 0 0
spare-4 DEGRADED 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F09C8G UNAVAIL 0 0 0 cannot open
disk/by-id/scsi-SATA_ST3000DM001-1CH_W1F4A7ZE ONLINE 0 0 0 830K resilvered
raidz1-5 ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-1CH_Z1F2KNQP ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BML0 ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BPV4 ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BPZP ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BQ78 ONLINE 0 0 0
raidz1-6 ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BQ9G ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BQDF ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BQFQ ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0CW1A ONLINE 0 0 0
disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BV7M ONLINE 0 0 0
spares
disk/by-id/scsi-SATA_ST3000DM001-1CH_W1F49M01 INUSE currently in use
disk/by-id/scsi-SATA_ST3000DM001-1CH_W1F4A7ZE INUSE currently in use
disk/by-id/scsi-SATA_ST3000DM001-1CH_W1F49MB1 AVAIL
disk/by-id/scsi-SATA_ST3000DM001-1ER_Z5001SS2 AVAIL
disk/by-id/scsi-SATA_ST3000DM001-1ER_Z5001R0F AVAIL
errors: 37062187 data errors, use '-v' for a list
Когда первый диск перестал работать, я заменил его горячим резервированием, и он начал повторно серебрить. Перед завершенным пересеребром перестал работать второй диск, таким образом, я заменил второй диск другим горячим резервированием. С тех пор это начнет повторно серебрить, делать приблизительно 50% и затем начинает пожирать память, пока это не съест все это и заставит ОС отказывать.
Обновление RAM на сервере не является простой опцией в этой точке, и неясно мне, что выполнение так гарантировало бы решение. Я понимаю, что будет потеря данных на данном этапе, но если я могу пожертвовать содержанием этого RAIDZ для сохранения остальной части пула, который является совершенно приемлемым результатом. Я нахожусь в процессе резервного копирования содержания этого сервера к другому серверу, но проблема потребления памяти вызывает перезагрузку (или катастрофический отказ) каждые 48 часов или так, который прерывает мое резервное копирование rsync, и перезапуск rsync занимает время (это может возобновиться, после того как это выясняет, где это кончило, но это занимает очень долгое время).
Я думаю, что ZFS, пытающийся иметь дело с двумя запасными заменяющими операциями, в корне проблемы потребления памяти, таким образом, я хочу удалить одно из горячих резервирований, таким образом, ZFS может продолжить работать по одному. Однако то, когда я пытаюсь отсоединить одну из запчастей, я добираюсь, "не может отсоединиться/dev/disk/by-id/scsi-SATA_ST3000DM001-1CH_W1F49M01: никакие пригодные точные копии". Возможно, я могу использовать-f опцию вызвать операцию, но мне точно не ясно, каков результат этого будет, таким образом, я хотел видеть, есть ли у кого-либо какой-либо вход перед продвижением.
Если я могу получить систему в устойчивое состояние, где это может остаться операционным достаточно долго для резервного копирования для завершения, я планирую удалить его для перестройки, но с существующими условиями это застревает в чем-то вроде цикла восстановления.
Сейчас вы можете отсоединить диски UNAVAIL, ZFS их больше не использует.
У вас два неудачных диска в установке RAIDZ-1. Очень вероятно, что вы смотрите на некоторую потерю данных и должны быть готовы к восстановлению из резервной копии.
В качестве примечания, RAIDZ оказался очень хлопотным в моем опыте работы с OpenSolaris/Solaris11. Я бы не советовал использовать его в любой производственной рабочей нагрузке.
Кроме того, для подкрепления того, что сказал ewwhite, FUSE не лучший вариант. Я бы воспользовался этой возможностью, чтобы перейти на что-нибудь более стабильное (возможно, FreeBSD 10).
.