Что происходит, если я вынуждаю ZFS отсоединить горячее резервирование без пригодных точных копий?

Мне сделали пул ZFS из 6 RAIDZs. Один из RAIDZ ухудшается, из-за выпуска двух дисков в единственном RAIDZ достаточно близко вместе, что ZFS не смог восстановиться с первого отказа, прежде чем второй диск перестал работать. Вот вывод от "состояния шпульки" вскоре после перезагрузки:

  pool: pod2
 state: DEGRADED
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: http://www.sun.com/msg/ZFS-8000-8A
 scrub: resilver in progress for 0h6m, 0.05% done, 237h17m to go
config:

        NAME                                                 STATE     READ WRITE CKSUM
        pod2                                                 DEGRADED     0     0 29.3K
          raidz1-0                                           ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F165XG    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F1660X    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F1678R    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F1689F    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F16AW9    ONLINE       0     0     0
          raidz1-1                                           ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F16C6E    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F16C9F    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F16FCD    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F16JDQ    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17M6V    ONLINE       0     0     0
          raidz1-2                                           ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17MSZ    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17MXE    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17XKB    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17XMW    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17ZHY    ONLINE       0     0     0
          raidz1-3                                           ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F18BM4    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F18BRF    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F18XLP    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F09880    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F098BE    ONLINE       0     0     0
          raidz1-4                                           DEGRADED     0     0 58.7K
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F09B0M    ONLINE       0     0     0
            spare-1                                          DEGRADED     0     0     0
              disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F09BEN  UNAVAIL      0     0     0  cannot open
              disk/by-id/scsi-SATA_ST3000DM001-1CH_W1F49M01  ONLINE       0     0     0  837K resilvered
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0D6LC    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0CWD1    ONLINE       0     0     0
            spare-4                                          DEGRADED     0     0     0
              disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F09C8G  UNAVAIL      0     0     0  cannot open
              disk/by-id/scsi-SATA_ST3000DM001-1CH_W1F4A7ZE  ONLINE       0     0     0  830K resilvered
          raidz1-5                                           ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-1CH_Z1F2KNQP    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BML0    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BPV4    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BPZP    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BQ78    ONLINE       0     0     0
          raidz1-6                                           ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BQ9G    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BQDF    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BQFQ    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0CW1A    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BV7M    ONLINE       0     0     0
        spares
          disk/by-id/scsi-SATA_ST3000DM001-1CH_W1F49M01      INUSE     currently in use
          disk/by-id/scsi-SATA_ST3000DM001-1CH_W1F4A7ZE      INUSE     currently in use
          disk/by-id/scsi-SATA_ST3000DM001-1CH_W1F49MB1      AVAIL   
          disk/by-id/scsi-SATA_ST3000DM001-1ER_Z5001SS2      AVAIL   
          disk/by-id/scsi-SATA_ST3000DM001-1ER_Z5001R0F      AVAIL   

errors: 37062187 data errors, use '-v' for a list

Когда первый диск перестал работать, я заменил его горячим резервированием, и он начал повторно серебрить. Перед завершенным пересеребром перестал работать второй диск, таким образом, я заменил второй диск другим горячим резервированием. С тех пор это начнет повторно серебрить, делать приблизительно 50% и затем начинает пожирать память, пока это не съест все это и заставит ОС отказывать.

Обновление RAM на сервере не является простой опцией в этой точке, и неясно мне, что выполнение так гарантировало бы решение. Я понимаю, что будет потеря данных на данном этапе, но если я могу пожертвовать содержанием этого RAIDZ для сохранения остальной части пула, который является совершенно приемлемым результатом. Я нахожусь в процессе резервного копирования содержания этого сервера к другому серверу, но проблема потребления памяти вызывает перезагрузку (или катастрофический отказ) каждые 48 часов или так, который прерывает мое резервное копирование rsync, и перезапуск rsync занимает время (это может возобновиться, после того как это выясняет, где это кончило, но это занимает очень долгое время).

Я думаю, что ZFS, пытающийся иметь дело с двумя запасными заменяющими операциями, в корне проблемы потребления памяти, таким образом, я хочу удалить одно из горячих резервирований, таким образом, ZFS может продолжить работать по одному. Однако то, когда я пытаюсь отсоединить одну из запчастей, я добираюсь, "не может отсоединиться/dev/disk/by-id/scsi-SATA_ST3000DM001-1CH_W1F49M01: никакие пригодные точные копии". Возможно, я могу использовать-f опцию вызвать операцию, но мне точно не ясно, каков результат этого будет, таким образом, я хотел видеть, есть ли у кого-либо какой-либо вход перед продвижением.

Если я могу получить систему в устойчивое состояние, где это может остаться операционным достаточно долго для резервного копирования для завершения, я планирую удалить его для перестройки, но с существующими условиями это застревает в чем-то вроде цикла восстановления.

9
задан 14 July 2014 в 17:35
1 ответ

Сейчас вы можете отсоединить диски UNAVAIL, ZFS их больше не использует.

У вас два неудачных диска в установке RAIDZ-1. Очень вероятно, что вы смотрите на некоторую потерю данных и должны быть готовы к восстановлению из резервной копии.

В качестве примечания, RAIDZ оказался очень хлопотным в моем опыте работы с OpenSolaris/Solaris11. Я бы не советовал использовать его в любой производственной рабочей нагрузке.

Кроме того, для подкрепления того, что сказал ewwhite, FUSE не лучший вариант. Я бы воспользовался этой возможностью, чтобы перейти на что-нибудь более стабильное (возможно, FreeBSD 10).

.
1
ответ дан 2 December 2019 в 22:38

Теги

Похожие вопросы