RAID-5: Два диска перестали работать одновременно?

У нас есть выполнение сервера Dell PowerEdge T410 CentOS с массивом RAID-5, содержащим 5 Барракуд Seagate 3 ТБ диски SATA. Вчера система отказала (я не знаю, как точно и у меня нет журналов).

После начальной загрузки в RAID-контроллер BIOS я видел, что из этих 5 дисков, диск 1 был маркирован как "пропавшие без вести", и диск 3 был маркирован, как "ухудшено". Я сдержал диск 3 и заменил диск 1 новым жестким диском (того же размера). BIOS обнаружил это и начал восстанавливать диск 1 - однако он застрял в %1. Вращающийся индикатор хода выполнения не сдвигался с места всю ночь; полностью замороженный.

Каковы мои опции здесь? Там какой-либо путь состоит в том, чтобы делать попытку восстановления помимо использования некоторого профессионального сервиса восстановления данных? Как два жестких диска могли перестать работать одновременно как этот? Кажется чрезмерно случайным. Действительно ли возможно, что диск 1, неудавшийся и в результате диск 3 ", вышли из синхронизации?" Если так, есть ли какая-либо утилита, которую я могу использовать для возвращения его "в синхронизации?"

21
задан 26 March 2015 в 11:55
8 ответов

После того, как Вы приняли плохой ответ, я очень сожалею о своем еретическом мнении (которое уже несколько раз сохраняло такие массивы).

Ваш второй вышедший из строя диск, вероятно, имеет небольшую проблему, возможно, сбой блока. Это и есть причина, по которой утилита bad sync tool вашей bad raid5 прошивки разбилась на нем.

Вы легко можете сделать копию на уровне секторов с помощью утилиты низкоуровневого клонирования диска (например, gddrescue вероятно очень полезна), и использовать этот диск в качестве нового диска3. В этом случае ваш массив выжил с небольшим повреждением данных.

К сожалению, наверное, уже слишком поздно, так как суть ортодоксального ответа в данном случае: "множественный провал в рейде5, вот апокалипсис!"

Если вы хотите очень хороший, избыточный рейд, используйте программный рейд в Линуксе. Например, его рейд суперблок данных является публичным и документированным.... Мне очень жаль, что так вышло с моим еще одним еретическим мнением.

24
ответ дан 2 December 2019 в 20:02

У вас двойной отказ диска. Это означает, что ваши данные исчезли, и вам придется восстанавливать их из резервной копии. Вот почему мы не должны использовать raid 5 на больших дисках. Вы хотите настроить рейд так, чтобы у вас всегда была возможность выдержать два сбоя диска, особенно на больших медленных дисках.

38
ответ дан 2 December 2019 в 20:02

Возможны следующие варианты:

  1. Восстановление из резервных копий.
    • У вас есть резервные копии, не так ли? RAID - это не резервное копирование.

  2. Профессиональное восстановление данных
    • Вполне возможно, хотя и очень дорого и не гарантированно, что профессиональная служба восстановления сможет восстановить ваши данные.

  3. Принятие потери данных и извлечение уроков из опыта.
    • Как отмечено в комментариях, большие SATA-диски не рекомендуются для конфигурации RAID 5 из-за вероятности двойного сбоя при восстановлении, приводящего к выходу массива из строя.
      • Если это должен быть RAID с контролем четности, то RAID 6 лучше, и в следующий раз используйте также hot spare.
      • Диски SAS лучше по ряду причин, включая большую надежность, отказоустойчивость и меньшую частоту неустранимых битовых ошибок, которые могут привести к URE (неустранимым ошибкам чтения)
    • Как было отмечено выше, RAID не является резервной копией. Если данные имеют значение, убедитесь, что резервное копирование выполнено, и что ваши резервные копии протестированы на восстановление.
37
ответ дан 2 December 2019 в 20:02

Одновременный отказ возможен, даже вероятен, по причинам, указанным другими. Другая возможность состоит в том, что один из дисков вышел из строя на некоторое время раньше, и вы его не проверяли активно.

Убедитесь, что ваш мониторинг быстро поймает том RAID-массива, работающего в ухудшенном режиме. Может быть, у вас не было возможности, но никогда не стоит учиться этому в BIOS.

.
4
ответ дан 2 December 2019 в 20:02

Чтобы ответить на вопрос "Как могли два жестких диска выйти из строя одновременно?" именно так, я хотел бы процитировать из этой статьи :

Суть аргумента такова. По мере того, как дисковые накопители становятся больше. и больше (примерно удвоение за два года), URE (неустранимая ошибка чтения) не имеет улучшились с той же скоростью. URE измеряет частоту возникновения Неустранимаемая ошибка чтения и обычно измеряется в ошибках на Чтение по кусочкам. Например, скорость URE 1E-14 (10 ^ -14) подразумевает, что Статистически, неустранимая ошибка чтения будет происходить один раз в каждой 1E14 бит чтения (1E14 бит = 1.25E13 байт или приблизительно 12ТБ).

...

Аргумент заключается в том, что по мере роста емкости диска, а скорости URE не происходит улучшаются с той же скоростью, вероятность сбоя при восстановлении RAID5 увеличивается с течением времени. Статистически он показывает, что в 2009 году, диск емкость выросла бы настолько, что использование RAID5 было бы бессмысленным. для любого значимого массива.

Итак, RAID5 был небезопасен в 2009. RAID6 тоже будет скоро. Что касается RAID1, то я начал делать их из 3-х дисков. RAID10 с 4 дисками также небезопасен

.
2
ответ дан 2 December 2019 в 20:02

Обычно при многократной покупке дисков у авторизованного реселлера можно запросить, чтобы диски были разных партий, что важно по причинам, указанным выше. Далее, именно поэтому существует RAID 1+0. Если бы вы использовали 6 дисков в RAID 1+0, у вас было бы 9 ТБ данных с немедленным резервированием, когда восстановление тома не требуется

.
1
ответ дан 2 December 2019 в 20:02

Если Ваш контроллер распознан dmraid (например, здесь) на linux, вы можете использовать ddrescue для восстановления вышедшего из строя диска на новый, и использовать dmraid для построения массива вместо вашего аппаратного контроллера.

.
1
ответ дан 2 December 2019 в 20:02

Поток устарел, но если вы читаете, поймите, когда диск выходит из строя в массиве raid, проверьте возраст дисков. Если у вас есть несколько дисков в массиве raid, и им больше 4-5 лет, велика вероятность, что другой диск выйдет из строя. *** СДЕЛАЙТЕ ИЗОБРАЖЕНИЕ или резервную копию **, прежде чем продолжить. Если вы считаете, что у вас есть резервная копия, проверьте ее, чтобы убедиться, что вы можете прочитать ее и восстановить из нее.

Причина в том, что вы подвергаете годы нормальному износу оставшимся дискам, поскольку они вращаются на полной скорости часами и часов. Чем больше количество дисков 6-летней давности, тем больше вероятность того, что другой диск выйдет из строя из-за нагрузки. Если это RAID5, и вы взорвали массив, отлично, у вас есть резервная копия, но для восстановления диска 2 ТБ потребуется 8 - 36 часов в зависимости от типа контроллера рейда и другого оборудования.

Мы регулярно заменяем весь улей рейда на производстве сервера, если все диски старые. Зачем тратить время на замену одного диска, а затем ждать, пока следующий выйдет из строя через день, неделю, месяц или два. Какими бы дешевыми ни были диски, они просто не стоят того.

2
ответ дан 2 December 2019 в 20:02

Теги

Похожие вопросы