RAID-5: Два диска перестали работать одновременно?

Question

RAID-5: Два диска перестали работать одновременно?

У нас есть выполнение сервера Dell PowerEdge T410 CentOS с массивом RAID-5, содержащим 5 Барракуд Seagate 3 ТБ диски SATA. Вчера система отказала (я не знаю, как точно и у меня нет журналов).

После начальной загрузки в RAID-контроллер BIOS я видел, что из этих 5 дисков, диск 1 был маркирован как "пропавшие без вести", и диск 3 был маркирован, как "ухудшено". Я сдержал диск 3 и заменил диск 1 новым жестким диском (того же размера). BIOS обнаружил это и начал восстанавливать диск 1 - однако он застрял в %1. Вращающийся индикатор хода выполнения не сдвигался с места всю ночь; полностью замороженный.

Каковы мои опции здесь? Там какой-либо путь состоит в том, чтобы делать попытку восстановления помимо использования некоторого профессионального сервиса восстановления данных? Как два жестких диска могли перестать работать одновременно как этот? Кажется чрезмерно случайным. Действительно ли возможно, что диск 1, неудавшийся и в результате диск 3 ", вышли из синхронизации?" Если так, есть ли какая-либо утилита, которую я могу использовать для возвращения его "в синхронизации?"

21

raid storage hardware-raid raid5 data-recovery

задан peterh says reinstate Monica 26 March 2015 в 11:55

Ссылка

8 ответов

У вас двойной отказ диска. Это означает, что ваши данные исчезли, и вам придется восстанавливать их из резервной копии. Вот почему мы не должны использовать raid 5 на больших дисках. Вы хотите настроить рейд так, чтобы у вас всегда была возможность выдержать два сбоя диска, особенно на больших медленных дисках.

38

ответ дан 2 December 2019 в 20:02

Ссылка

Возможны следующие варианты:

Восстановление из резервных копий.
- У вас есть резервные копии, не так ли? RAID - это не резервное копирование.
Профессиональное восстановление данных
- Вполне возможно, хотя и очень дорого и не гарантированно, что профессиональная служба восстановления сможет восстановить ваши данные.
Принятие потери данных и извлечение уроков из опыта.
- Как отмечено в комментариях, большие SATA-диски не рекомендуются для конфигурации RAID 5 из-за вероятности двойного сбоя при восстановлении, приводящего к выходу массива из строя.
  - Если это должен быть RAID с контролем четности, то RAID 6 лучше, и в следующий раз используйте также hot spare.
  - Диски SAS лучше по ряду причин, включая большую надежность, отказоустойчивость и меньшую частоту неустранимых битовых ошибок, которые могут привести к URE (неустранимым ошибкам чтения)
- Как было отмечено выше, RAID не является резервной копией. Если данные имеют значение, убедитесь, что резервное копирование выполнено, и что ваши резервные копии протестированы на восстановление.

37

ответ дан 2 December 2019 в 20:02

Ссылка

Одновременный отказ возможен, даже вероятен, по причинам, указанным другими. Другая возможность состоит в том, что один из дисков вышел из строя на некоторое время раньше, и вы его не проверяли активно.

Убедитесь, что ваш мониторинг быстро поймает том RAID-массива, работающего в ухудшенном режиме. Может быть, у вас не было возможности, но никогда не стоит учиться этому в BIOS.

.

4

ответ дан 2 December 2019 в 20:02

Ссылка

Чтобы ответить на вопрос "Как могли два жестких диска выйти из строя одновременно?" именно так, я хотел бы процитировать из этой статьи :

Суть аргумента такова. По мере того, как дисковые накопители становятся больше. и больше (примерно удвоение за два года), URE (неустранимая ошибка чтения) не имеет улучшились с той же скоростью. URE измеряет частоту возникновения Неустранимаемая ошибка чтения и обычно измеряется в ошибках на Чтение по кусочкам. Например, скорость URE 1E-14 (10 ^ -14) подразумевает, что Статистически, неустранимая ошибка чтения будет происходить один раз в каждой 1E14 бит чтения (1E14 бит = 1.25E13 байт или приблизительно 12ТБ).

...

Аргумент заключается в том, что по мере роста емкости диска, а скорости URE не происходит улучшаются с той же скоростью, вероятность сбоя при восстановлении RAID5 увеличивается с течением времени. Статистически он показывает, что в 2009 году, диск емкость выросла бы настолько, что использование RAID5 было бы бессмысленным. для любого значимого массива.

Итак, RAID5 был небезопасен в 2009. RAID6 тоже будет скоро. Что касается RAID1, то я начал делать их из 3-х дисков. RAID10 с 4 дисками также небезопасен

.

2

ответ дан 2 December 2019 в 20:02

Ссылка

Обычно при многократной покупке дисков у авторизованного реселлера можно запросить, чтобы диски были разных партий, что важно по причинам, указанным выше. Далее, именно поэтому существует RAID 1+0. Если бы вы использовали 6 дисков в RAID 1+0, у вас было бы 9 ТБ данных с немедленным резервированием, когда восстановление тома не требуется

.

1

ответ дан 2 December 2019 в 20:02

Ссылка

Если Ваш контроллер распознан dmraid (например, здесь) на linux, вы можете использовать ddrescue для восстановления вышедшего из строя диска на новый, и использовать dmraid для построения массива вместо вашего аппаратного контроллера.

.

1

ответ дан 2 December 2019 в 20:02

Ссылка

Поток устарел, но если вы читаете, поймите, когда диск выходит из строя в массиве raid, проверьте возраст дисков. Если у вас есть несколько дисков в массиве raid, и им больше 4-5 лет, велика вероятность, что другой диск выйдет из строя. *** СДЕЛАЙТЕ ИЗОБРАЖЕНИЕ или резервную копию **, прежде чем продолжить. Если вы считаете, что у вас есть резервная копия, проверьте ее, чтобы убедиться, что вы можете прочитать ее и восстановить из нее.

Причина в том, что вы подвергаете годы нормальному износу оставшимся дискам, поскольку они вращаются на полной скорости часами и часов. Чем больше количество дисков 6-летней давности, тем больше вероятность того, что другой диск выйдет из строя из-за нагрузки. Если это RAID5, и вы взорвали массив, отлично, у вас есть резервная копия, но для восстановления диска 2 ТБ потребуется 8 - 36 часов в зависимости от типа контроллера рейда и другого оборудования.

Мы регулярно заменяем весь улей рейда на производстве сервера, если все диски старые. Зачем тратить время на замену одного диска, а затем ждать, пока следующий выйдет из строя через день, неделю, месяц или два. Какими бы дешевыми ни были диски, они просто не стоят того.

2

ответ дан 2 December 2019 в 20:02

Ссылка

RAID-5: Два диска перестали работать одновременно?

Теги

Похожие вопросы