Замена жестких дисков [закрыто]

Мне было интересно, стоит ли заменить жесткий диск на (достаточно) критически важном для системы сервере базы данных после определенного количества лет использования, прежде чем он умрет.

Например, я думал о замене жесткого диска после 3 лет использования. Поскольку у меня много жестких дисков на серверах, я мог бы подумать, какие жесткие диски нужно заменить.

Это хорошая идея или люди просто ждут сбоя?

19
задан 20 December 2011 в 00:12
3 ответа

Google провел исследование дисковых накопителей и обнаружил очень слабую корреляцию между возрастом диска и отказом. Тесты SMART также не показывают сбоев.

Мои локальные наблюдения (> 500 серверов) аналогичны. У меня новые диски быстро выходят из строя, а старые все еще работают.

Мое общее правило - если мы увидели проблемы с диском (SMART или системные ошибки), мы немедленно заменим его. Если нет, то диски отключаются и выключаются вместе с сервером.

Google Study http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/archive/disk_failures.pdf

33
ответ дан 2 December 2019 в 20:14

Нет.

Одна из самых больших проблем при замене жесткого диска на активном производственном сервере заключается в том, что это вызовет перестройку. Особенно, если вы используете RAID5, и особенно если вы используете большие диски, принудительное восстановление создает очень значительный риск неисправимого сбоя. Риск потери массива во время восстановления намного превышает риск, связанный с оставлением трехлетнего диска на месте.

В крайнем случае, если вы последовательно заменяете каждый диск в массиве RAID5 из 6 дисков, состоящем из Для дисков емкостью 2 ТБ ваш теоретический риск неисправимой ошибки чтения во время одной из перестроек составляет около 58% (согласно моим подсчетам с помощью салфетки; пожалуйста, сделайте свой собственный и сравните примечания). Другими словами: ваша «профилактическая» замена диска, по сути, не что иное, как акт саботажа.

Единственный раз, когда я мог бы подумать об обновлении дисков на старом сервере, был бы в ходе его «восстановления», например, после того, как он был выведен из эксплуатации для выполнения одной задачи и перед тем, как поставить его вернуться в строй с новой ролью. Даже в этом случае требования к емкости и производительности будут намного важнее, чем возраст дисков.

13
ответ дан 2 December 2019 в 20:14

Я этого не видел. Мы держим серверы на гарантии до момента снятия с производства - 5 лет. Стандартный RAID 5 позволяет пережить сбой диска, поэтому мы просто держим пару дисков под рукой, чтобы мы могли сразу начать восстановление, а на критически важных серверах мы включаем горячий резерв или используем RAID 10.

Если вы заметили, Несколько дисков на сервере недавно вышли из строя, у вас может быть проблема с объединительной платой. Возможно, это новая вибрация или пыль от ближайшего строительства.

3
ответ дан 2 December 2019 в 20:14

Теги

Похожие вопросы