Я отвечаю за большое количество серверов Windows. В последнее время многие сообщают об ошибках жесткого диска с кодами событий 11 и 55. CHKDSK указывает, что диски в большинстве случаев исправны. Какие еще инструменты диагностики я могу использовать для более точного обнаружения сбоев жесткого диска? Могут ли эти события Windows быть ложными срабатываниями? Я уже оценил S.M.A.R.T., и, похоже, у него есть серьезные проблемы с чувствительностью и специфичностью.
Вы обнаруживаете сбои жесткого диска, отслеживая свой RAID-контроллер (или статус программного RAID) на предмет сбоев дисков .
Когда диск выходит из строя, вы заменяете его как можно быстрее.
Все остальное является прокси для прогнозирования сбоя (что полезно, хотя и не так критично для RAID).
На данный момент есть не лучший инструмент, чем SMART для прогнозирования сбоев (сама статья, на которую вы ссылаетесь - которая все еще является окончательной работой 6 лет спустя - показывает определенную корреляцию между некоторыми ошибками SMART и отказом дисков).
Мониторинг на основе SMART страдает высоким уровнем «ложноотрицательных», но положительные прогнозы отказа можно рассматривать как чрезвычайно надежные (а ложноотрицательные результаты, опять же, учитываются RAID).
В зависимости от производителя сервера, вероятно, существует инструмент или инструменты, предназначенные для мониторинга оборудования с центральной консоли. Dell использует Openmanage , который генерирует предупреждения о проблемах, связанных с оборудованием. У HP и IBM похожие инструменты.