Как я могу узнать, почему мой выделенный сервер завис или вышел из строя? (Unix-like)

Недавно мой выделенный сервер завис примерно на 50 минут в воскресенье. Он не ответил на пинг или любую команду. В конце концов, хостинговая компания жестко перезагрузила его, и с тех пор все работает нормально.

Я копался в журналах уже два дня, но не нашел ничего необычного, кроме того, что мои журналы остановились между 10:55 и 11:40.

Так что, возможно, я ищу не в том месте, или, может быть, я не смог зарегистрировать важную информацию.


Это привело меня к моему вопросу, как я могу узнать, почему мой посвященный сервер завис или потерпел крах? Что мне регистрировать, где искать, стоит ли провести какой-нибудь тест?


На моем сервере работает Debian (Jessie) 8.3, но я пропустил эту информацию, потому что предпочел бы «общий» ответ, который может быть полезен для любых Unix-подобных ОС.
Более того, этот вопрос может быть слишком общим, я знаю об этом и прошу прощения, если это так.
0
задан 23 February 2016 в 15:59
1 ответ

Ситуация, когда сервер перестает отвечать, и после сброса в его логах нет достойного объяснения причины, довольно часто. Стандартный подход к исследованию этого заключается в некотором внеполосном управлении этим сервером, обычно это будет своего рода ipkvm , обычно предоставляемый платой IPMI / BMC. . HP называет это ILO , Dell - DRAC , IBM - RSA , другие поставщики просто называют его IPMI . обычно он обрабатывается отдельным контроллером, который может иметь выделенный сетевой порт (к нему также можно получить доступ в общем режиме , через тот же сетевой интерфейс, к которому подключена ОС, но наличие выделенного более предпочтительно ). Другой вариант - подключить внешний ipkvm, который предоставит вам тот же способ внеполосного подключения.

Итак, когда сервер перестает отвечать, вы используете этот вид связи, войдите на сервер и попытайтесь понять, что не так. Если сервер по-прежнему не отвечает, даже если локальная консоль имеет удаленный доступ, можно попробовать другие, более сложные методы. Во-первых, вход в отладчик ядра с использованием NMI (вызов немаскированного прерывания, который обычно может быть выдан из IPMI / BMC) или даже принудительное выполнение фатальной ловушки и проверка дампированного ядра ядра после перезагрузки. Этот последний метод на самом деле зависит от ОС и используется только при подозрении, что обнаружена ошибка ядра. Поскольку вы используете Linux, я сомневаюсь, что он вам когда-нибудь понадобится, однако об этом стоит упомянуть.

1
ответ дан 4 December 2019 в 16:41

Теги

Похожие вопросы