Недавно мой выделенный сервер завис примерно на 50 минут в воскресенье. Он не ответил на пинг или любую команду. В конце концов, хостинговая компания жестко перезагрузила его, и с тех пор все работает нормально.
Я копался в журналах уже два дня, но не нашел ничего необычного, кроме того, что мои журналы остановились между 10:55 и 11:40.
Так что, возможно, я ищу не в том месте, или, может быть, я не смог зарегистрировать важную информацию.
Ситуация, когда сервер перестает отвечать, и после сброса в его логах нет достойного объяснения причины, довольно часто. Стандартный подход к исследованию этого заключается в некотором внеполосном управлении этим сервером, обычно это будет своего рода ipkvm , обычно предоставляемый платой IPMI / BMC. . HP называет это ILO , Dell - DRAC , IBM - RSA , другие поставщики просто называют его IPMI . обычно он обрабатывается отдельным контроллером, который может иметь выделенный сетевой порт (к нему также можно получить доступ в общем режиме , через тот же сетевой интерфейс, к которому подключена ОС, но наличие выделенного более предпочтительно ). Другой вариант - подключить внешний ipkvm, который предоставит вам тот же способ внеполосного подключения.
Итак, когда сервер перестает отвечать, вы используете этот вид связи, войдите на сервер и попытайтесь понять, что не так. Если сервер по-прежнему не отвечает, даже если локальная консоль имеет удаленный доступ, можно попробовать другие, более сложные методы. Во-первых, вход в отладчик ядра с использованием NMI (вызов немаскированного прерывания, который обычно может быть выдан из IPMI / BMC) или даже принудительное выполнение фатальной ловушки и проверка дампированного ядра ядра после перезагрузки. Этот последний метод на самом деле зависит от ОС и используется только при подозрении, что обнаружена ошибка ядра. Поскольку вы используете Linux, я сомневаюсь, что он вам когда-нибудь понадобится, однако об этом стоит упомянуть.