Сервер не отвечает [закрыто]

Наш сервер базы данных иногда перестает отвечать на запросы. На нем работает полностью обновленная версия Ubuntu 14.04 LTS. Известными не-ванильными программами, работающими на нем, являются Nimbus , TSM и Oracle.

Примерно раз в день он перестает отвечать, пока в ночное время, когда выполняется ряд задач обслуживания, таких как резервное копирование.

После того, как он перестает отвечать, кажется, что он остается таким навсегда. Я не могу подключиться к нему по SSH, и он не принимает никаких подключений к базе данных.

Странно то, что сервер отвечает на эхо-запрос. Если я использую telnet для открытия порта 22 (SSH) или порта 1521 (Oracle), я получаю ответ от сервера. Порт 22 даже сообщает что-то вроде «Это OpenSSH». Но на самом деле использование ssh-клиента или открытие соединения с базой данных просто зависает.

Я искал в лог-файлах и ничего не нашел (dmesg, syslog, auth.log и т. Д.). Также кажется подозрительно малая активность в лог-файлах в период отсутствия ответа. После перезапуска сервера он снова работает.

Моей немедленной реакцией было запустить apt-get update и apt-get dist-upgrade и следить за достижением максимального предела файловых дескрипторов. Однако жесткое ограничение для Oracle далеко от максимума файловой системы, поэтому это кажется странным, если это так. У кого-нибудь еще есть идеи, что могло вызвать это?

РЕДАКТИРОВАТЬ: Забыл упомянуть этот процессор, память и места на диске было далеко не до 100%.(Они уже отслеживались, и после того, как это произошло, я также начал отслеживать дескрипторы открытых файлов, но это еще не повторится). Я также могу добавить, что я не ожидаю, что кто-то назовет точный проблема, но любые идеи по поводу дополнительных вещей для мониторинга будут оценены.

1
задан 4 February 2016 в 08:56
1 ответ

Все переменные выглядели вполне нормально. Однако, Я написал cronjob для вывода даты/времени и файловых скрипторов каждую минуту, и обнаружил, что файловые скрипторы находятся в пределах нормальных значений. Однако, в 3 часа ночи часы серверов внезапно вернулись на 2 часа назад во времени (мне потребовалось некоторое время, чтобы заметить это из лог-файла), а затем они умерли без ошибок в логах.

Это оказалось проблемой на уровне хостинга/WMWare (это меня не касается). Кроме всего прочего, на хосте WMWare было время, которое было полностью выключено. После того, как инфраструктурная компания исправила свою платформу WMWare, она снова работала нормально.

0
ответ дан 4 December 2019 в 06:40

Теги

Похожие вопросы