Сервер не отвечает: it Munin?

У нас есть выделенная машина, которая в основном служит веб-сервером. Plesk работает для нескольких доменов, наши веб-серверы и центральный узел munin, который подключается примерно к 10 другим машинам, на которых запущен munin-node.

Сегодня наш сервер не отвечает. Любые вызовы на любой веб-сайт или почтовые серверы будут отключены. SSH также истекал по таймауту, и пользователи жаловались, что больше не могут играть.

Я выполнил полный сброс через панель управления провайдера, и через некоторое время все снова было восстановлено. Итак, я проверил системный журнал: наши службы мониторинга сообщили о первом тайм-ауте в 11:36. Последние записи в системном журнале до этого времени - это две:

Jul  7 11:30:19 xxx CRON[7666]: (munin) CMD (if [ -x /usr/bin/munin-cron ]; then /usr/bin/munin-cron; fi)
Jul  7 11:30:30 xxx CRON[7671]: (root) CMD (if [ -x /etc/munin/plugins/apt_all ]; then /etc/munin/plugins/apt_all update 7200 12 >/dev/null; elif [ -x /etc/munin/plugins/apt ]; then /etc/munin/plugins/apt update 7200 12 >/dev/null; fi)

Может быть, Munin каким-то образом виноват в том, что сервер перестал отвечать? Если да, то как мы можем решить эту проблему?

0
задан 7 July 2016 в 13:57
2 ответа

Нет никаких указаний на то, что Мунин виноват. Вы просто видите последние записи журнала, которые удалось записать вашему серверу.

Существует множество причин, по которым сервер мог выйти из строя или зависнуть. Было бы хорошо взглянуть на консоль перед ее жестким сбросом. Вам придется смотреть глубже и следить за вещами. Первое, на что я обращаю внимание, это проблемы нехватки памяти, которые могут привести к тому, что программное обеспечение не отвечает или перестает работать. Или очень большая нагрузка ... Или ... столько всего.

Если бы у вас было хорошее программное обеспечение, отслеживающее ресурсы / доступность этого сервера и т. Д., Вам нужно было бы заняться чем-нибудь еще, когда это произойдет в следующий раз. Я действительно рекомендую это.

0
ответ дан 5 December 2019 в 18:53

Согласно этой странице munin Ваша последняя запись соответствует запущенному плагину, и он отвечает за проверку статуса обновлений пакетов apt на ваших отслеживаемых серверах.

Я бы отключил плагин на несколько дней и посмотрел, как он работает, но учитывая, что это голый металл сервер: проверка жесткого диска SMART в порядке, а затем проверка ОЗУ

Проверка ОЗУ требует перезагрузки и сбоя, проверка диска SMART не нарушает работу

-2
ответ дан 5 December 2019 в 18:53

Теги

Похожие вопросы