Мы используем nsca для выполнения пассивных проверок.
define service {
name salt-service
register 0
active_checks_enabled 0
passive_checks_enabled 1
check_freshness 1
freshness_threshold 600
max_check_attempts 2
check_interval 5
retry_interval 3
}
define service {
use salt-service
service_description syncthing_procs-2
host_name x
check_command check_nrpe!syncthing_procs!10
display_name Syncthing Procs
}
Хотя freshness_threshold
10 минут, существует случай, когда пассивные проверки являются устаревшими:
6 октября 9:52:36 x shinken: [вторник 6 октября 9:52:35 2015] Предупреждение: результаты сервиса 'syncthing_procs-2' на хосте 'x' являются устаревшими к 0d 0:10:16 (threshold=16714d 9:42:35). Я вызываю непосредственную проверку сервиса.
О, где threshold=16714d 9h 42m 35s
произойдите из того, в то время как я установил его на 10 минут в файле конфигурации? Несомненно, системное время на Shinken VM и хосте 'x' является тем же.
Существует много сервисов, являются устаревшими как этот. Как Вы видите, после того, как пассивная проверка является устаревшей, мы используем check_nrpe
выполнять активную проверку. И проблема теперь, у нас есть столько процессов nrpe, который кажется зависанием:
nagios 31404 1 0 Sep18 ? 00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
nagios 31727 1 0 Oct01 ? 00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
nagios 31732 1 0 Oct01 ? 00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
nagios 32148 1 0 Sep30 ? 00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
nagios 32157 1 0 Sep30 ? 00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
Я просто вставляю некоторых. На самом деле, существуют> 200 процессов.
Так, помимо неправильного порога, у меня также есть другой вопрос: почему существует столько процессов nrpe после этого? Я знаю, что новый процесс будет разветвлен при выполнении активной проверки. Но это должно исчезнуть после того, как проверка сделана, правильно?
А-ч, я знаю ответ для первого вопроса.
О, где threshold=16714d 9-е 35 на 42 м, прибывают из того, в то время как я установил его на 10 минут в файле конфигурации?
Похож существует немного отличающееся между Shinken и Nagios. Это - время Эпохи в днях/часах/минутах/секундах.
expr $(date +%s) / 3600 / 24
16714
невозможно сказать, что именно пошло не так в вашем случае. Вот некоторые мысли:
Мы используем nsca для выполнения пассивных проверок. почему после этого так много процессов nrpe? Я знаю, что при выполнении активной проверки будет разветвлен новый процесс. Но он должен исчезнуть после завершения проверки, верно
Кажется, что nsca не работает должным образом, значит, были выполнены активные проверки. Убедитесь, что nsca работает.
Хотя freshness_threshold составляет 10 минут, есть случай, когда пассивные проверки устарели
или nsca не настроен для отправки пассивного результата на shinken
Я знаю, что будет новый процесс разветвляется при выполнении активной проверки. Но он должен исчезнуть после того, как проверка будет выполнена, верно
Возможно, проверки не прошли и соединения сохраняются другой стороной (shinken)