ошибки из-за тайм-аута от nagios / SNMP

Контролирую ~100 удаленных хостов через VPN с помощью check_snmp_process.pl. В течение многих месяцев это работало просто великолепно. За выходные я начал видеть ОШИБКУ: Аварийный сигнал (тайм-аут Nagios) ошибки от примерно каждого хоста/процесса. Я могу использовать команду на командной строке и получить успешный ответ, таким образом, я не ясен, почему это было бы тайм-аут при нормальном использовании.

Этим утром я пытался повысить параметрический усилитель 'тайм-аута' на плагине к 20 секундам. Приблизительно в течение часа это, казалось, работало затем в течение минут интенсивность отказов, возвращенная к ее предыдущему уровню.

Сервер VPN, кажется, не является объектом никакой аварийной загрузки. Ни делает nagios машину.

Предложения на том, где еще искать источник этого?

Машина Nagios: CentOS 6.5
Версия Nagios: 3.5.1
Версия модуля: 1.10


Править: Когда 'массовый тайм-аут' происходит, это - все в течение нескольких секунд. Каждый хост показывает то же время (+ - 5 секунд) на отчете. Это может произойти из-за nagios вызывающие перепроверки на 'осиротевших процессах' от перезапуска сервиса. Не уверенный все же. Просто кажется зловещим, когда тайм-ауты 40-50 поражают журнал внезапно.

2
задан 17 February 2015 в 16:29
1 ответ

У меня была такая же проблема, но после редактирования скрипта check_snmp_process.p l тайм-аут с 15 до 40, он работал. my $ TIMEOUT = 40;

1
ответ дан 3 December 2019 в 12:48

Теги

Похожие вопросы