Без внесения каких-либо изменений в конфигурацию nagios3 или изменения файловой системы ОС (debian), когда я добавляю несколько дополнительных устройств (к 12000+ на нем уже) внезапно
[1508925621] Warning: Return code of 127 for check of service 'PING' on host 'SOME-HOST.CISCO' was out of bounds. Make sure the plugin you're trying to run actually exists.
[1508925621] SERVICE ALERT: SOME-HOST.CISCO;PING;CRITICAL;HARD;3;(Return code of 127 is out of bounds - plugin may be missing)
Все двоичные файлы доступны для чтения / выполнения, ничего из этого не изменилось с момента установки.
Это происходит для ВСЕХ хостов этого типа, имейте в виду, что это установка, которая работала годами без перерыва. Единственное, что я могу придумать, - это какой-то предел ОС при запуске проверок, поскольку это единственное что меняется, больше хозяев.
У меня давно было max_concurrent_checks = 1500
. (Это 16-ядерный физический сервер с 24 ГБ ОЗУ)
Помимо параллельных проверок, которые я выполняю
check_result_reaper_frequency = 25
max_check_result_reaper_time = 20
Большая группа хостов настроена как таковая:
define host{
use generic-cisco
host_name SOME_HOST.CISCO
alias SOME_HOST.CISCO
address xxx.xxx.xxx.xxx
check_command check-host-alive
hostgroups cisco_devices
}
define service{
use generic-service
host_name SOME_HOST.CISCO
service_description PING
check_command check_ping!200.0,20%!600.0,60%
normal_check_interval 10
retry_check_interval 5
}
Единственный Чтобы вернуть его в рабочее состояние, нужно отключить некоторые из недавно добавленных хостов, остановить и запустить, надеясь, что все будет нормально. Есть предложения?
Исправлено было, хотя у меня было много других рекомендаций по производительности, я не отключал enable_environment_macros
Сейчас нет вмятины в производительности. Очевидно, проблема заключалась в том, что ОС пыталась сделать эти переменные среды доступными на таком количестве хостов.
Можно найти здесь здесь
Мне нравится хороший nagios facepalm.