На работе у меня есть около 30 рабочих станций Linux, которые совместно используют учетные записи и данные пользователей с NIS и NFS. Пользователи могут выключить их, если они им не нужны. Чтобы получить обзор систем, я запускаю Nagios, который отслеживает управление конфигурацией (Ansible), обновления ОС, монтирование NFS, датчики нагрузки и температуры. Это довольно хорошо работает с настроенными пределами предупреждений.
Одна проблема в том, что когда рабочая станция выключена, я получаю кучу уведомлений от всех служб, которые на ней отслеживаются. На следующий день я получаю еще одну кучу писем с восстановленными данными.
Мне бы очень хотелось, чтобы уведомления отправлялись только тогда, когда хост был в сети. Я действительно хочу знать, когда монтирование NFS завершилось неудачно, но не когда хост в целом выключен.
По общему признанию, я достаточно изучил Nagios, чтобы примерно настроить его, поэтому в ответе было бы уже здорово иметь несколько ключевых слов и указателей.
Пара вещей. Во-первых, вы можете не захотеть устанавливать уведомления на уровне хоста, поскольку, похоже, вас не волнует этот статус. Во-вторых, вы не говорите, почему службы выдают предупреждения. Если это происходит из-за того, что они входят в неизвестное состояние, когда хост не работает, измените параметр notification_options так, чтобы он был предупрежден, скажем, о критическом, предупреждении и восстановлении (c, w, r)