Check_MK: Как мне создавать уведомления на основе групп служб, а не только одной службы?

Я хотел бы иметь возможность создать уведомление, которое предупреждает о доступности группы сервисов, а не только об одном пороге. Например, у меня есть 10 серверов AWS, которые делают одно и то же, и я ожидаю, что некоторые из них будут иногда перегружены / выходят из строя, не повреждая приложение: я хочу, чтобы Check_MK уведомлял меня, если 3 из 10 серверов (или выше) выходят из строя в данной службе. Если что-то не получится, не уведомляйте меня. Другой пример, возможно, более простой: допустим, у вас есть точка монтирования NFS на 20 серверах с того же сервера NFS. Я не хочу получать 20 предупреждений или критических замечаний, когда могу получить только одно.

Приведенные выше примеры в моей среде уже сгруппированы в сервисные группы.

Я пробовал три разных механизма в Check_MK 1.2.6p16:

  1. Использование Business Intelligence. Настройка группировки и предупреждения была фантастической, она сделала то, что я хотел! Но правила уведомлений не разрешают ничего, связанного с компонентами бизнес-аналитики продукта!

  2. Кластер - я установил кластер для серверов AWS, но поскольку для некоторых из моих проверок (особенно для моей активной проверки HTTP) требуется имя хоста, это не поможет. Не думаю, что Cluster - подходящая кроличья норка, чтобы спуститься сюда, но поправьте меня, если я ошибаюсь. Я перестал смотреть на это.

  3. Оповещение группы обслуживания - цель этого исходного вопроса. В логике уведомлений нет ничего, что позволяло бы мне предупреждать о доступности группы служб.

Кто-нибудь выполнит это с помощью Check_MK?

2
задан 9 June 2016 в 21:17
1 ответ

пример NFS будет сложным, потому что нет возможности для автоматического управления зависимостями между хостами. Вам понадобится обходной путь. Вы можете правильно отслеживать службы экспорта и nfs (есть проверка nfsexports, и вы также можете попробовать проверить соединения rpcinfo) Это оставит пробел, если, например, выйдет из строя брандмауэр, но если вы хорошо отслеживаете nfs, сосредоточьтесь на сервере.

1) BI не предупреждает напрямую, есть check_bi_aggr, на котором вам нужно будет создавать предупреждения. (Используя имена сервисов, которые он будет генерировать). Соответственно, для этого нужно настроить правила уведомлений. Он должен быстро предупредить, если вы достигнете отметки 3/10.

Затем следует изменить уведомления для отдельных служб. то есть вы устанавливаете их так, чтобы они не уведомляли долгое время. то есть через задержку уведомления.

2) в основном бесполезен для этого, он будет доволен, пока последний не вышел из строя

3) в основном ограничение Nagios, забудьте об этом.

0
ответ дан 3 December 2019 в 14:24

Теги

Похожие вопросы