Конфигурирование nagios настройки уведомлений, чтобы быть очень частым

Я настроил Кластер Proxmox VE с тремя узлами. У каждого узлы есть много работ VMs его. Я использую Плагин Монитора PVE для установки хостов и сервисов, который хорошо работает.

Моя проблема - то, что отправляющее электронную почту поведение Nagios так или иначе нечетно. Идеально, я хотел бы иметь проверку некогда на минуту для обоих узлы, а также все сервисы, которые работают на каждом узле.

Мой конфигурационный файл похож на это:

# Define the cluster itself as a host
# the command check_pve_cluster_nodes give us info
# on the member's cluster state
define host {
        host_name pve-cluster
        max_check_attempts 10
        check_command check_pve_cluster_nodes
    contact_groups admins
    check_interval 1
    contact_groups admins
    notifications_enabled 1
}

# define openvz, qemu and storages as services of the cluster
define service{
        use generic-service
        host_name pve-cluster
        service_description OpenVZ VMs
        check_command check_pve_cluster_openvz
    check_interval 1
    contact_groups admins
    notifications_enabled 1
}


define service{
        use generic-service
        host_name pve-cluster
        service_description Qemu VMs
        check_command check_pve_cluster_qemu
    check_interval 1
    contact_groups admins
    notifications_enabled 1
}


define service{
        use generic-service
        host_name pve-cluster
        service_description Storages
        check_command check_pve_cluster_storage
    check_interval 1
    contact_groups admins
    notifications_enabled 1
}

Я не изменил настройки единицы измерения времени, таким образом, это должны быть некогда на минуту проверки. Веб-UI Nagios показывает, что хост в режиме офлайн, но уведомления по электронной почте отправляются только несколько минут спустя. Кроме того, почтовое содержание пропускает самую важную информацию - какой узел/сервис точно находится в критическом состоянии:

Узел вниз

***** Nagios *****

Notification Type: PROBLEM
Host: pve-cluster
State: DOWN
Address: pve-cluster
Info: NODES CRITICAL  2 / 3 working nodes

Date/Time: Fri Mar 6 10:48:25 CET 2015

VM вниз

***** Nagios *****

Notification Type: PROBLEM

Service: Qemu VMs
Host: pve-cluster
Address: pve-cluster
State: CRITICAL

Date/Time: Fri Mar 6 10:40:44 CET 2015

Additional Info:

QEMU CRITICAL 2 / 3 working VMs

Как я могу настроить конфигурацию, так, чтобы хосты и сервисы (т.е. VMs) были проверены в одном мелком интервале? Идеально, перепроверки на то состояние должны быть отправлены в 15-минутных интервалах после этого.

Это - даже лучший рабочий процесс? Или есть ли другой, лучший способ запланировать уведомления с подтверждением их?

4
задан 6 March 2015 в 12:02
1 ответ

Nagios отправляет электронные письма только после того, как хост или служба перешли в «жесткое» состояние. На базовом уровне, чтобы ответить на ваш вопрос - жесткое состояние достигается после того, как хост или служба были проверены количество раз, указанное в max_check_attempts . По умолчанию это 4.

Информация о мягких / жестких состояниях: http://nagios.sourceforge.net/docs/3_0/statetypes.html Информация о max_check_attempts: http://nagios.sourceforge.net/docs/3_0/objectdefinitions.html

Похоже, что плагин определенно НАМЕРЕН выдавать детали возврата, но по какой-то причине это не так. К сожалению, у меня нет среды, чтобы проверить это, поэтому мне, возможно, придется оставить вас в подвешенном состоянии с этой частью вопроса.

Соответствующие разделы perl:

print "NODES $rstatus{$statusScore}  $workingNodes / " .
          scalar(@monitoredNodes) . " working nodes" . $br . $reportSummary;

print "STORAGE $rstatus{$statusScore} $workingStorages / " .
          scalar(@monitoredStorages) . " working storages" . $br . $reportSummary;

print "OPENVZ $rstatus{$statusScore} $workingVms / " .
          scalar(@monitoredOpenvz) . " working VMs" . $br . $reportSummary;

print "QEMU $rstatus{$statusScore} $workingVms / " .
          scalar(@monitoredQemus) . " working VMs" . $br .
          $reportSummary;

$ reportSummary содержат подробные сведения о проблемных разделах выше в коде, но, похоже, вам не возвращаются.

3
ответ дан 3 December 2019 в 03:42

Теги

Похожие вопросы