Что может вызвать среднюю загрузку 10-30 (а не 10-30%) [дубликат]

Возможный дубликат:
Как понять использование памяти и среднюю нагрузку на сервере Linux

Я не уверен, лучше ли это было бы озаглавить «Зачем Nagios нужно отслеживать нагрузку, достигающую 30» .

Ситуация: Я настраиваю Nagios для нашей сети и дошел до этапа настройки NRPE на устройствах * nix. Я уже (на бумаге) получил приблизительное представление о том, где я хочу настроить уведомления. Для конкретного сервера, например, это выглядит так: 1 минута: предупреждение на 90%, крит на 100% 5 минут: предупреждение на 80%, крит на 90% {{ 1}} 15 минут: предупреждение на 60%, критическое значение на 70%

На сервере работают два виртуальных процессора, поэтому я планирую использовать параметр -r, чтобы получить результат для каждого процессора (да, я знаю, что это не совсем для каждого процессора). cpu, это нагрузка для всех, деленная на их количество, и меня это устраивает).

поэтому я был абсолютно готов установить это, когда увидел значения по умолчанию в файле конфигурации NRPE:

command[check_load]=/usr/lib/nagios/plugins/check_load -w 15,10,5 -c 30,25,20

Это меня оттолкнуло. Я начал задаваться вопросом, действительно ли я понимаю среднюю нагрузку.Я вижу, что параметр -r не используется, поэтому средняя загрузка выше 1 является нормальной, но предполагает ли это значение по умолчанию для системы с 30 процессорами? Я видел этот вопрос , ответ на который предлагает использовать [количество процессоров] * 10 для критического 5-минутного уведомления (возможно, за одну минуту?), Что дополнительно поддерживает использование значений, намного превышающих мои запланированные. То есть, не видя там значений по умолчанию, я бы пошел с

command[check_load]=/usr/lib/nagios/plugins/check_load -r -w 0.9,0.8,0.6 -c 1.0,0.9,0.7

, но теперь я сомневаюсь. Я знаю, что никто из Интернета не может сказать мне правильные значения для использования в нашей ситуации, и я не ожидаю, что кто-то это сделает, я был бы очень благодарен, если бы кто-нибудь сказал мне, правильно ли я понимаю нагрузку и мне нужно начать детектив снова работайте над полезными ценностями. Как бы то ни было, я получил эти значения только на основании того, что запускал top время от времени в течение последних 6 месяцев на рассматриваемом сервере. Обычно он составляет от 0,4 на процессор (0,8) до 0,55 на процессор (1,1) в среднем за 1 минуту.

1
задан 13 April 2017 в 15:14
1 ответ

Необработанные значения средней загрузки - это просто числа, а не процент от абсолютного значения. Средняя загрузка и загрузка ЦП (обычно выражаемая в процентах) - это не одно и то же. Вы должны отслеживать и то, и другое.

Примерное описание средней нагрузки (по крайней мере, в Linux) - это «количество процессов, которые могут выполняться», это очень зависит от того, что делают ваши системы. Практическое правило состоит в том, что 1 загрузочная единица на ЦП «занята», что объясняет параметр check_load -r. Большое количество операций ввода-вывода и недолговечные процессы действительно могут это испортить. Вы можете найти более подробные описания в другом месте.

Чтобы ответить на ваш вопрос: 30 процессов или потоков могут быть вызваны 30 процессами или потоками, готовыми полностью запустить ваши ЦП, без спящих / опросов.

Хорошая работа для запуска вверху и чувствуя свой груз, Это числа, с которых вы должны начать, и со временем настраивайте их, чтобы минимизировать ложные срабатывания, хотя я бы предложил удвоить ваши критические пороги.

ИМХО, примерные значения nrpe.cfg слишком высоки для типичной рабочей нагрузки сервера. Я предполагаю, что они достаточно высоки, чтобы не вызывать постоянный поток вопросов «NRPE говорит, что моя средняя нагрузка все время слишком высока». Как ни странно, сама check_load имеет значения по умолчанию 0,0,0 и 0,0,0.

вопросы. Как ни странно, сама check_load имеет значения по умолчанию 0,0,0 и 0,0,0.

вопросы. Как ни странно, сама check_load имеет значения по умолчанию 0,0,0 и 0,0,0.

0
ответ дан 4 December 2019 в 09:27

Теги

Похожие вопросы