Загрузка Linux на самом деле проста. Каждая загрузка в среднем нумерует, суммирование всего ядра, в среднем загружаются. Т.е.
1 min load avg = load_core_1 + load_core_2 + ... + load_core_n
5 min load avg = load_core_1 + load_core_2 + ... + load_core_n
15 min load avg = load_core_1 + load_core_2 + ... + load_core_n
где 0 < avg load < infinity
.
Таким образом, если загрузка 1 на 4 базовых серверах, то это или означает, что каждое ядро используется, 25% или одно ядро составляют 100% при загрузке. Загрузка 4 средств все 4 ядра является объектом 100%-й загрузки. Загрузка> 4 означает, что серверу нужно больше ядер.
check_load
теперь имейте
-r, --percpu
Divide the load averages by the number of CPUs (when possible)
что означает, что при использовании можно думать сервере как имеющий всего одно ядро и следовательно записать, что процент фракционируется непосредственно, не думая о количестве ядер. С -r
предупреждение и критические интервалы становятся 0 <= load avg <= 1
. Т.е. Вы не должны изменять свое предупреждение и критические значения с сервера на сервер.
OP имеют 5,10,15 для интервалов. Это неправильно. Это 1,5,15.
Вас просят сделать это неправильно.
Вы не должны входить в производственные системы и выполнять периодические проверки вручную.
Это гарантирует, что вы (а) пропустите что-то, что происходит между проверками и остановит ваш бизнес, и (б) в конечном итоге облажаетесь при проведении проверок и остановите бизнес.
Вместо этого вы должны реализовать система мониторинга , которая выполняет непрерывные периодические проверки (каждые 5-10 минут) и сообщает вам об аномалиях. См. Тег мониторинга для получения дополнительной информации и идей о том, что проверять.
Дисковое пространство, использование подкачки и загрузка ЦП (глубина выполнения) - типичные вещи, которые нужно отслеживать. Вы также можете выполнить (и проверить время / проверить вывод) стандартные тестовые запросы на серверах баз данных (эти запросы вы должны создать в зависимости от вашей среды).
Для серверов, работающих под управлением ОС Windows, важными проверками могут быть:
С точки зрения сети:
Я бы добавил что-нибудь еще в список, потому что это веб-сервер.
настроил запланированную задачу на подсчет числа «200», «500», «401» и "503" ответов в журналах IIS - для этого можно использовать LOGPARSER. Идея состоит в том, что сценарий будет подсчитывать количество появлений каждого из них, а затем делить количество ответов 500 и 503 на количество ответов 200. Это даст вам общее состояние производительности ответа веб-сервера в виде отношения неудач (500) / успеха (200).
Затем сценарий должен загрузить результаты (включая необработанные данные) в центральную систему отчетности, чтобы вы могли проверить его без наличия для локального входа.
Если вам нужно более детально изучить журналы (скажем, какой пул приложений работает плохо, если применимо), вы можете воспользоваться множеством других вещей, которые вы можете использовать в LOGPARSER, чтобы откопать этот материал.