Что проверить во время периодической системной проверки состояния

Загрузка Linux на самом деле проста. Каждая загрузка в среднем нумерует, суммирование всего ядра, в среднем загружаются. Т.е.

 1 min load avg = load_core_1 + load_core_2 + ... + load_core_n
 5 min load avg = load_core_1 + load_core_2 + ... + load_core_n
15 min load avg = load_core_1 + load_core_2 + ... + load_core_n

где 0 < avg load < infinity.

Таким образом, если загрузка 1 на 4 базовых серверах, то это или означает, что каждое ядро используется, 25% или одно ядро составляют 100% при загрузке. Загрузка 4 средств все 4 ядра является объектом 100%-й загрузки. Загрузка> 4 означает, что серверу нужно больше ядер.

check_load теперь имейте

 -r, --percpu
    Divide the load averages by the number of CPUs (when possible)

что означает, что при использовании можно думать сервере как имеющий всего одно ядро и следовательно записать, что процент фракционируется непосредственно, не думая о количестве ядер. С -r предупреждение и критические интервалы становятся 0 <= load avg <= 1. Т.е. Вы не должны изменять свое предупреждение и критические значения с сервера на сервер.

OP имеют 5,10,15 для интервалов. Это неправильно. Это 1,5,15.

3
задан 26 January 2013 в 03:34
3 ответа

Вас просят сделать это неправильно.

Вы не должны входить в производственные системы и выполнять периодические проверки вручную.
Это гарантирует, что вы (а) пропустите что-то, что происходит между проверками и остановит ваш бизнес, и (б) в конечном итоге облажаетесь при проведении проверок и остановите бизнес.

Вместо этого вы должны реализовать система мониторинга , которая выполняет непрерывные периодические проверки (каждые 5-10 минут) и сообщает вам об аномалиях. См. Тег мониторинга для получения дополнительной информации и идей о том, что проверять.

Дисковое пространство, использование подкачки и загрузка ЦП (глубина выполнения) - типичные вещи, которые нужно отслеживать. Вы также можете выполнить (и проверить время / проверить вывод) стандартные тестовые запросы на серверах баз данных (эти запросы вы должны создать в зависимости от вашей среды).

9
ответ дан 3 December 2019 в 04:53

Для серверов, работающих под управлением ОС Windows, важными проверками могут быть:

  • Использование ЦП.
  • Использование ОЗУ.
  • Свободное место на жестком диске.
  • Веб-сервер (IIS) Служба работает или нет.

С точки зрения сети:

  • Хорошо настроенный DNS
  • IP-адрес от DHCP

Это может быть полезно ...

1
ответ дан 3 December 2019 в 04:53

Я бы добавил что-нибудь еще в список, потому что это веб-сервер.

  • настроил запланированную задачу на подсчет числа «200», «500», «401» и "503" ответов в журналах IIS - для этого можно использовать LOGPARSER. Идея состоит в том, что сценарий будет подсчитывать количество появлений каждого из них, а затем делить количество ответов 500 и 503 на количество ответов 200. Это даст вам общее состояние производительности ответа веб-сервера в виде отношения неудач (500) / успеха (200).

    • 500 - Ошибка - не удалось выполнить веб-вызов
    • 503 - Тайм-аут - веб-прокси не получил ответа от вышестоящего веб-сервера
    • 401 - Неавторизовано - веб-вызов не получил ' t Authenticate
    • 200 - Успех - веб-вызов был обработан без ошибок

Затем сценарий должен загрузить результаты (включая необработанные данные) в центральную систему отчетности, чтобы вы могли проверить его без наличия для локального входа.

Если вам нужно более детально изучить журналы (скажем, какой пул приложений работает плохо, если применимо), вы можете воспользоваться множеством других вещей, которые вы можете использовать в LOGPARSER, чтобы откопать этот материал.

0
ответ дан 3 December 2019 в 04:53

Теги

Похожие вопросы