Какие метрики я должен наблюдать, когда я контролирую сервер?

Question

Какие метрики я должен наблюдать, когда я контролирую сервер?

Используя DNS для обработки геоосведомленного перенаправления обычно делается, но не всегда оптимален.

Причина этого состоит в том, что существует нулевая гарантия, что IP-адрес в запросе DNS всегда коррелируется с физическим местоположением пользователя. Большинство раз это могло бы хорошо быть, но это - просто совпадение. Что происходит, если пользователь использует OpenDNS - как Вы перенаправляете их затем?

"Правильный" ответ является перенаправлением прикладного уровня - имеют Ваши серверы, смотрят на IP-адрес фактического Запроса HTTP и затем перенаправляют к другому серверу (с другим именем), если клиент поразил неправильный сервер.

Google и немногие другие в настоящее время предлагают новое расширение DNS в Рабочей группе IETF DNSEXT, которая позволяет, открывают службы DNS (такие как OpenDNS) для сообщения Сетей доставки контента (например, Akamai), каков действительный адрес, но это довольно спорно из-за последствий конфиденциальности.

4

monitoring metrics

задан Jacob 5 March 2012 в 21:54

Ссылка

5 ответов

Похожие вопросы

score 0 · Answer 1 · 3 December 2019 в 02:45

Я бы порекомендовал вам взглянуть на collectd. Его можно настроить для записи многочисленных измерений в файлы RRD для последующего анализа. Он требует очень мало ЦП и поможет вам понять, как ваша производительность меняется с нагрузкой.

Я не нашел действительно потрясающего инструмента для рисования графиков из сгенерированных RRD, но если вы не хотите проецировать их в реальном времени, просто используя rrdgraph в командной строке обычно достаточно для периодической проверки значительных изменений.

score 0 · Answer 2 · 3 December 2019 в 02:45

Отличный совет выше. Но если вам действительно просто нужно начать, сначала ознакомьтесь с основами: использование ЦП с течением времени, использование памяти с течением времени, использование полосы пропускания и использование дискового пространства (или свободного дискового пространства). Эти четыре очень распространены, потому что они в значительной степени определяют возможности компьютера.

После того, как вы некоторое время наблюдаете и узнаете, что такое «нормально» для сервера, вы сможете определить, когда что-то не в порядке. Вот когда вы будете готовы начать копать глубже и выяснить «почему» - для чего потребуется дополнительный более конкретный мониторинг:)

score 5 · Answer 3 · 3 December 2019 в 02:45

Важными показателями являются те, которые:

Указывают на проблему с правильным и правильным функционирование предоставляемых вами услуг; или
Укажите основную причину проблемы.

Какие показатели важны для вас, зависит от того, какие показатели вы считаете, по вашему профессиональному мнению, наиболее подходящими для этих двух критериев. Если у вас нет опыта, чтобы точно судить об этом заранее, хорошо ... да . Лучше собрать больше данных, которые вам никогда не понадобятся, чем не собирать те данные, которые вам понадобятся позже. (Предостережение заключается в том, что если ваш мониторинг начинает мешать эффективной работе службы, вам может потребоваться немного уменьшить его или оптимизировать сбор статистики).

Если вы ищете краткосрочный - вырезать ответ, боюсь, у меня его нет - вы находитесь на крутом этапе обучения, который затрагивает самую суть того, что значит быть системным администратором. Если вы оказались в ситуации, когда время простоя не имеет значения, отлично! у вас есть прекрасная возможность учиться. Если вы собираетесь попасть в суд или выйти из бизнеса, если эта служба не будет работать идеально, вы можете найти кого-нибудь с большим опытом, чтобы дать вам индивидуальные рекомендации и наставничество.

(Предостережение заключается в том, что если ваш мониторинг начинает мешать эффективной работе службы, вам может потребоваться немного уменьшить его или оптимизировать сбор статистики).

Если вы ищете краткосрочный - вырезать ответ, боюсь, у меня его нет - вы находитесь на крутом этапе обучения, который затрагивает самую суть того, что значит быть системным администратором. Если вы оказались в ситуации, когда время простоя не имеет значения, отлично! у вас есть прекрасная возможность учиться. Если вы собираетесь попасть в суд или выйти из бизнеса, если эта служба не будет работать идеально, вы можете найти кого-нибудь с большим опытом, чтобы дать вам индивидуальные рекомендации и наставничество.

(Предостережение заключается в том, что если ваш мониторинг начинает мешать эффективной работе службы, вам может потребоваться немного уменьшить его или оптимизировать сбор статистики).

Если вы ищете краткосрочный - вырезать ответ, боюсь, у меня его нет - вы находитесь на крутом этапе обучения, который затрагивает самую суть того, что значит быть системным администратором. Если вы оказались в ситуации, когда время простоя не имеет значения, отлично! у вас есть прекрасная возможность учиться. Если вы собираетесь попасть в суд или выйти из бизнеса, если эта служба не будет работать идеально, вы можете найти кого-нибудь с большим опытом, чтобы дать вам индивидуальные рекомендации и наставничество.

Если вы ищете краткий ответ, боюсь, у меня его нет - вы находитесь на крутом этапе обучения, который затрагивает самую суть того, что значит быть системным администратором. Если вы оказались в ситуации, когда время простоя не имеет значения, отлично! у вас есть прекрасная возможность учиться. Если вы собираетесь попасть в суд или выйти из бизнеса, если эта служба не будет работать идеально, вы можете найти кого-нибудь с большим опытом, чтобы дать вам индивидуальные рекомендации и наставничество.

score 1 · Answer 4 · 3 December 2019 в 02:45

Самая простая задача - следить за объемом загрузки ЦП, свободной памяти и подкачки, дискового пространства, дискового ввода-вывода и ввода-вывода сети / полосы пропускания. Это можно сделать с помощью таких инструментов, как munin или collectd. Некоторым людям нравится контролировать множество вещей, но если вы сохраните простоту, по крайней мере, вы сможете получить общую картину. Я также рекомендую вам настроить инструменты мониторинга на отправку вам предупреждений по электронной почте, когда что-то пойдет не так (например, с помощью «пороговых значений» и т. необычные, т.е. сообщения об ошибках или, возможно, даже предупреждения. Но такие сообщения могут быть очень распространенными в зависимости от того, как настроено программное обеспечение для ведения журнала. Обычно у демонов есть файл конфигурации, в котором вы можете изменить "LogLevel". от ошибки (= записывать только когда что-то сломано) до отладки (= записывать что-нибудь). Проверьте, какие демоны у вас запущены на вашем сервере, и измените уровни журнала на ошибку или предупреждение. Затем вы можете установить инструмент анализа файлов журнала, такой как OSSEC, и научить его молчать, когда определенные вещи допустимы, в то время как он должен предупреждать, когда что-то ломается. Эти оповещения могут быть отправлены вам по электронной почте.

Для ваших конкретных сервисов Nginx и Mysql я рекомендую вам следить за их временем отклика. Это хорошо по двум причинам: если вы вообще не получаете ответа, значит, что-то не работает. И если вы получили ответ, который указывает на необычно высокое время отклика - особенно если оно не временное, а в течение, скажем, нескольких минут или часов - тогда служба испытывает затруднения.

Проверьте, какие демоны у вас запущены на вашем сервере, и измените уровни журнала на ошибку или предупреждение. Затем вы можете установить инструмент анализа файлов журнала, такой как OSSEC, и научить его молчать, когда определенные вещи допустимы, в то время как он должен предупреждать, когда что-то ломается. Эти оповещения могут быть отправлены вам по электронной почте.

Для ваших конкретных сервисов Nginx и Mysql я рекомендую вам следить за их временем отклика. Это хорошо по двум причинам: если вы вообще не получаете ответа, значит, что-то не работает. И если вы получите ответ, который указывает на необычно высокое время отклика - особенно если оно не временное, а в течение, скажем, нескольких минут или часов, - тогда служба испытывает трудности.

Проверьте, какие демоны у вас запущены на вашем сервере, и измените уровни журнала на ошибку или предупреждение. Затем вы можете установить инструмент анализа файлов журнала, такой как OSSEC, и научить его молчать, когда определенные вещи допустимы, в то время как он должен предупреждать, когда что-то ломается. Эти оповещения могут быть отправлены вам по электронной почте.

Для ваших конкретных сервисов Nginx и Mysql я рекомендую вам следить за их временем отклика. Это хорошо по двум причинам: если вы вообще не получаете ответа, значит, что-то не работает. И если вы получите ответ, который указывает на необычно высокое время отклика - особенно если оно не временное, а в течение, скажем, нескольких минут или часов, - тогда служба испытывает трудности.

Затем вы можете установить инструмент анализа файлов журнала, такой как OSSEC, и научить его молчать, когда определенные вещи допустимы, в то время как он должен предупреждать, когда что-то ломается. Эти оповещения могут быть отправлены вам по электронной почте.

Для ваших конкретных сервисов Nginx и Mysql я рекомендую вам следить за их временем отклика. Это хорошо по двум причинам: если вы вообще не получаете ответа, значит, что-то не работает. И если вы получили ответ, который указывает на необычно высокое время отклика - особенно если оно не временное, а в течение, скажем, нескольких минут или часов - тогда служба испытывает затруднения.

Затем вы можете установить инструмент анализа файлов журнала, такой как OSSEC, и научить его молчать, когда определенные вещи допустимы, в то время как он должен предупреждать, когда что-то сломано. Эти оповещения могут быть отправлены вам по электронной почте.

Для ваших конкретных сервисов Nginx и Mysql я рекомендую вам следить за их временем отклика. Это хорошо по двум причинам: если вы вообще не получаете ответа, значит, что-то не работает. И если вы получите ответ, который указывает на необычно высокое время отклика - особенно если оно не временное, а в течение, скажем, нескольких минут или часов, - тогда служба испытывает трудности.

Не получаю ответа, что-то сломано. И если вы получили ответ, который указывает на необычно высокое время отклика - особенно если оно не временное, а в течение, скажем, нескольких минут или часов - тогда служба испытывает затруднения.

Не получаю ответа, что-то сломано. И если вы получите ответ, который указывает на необычно высокое время отклика - особенно если оно не временное, а в течение, скажем, нескольких минут или часов, - тогда служба испытывает трудности.

score 3 · Answer 5 · 3 December 2019 в 02:45

Я только что написал и опубликовал руководство именно по этой теме:

Дзен и искусство системного мониторинга

Позвольте мне подвести итог: есть 3 основные цели, о которых следует подумать, когда мониторинг любой производственной системы:

Выявить как можно больше проблем;
Выявить эти проблемы как можно раньше; и
генерировать как можно меньше ложных тревог (что означает установку правильных предупреждений).

И вы хотите сделать это, выбрав свои показатели в соответствии со следующей структурой:

Мониторинг потенциально плохих вещей (вещей, которые могут пошли не так -это часто происходит в виде вещей, которые заполняются / заканчиваются - например, память, диск, пропускная способность)
Отслеживание фактических плохих вещей (вещи, которые делают , идут не так, как вы, несмотря на все ваши усилия)
Следите за хорошими вещами (или их отсутствием - обращайте внимание на то, что вы хотите, и устанавливайте оповещения, когда они происходят реже
Настраивайте и улучшайте (в противном случае вы рискуете «усталостью от предупреждений», известной как DevOps-эквивалент «плачущего волка») )

Каждое развертывание будет немного отличаться от YMMV, но это структура, которую используют многие опытные профессионалы, чтобы думать о вещах (явных или нет).

[Изменить для раскрытия информации: я связан со Scalyr, компанией, которая участвует в этой сфере, и ссылка выше опубликована на их сайте]

Какие метрики я должен наблюдать, когда я контролирую сервер?

Теги

Похожие вопросы