Удаленный мониторинг сети при сбое всех коммуникаций

Вчера вечером (в воскресенье вечером в 22:00) у нас произошел круговой обход, в результате которого были отключены все внешние COMM ... так что оповещения на наших серверах внутри здания не могли передаваться наружу. Есть ли этому решение? возможно, SAAS, который отслеживает / отправляет PING наши серверы, а затем предупреждает, если есть сбой COMM (в дополнение к предупреждению о фактических сбоях, регистрируемых нашим мониторингом сервера)

(Мы небольшая компания, поэтому вряд ли захотим тратить деньги на средства связи при одновременном отключении основного и дополнительного интернет-соединения, как вчера вечером)

Это событие было необычным для нас, мы обычно не получаем поддержку из постели (например, при сбое одной точки ) в воскресенье вечером ... но общий сбой связи немного отличается, поскольку у нас есть люди, которые хотят подключиться в 05:00 (по местному времени) в понедельник утром ... и они не могли связаться со службой поддержки, пока ИТ сотрудники прибыли в офис в 08:00

У нас есть серверы на 4 сайтах, поэтому можно использовать каждый сайт для оповещения, если он не может связаться с одним из других. Я бы предпочел что-то более сложное, чтобы мы могли создать критическое оповещение, если все 3 сайта не смогут связаться с 4-м сайтом (и на самом деле ключевой критический сбой заключается в том, что «никакие дочерние сайты не могут связываться с основным сайтом HQ»)

Мы используем «живые серверы» для некоторых видов мониторинга, поэтому одним из вариантов было бы использовать «живые серверы» для создания веб-страниц на каждом сайте, чтобы служба поддержки могла просматривать их, чтобы видеть статус и временную метку сбоя, как их видит каждый сайт. Это также дало бы возможность предупреждать, если PING от узла A до узла B завершился неудачно, но мы находимся в сельской местности и получаем довольно много периодических сбоев PING между узлами A и B ...

Моим идеалом была бы служба удаленного мониторинга, которую можно было бы настроить так, чтобы она повышалась до критической только в случае сбоя определенных комбинаций теста - например, всем удаленным сайтам не удается выполнить PING-запрос к сайту основного головного офиса.

0
задан 23 December 2019 в 15:28
2 ответа

Ваш вызов здесь состоит в том, что Ваше решение по контролю (ServersAlive) зависит от инфраструктуры, которую это контролирует. Можно приблизиться к этому много путей, один из которых Вы уже предложили.

Настроенный ServersAlive проверяют на каждом сайте для проверки компонента на каждом из других сайтов (веб-сайт, ping, и т.д.). Затем настройте внешний монитор (Робот времени работы, и т.д.) для контроля компонента на каждом сайте (веб-сайт, ping, и т.д.). Затем на основе предупреждений Вы добираетесь, необходимо смочь определить, является ли проблема внутренней, или интернет-соединение, и т.д.

, Другая опция состояла бы в том, чтобы настроить ServersAlive на каждом сайте для контроля всех компонентов на других сайтах. Таким образом, SiteA контролирует SiteB, SiteB контролирует SiteC и т.д. Тем путем Ваш контроль на каждом сайте не зависит от инфраструктуры, это контролируется.

1
ответ дан 31 December 2019 в 13:07

Я вижу, что у Вас уже есть несколько допустимых идей, но вот другой:

комбинация А чего-то как https://datadoghq.com и https://pagerduty.com мог, вероятно, решить эту проблему за несколько долларов в месяц.

1
ответ дан 31 December 2019 в 13:07

Теги

Похожие вопросы