Мы используем пакет Advanced Hostmonitor от ks-soft для мониторинга около 2000 объектов в нашей сети. Мы думаем, что это здорово, парень, который его поддерживает, великолепен, продукт быстрый, стабильный и зрелый, но я чувствую, что по мере роста нашей компании появляются некоторые трения в области интеграции с нашими административными системами бэк-офиса.
Одна из вещей, которые мы хотели бы сделать, - это иметь возможность добавлять новые тесты к любому инструменту мониторинга, который мы используем, через API.Например, когда заказы на серверы поступают из нашего розничного интерфейса, сервер строится автоматически, и в рамках автоматизированного процесса сборки мы хотели бы автоматически добавлять новые тесты в системы мониторинга сети.
Hostmonitor имеет некоторую поддержку для этого с помощью функции под названием HM Script, но мы начинаем сталкиваться с некоторыми ускорениями -
Что нам нравится в hostmonitor , так это Профили действий. Например, если окно Windows IIS выходит из строя, наш профиль действий при неудачном тесте делает что-то вроде:
Я начинаю искать другие инструменты мониторинга сети и ищу:
Я посмотрел на Nagios и Icinga, но, похоже, не могу понять из их документации, могли ли мы иметь эти функции или нет, или, если бы мы могли, сколько работы может быть задействован для реализации / настройки.
Может ли кто-нибудь дать совет, руководство или опыт?
Icinga делает задание вполне прилично (я предпочитаю его Nagios, потому что это имеет единственный API, который Вы можете использовать для получения данных и на 100% совместимы с Nagios-плагинами).
Существует видео о VS Nagios Icinga, который описывает это вполне прилично: YouTube (Это Icinga, таким образом, подход с осторожностью),
Можно использовать Icinga для электронной почты/SMS кто-то и даже запускать скрипт (и таким образом, перезапускать сервис, перезагрузку...) Пример: Ссылка (Это - nagios-ссылка, но это - то же соглашение).
Единственная вещь, в которой я не уверен, выполняет команды в хронологическом порядке.
Для создания конфигурации легче, мы используем NConf. Это предлагает API для хостов, сервисов... (не для управления пользователями).
В зависимости от Вашей среды можно хотеть посмотреть на решение, которое даже не использует датчики и вместо этого просто анализирует трафик, затем настроенные предупреждения на основе материала как то, если Вы видите 500 погрешностей нивелировки, или трафик резко падает в течение длительного промежутка времени. Например, смотрите на то, что обеспечивает ExtraHop: http://www.extrahop.com/
При поиске внешнего контроля, Вы могли бы хотеть взглянуть на WatchMouse. Их API обеспечивает функции, которые Вы упоминаете (если я понимаю, что Вы исправляете): apidoc.watchmouse.com
Аплодисменты Mark
Opsview имеет API: http://docs.opsview.com/doku.php?id=opsview3.0:api