Я провел некоторое исследование nagios, opennms и zenoss, но не уверен, что нашел то, что ищу.
Сейчас для меня основной движущей силой является возможность отслеживать резервные копии. Это включает в себя mysql, mssql и, возможно, некоторые резервные копии файловой системы.
У нас есть инструмент, который обертывает процесс резервного копирования для этих различных систем и собирает статистику. Итак, такие элементы, как:
Я хочу иметь возможность A) получать уведомления, если задания не выполняются в соответствии с расписанием B) иметь возможность устанавливать пороговые значения для статистики, которые будут запускать уведомления C) я хочу иметь возможность отслеживать тенденции и графически отображать статистику
Я планирую отправка этой информации в приложение мониторинга через HTTP POST. Или приложение мониторинга может также извлечь его из файла журнала.
Однако у нас будут другие процессы с другой «произвольной» (с точки зрения системы мониторинга) статикой, которые нужно будет отслеживать и отслеживать, поэтому гибкость очень важна.
Инструмент или инструменты также должны иметь возможность выполнять общий мониторинг и отслеживание тенденций сетевых интерфейсов, нагрузки на сервер и т. Д.Как только мы получим мониторинг резервного копирования, мы захотим включить и эти элементы.
Спасибо.
Продолжение :
Я решил попробовать следующее в указанном порядке:
Отправлю ответ, как только я приму решение, может пройти некоторое время, пока это не произойдет.
это должно быть довольно легко настроить с zabbix.
при установке пользовательский (и очень мощный) пороги легки - можно записать любое выражение, которое Вы любите, таким образом, что-то как "уведомляет меня, если больше чем 3 из этих 5 серверов не имели успешного резервного копирования", возможно. можно также использовать 6 различных уровней серьезности и эскалации для достижения гибкого уведомления и предупреждения.
zabbix имеет bunlded хранение данных и возможности визуализации - все данные хранятся в базе данных, и изображать одиночную метрику в виде графика, Вам не нужна никакая конфигурация - Вы просто получаете график для него "бесплатно". для длительного хранения и отклонения средних чисел часа вычисляются.
что касается получения Ваших данных о резервных копиях в zabbix, существует несколько возможностей. можно считать его из файлов, можно запустить пользовательские команды, можно продвинуть его от контролируемой машины с помощью утилиты командной строки zabbix_sender... и могло бы быть немного более возможных подходов.
расширение легко - любая пользовательская команда, которая возвращается, данные могут использоваться, чтобы собрать, сохранить и визуализировать те данные.
конечно, общий контроль операционных систем, приложений, snmp и ipmi устройств и так далее возможен.
Вместо того, чтобы писать Ваше собственное решение по контролю, я настоятельно рекомендую использовать существующий инструмент так, чтобы весь основной контроль и предупреждение функциональности были уже реализованы. При выборе Nagios Вы получите основной контроль сервера и сетевых ресурсов бесплатно, и следующие плагины должны дать Вам большую часть остальной части, в чем Вы нуждаетесь:
check_file_ages_in_dirs скажет Вам, существуют ли файлы резервных копий; вот сообщение в блоге, которое я записал с некоторыми основными примерами.
check_file может контролировать размер файла и содержание (использующий regexes), таким образом, можно произвести резервную статистику в файл и контролировать их.
Одна вещь, которую Вы не получите от Nagios, отклоняется и изображает в виде графика; я рекомендую смотреть на Munin для этого, поскольку это просто настроить и, как Nagios, имеет стопки внесенных плагинов.
выполнение
резервные копии организуются backupninja., я использую его просто обертка для моих сценариев удара - чтобы иметь единственный журнал резервного копирования. каждый сценарий запускается с
function handle {
echo Error
error problem occured
}
set -e
trap handle ERR
таким образом, я получаю ошибку в журналах каждый раз, когда любая из команд [например, mysqldump или rsync] перестала работать.
все резервные копии оказываются в rdiff репозитории, таким образом, у меня есть n дни инкрементов.
все резервные копии передаются с помощью rsync к серверу централизованного хранения.
на сервере хранения все резервные копии проверяются ежедневно и после успешной проверки данных по локальному диску, они копируются во внешнюю карту памяти.
проверка
backupninja.log на всех серверах контролируется nagios., который я проверяю, содержат ли они только ИНФОРМАЦИОННЫЕ сообщения и ОТЛАДКА. что-либо еще инициировало предупреждение.
каждое резервное копирование 'касается' тестового файла, присутствия и свежесть которого контролируется на центральном сервере резервного репозитория с nagios.
дополнительно более критические дампы sql проверяются на свой размер [не только свежесть] и полнота [например, в конце дампов mysql я ожидаю новую метку времени в
- Дамп завершается на 22.04.2010 23:21:02
все архивы rdiff ежедневно проверяются, прежде чем данные синхронизируются к Карте памяти и с другой стороны после того, как они синхронизируются. таким образом, даже если ночная передача будет прервана, то у меня будет последовательный репозиторий только на диске USB. результат проверки зарегистрирован в файл, какое содержание и свежесть проверяются nagios.
диски usb повернуты еженедельно и хранятся офлайн на всякий случай. это могло бы быть излишеством для больших объемов данных, но хорошо работает для ~300GB медленно изменяющихся файлов/дампов.
тенденции
я использую простой пользовательский munin плагин для размера участка разности/данных для каждого rdiff репозитория.
во времени, которое требуется для выполнения, можно зарегистрироваться журналы backupninja, но на данный момент я не беспокоюсь об этом.
nagios может сделать отклонение, но необходимо произвести perfdata (http://nagios.sourceforge.net/docs/1_0/perfdata.html) в плагине. При использовании pnp4nagios http://docs.pnp4nagios.org/pnp-0.4/start затем, все будет изображено в виде графика для Вас.
Я нашел, что использование opsview http://www.opsview.org/ является путем, легче, чем конфигурирование nagios и pnp4nagios. Особенно, если Вы - единственный администратор здравого смысла Linux на работе. Opsview является nagios с большим webui, который позволяет почти все действия от веб-браузера. Поскольку это - nagios, можно использовать все nagios плагины, которые Вы использовали в прошлом. Большой инструмент.
Nagios для предупреждения и Кактусы для построения графика плюс некоторая оболочка или сценарии жемчуга сделают точно, что Вы хотите. С комбинацией их вместе, Вы могли сделать в значительной степени что-либо, в зависимости от усилия, которое Вы готовы вставить.
Я рекомендую OpenNMS. Пакет является абсолютно открытым исходным кодом, активно поддерживаемым и регулярно расширенным. Для ссылки я нашел на их информации о конфигурации Wiki для контроля Backup Exec Symantec.
С их веб-сайта..
OpenNMS является первой в мире платформой сетевого управления корпоративного класса, разработанной под моделью с открытым исходным кодом. Это состоит из поддерживаемого проекта сообщества с открытым исходным кодом, а также коммерческие услуги, обучение и организация поддержки.
Раскрытие: Я не имею никакого коммерческого интереса здесь, но владельца OpenNMS Group, "коммерческих услуг, обучения и поддерживаю организацию", упомянутую выше, мой друг.
Это могло быть сделано легко с Circonus (http://circonus.com/). Мы обычно импортируем метрики как это с DTD Resmon XML.