Я никогда не понимал аргумент дублирования NIC. Без подвижных частей они редко перестали работать..., у Вас нет 2 материнских плат в одном сервере, не так ли? Лучше всего будьте избыточны на целом уровне сервера.
Однако мне нравится дублирование "человеческой ошибки" выше при отключении по ошибке.
Вы можете использовать Monit: http://www.ubuntugeek.com/monitoring-ubuntu-services-using-monit.html
Он легче, чем Nagios, и будет делать оповещения и ремонтировать услуги. Недостатком является то, что он не такой гибкий, как Nagios, и вам может потребоваться что-то для мониторинга Monit (то есть, если он умрет, вы не будете выполнять никакого мониторинга, в отличие от Nagios, который может выполнять активные проверки узлов NRPE).
Вы можете использовать одну из бесплатных служб мониторинга ( pingdom и т. Д.) И использовать простой скрипт в качестве датчика, см., Например, http: // blog. alertfox.com/2011/01/monitoring-disk-space-and-other-status.html
Таким образом вы получите подробный отчет с помощью очень простых скриптов.
ну, это несложно написать самому, просто создайте perl-скрипт, который выполняет базовые команды и использует какое-то регулярное выражение для получения вашей информации, перетащите его на свой главный компьютер, сравните с вашим тресхолдом и сделайте что-нибудь (по электронной почте), когда вы его передадите.
Добавьте его в cron и выключите :)
однако, если вы хотите что-то всеобъемлющее, получите munin, nagios или cacti, отправьте электронное письмо для установки пакетов.