Какие инструменты вы посоветуете для управления запущенными демонами? Это включает в себя:
Контроль загрузки: renice демон, когда это замедляет целый Поддерживающий сервер: перезапустите его, когда это не будет функционально. Возможно, проверки возможности соединения?
Nagios может сделать обе из этих задач с обработчиками событий для renice, хотя, у меня могло бы скорее быть то выполнение самостоятельно, потому что проверки через что-то как ssh могли тайм-аут, если сервер является объектом загрузки. Идеально, у демона есть его собственные средства управления для предотвращения этого, т.е. 'Соединений Max'.
Any advanced log processing/rotation/parsing tools?
Мне нравится logrotate за вращение журнала, это довольно стандартно. Для обработки мне нравится Splunk, если Вы можете или предоставить его или не нуждаетесь в функциях заплаченные предложения версии.
Handy error notifications: e-mail, icq, jabber, ...
Добавить к Вашему списку, большому количеству людей как текст (SMS) сообщения.
Проверьте Cfengine также. У нас есть он работающий на всем от Linux до AIX и Windows. Это - открытый исходный код, но существует коммерческая версия, которая может сделать некоторые дополнительные приемы для реального легкого контроля.
Splunk в порядке, но если Вы изучаете немного волшебства регулярного выражения, нет очень, Вы не можете сделать.