У меня есть один сайт с сорока рабочими станциями, и приблизительно пятнадцать вычисляют узлы.
Я управляю рабочими станциями:
- принуждение инженеров хранить все данные в сети NFS, не локально
- не разрешение любому инженеру иметь корень на любой рабочей станции по любой причине
- наличие всего системного системного журнала к центральному хосту системного-журнала-ng, с парсингом журнала, происходящим равномерно (обычно ежедневно, но иногда так же часто как каждый час)
- контролируйте/вниз с nagios
- наличие повторяемого запускает среду - эмпирическое правило - то, если проблема не может быть решена через тридцать минут, машина повторно запущена (на практике, мы на самом деле запускаем намного быстрее, чем что потому что в этой установке редко существует тридцать минут поиска и устранения неисправностей, который мы можем сделать), и если запускать сбои мы начинаем подкачивать аппаратные средства
Я управляю вычислить фермами в значительной степени тот же путь, кроме:
- существует локальный каталог царапины/, где любой может записать что-либо - однако, содержание того каталога не гарантируется
- счетчики производительности/использования сделаны через munin от центрального хоста
- сетевая активность сделана при помощи кактусов для контроля портов коммутатора, с которыми подключены узлы фермы
Это не прекрасно, но это сохранило это движение сайта.
(О, я должен упомянуть, что этот сайт не имеет никаких локальных полностью занятых людей IT, это - PT и по запросу. Системы контроля выше могут обычно сообщать, когда существует компьютер в бедствии.)
Ссылка