Существует хорошая утилита, названная cronolog (1), который читает поток и разделяет его на основе шаблона даты. Пример из одного из моих файлов конфигурации Apache:
CustomLog "|/usr/bin/cronolog -z0 /var/log/apache2/example.org/%Y/%Y-%m-%dZ.access_log" combined
Это разделит весь Apache, входит в формат example.org/yyyy/yy-mm-ddZ.access_log, который обычно делает жизнь легче.
Теперь, как это может использоваться в Вашей ситуации: Запустите процесс, который регистрирует все, что происходит в/var/log/messages:
tail -F /var/log/messages | cronolog -z0 /var/log/mylog/dmesg/%Y-%m-%d_%H.log &
Это разделит вывод на файлы с форматом имени файла
/var/log/mylog/dmesg/yyyy-mm-dd_hh.log
Каждые две минуты мимо часа, запущенного скрипт от крона, который проверяет, генерировал ли там файл журнала в последний час. Что-то вроде этого:
#!/bin/bash
# This script is executed every XX:02 from cron
LOGDIR=/var/log/mylog/dmesg
# Get date string five minutes ago
LOGDATE=$(date -u +"%Y-%m-%d_%H" -d "5 min ago")
if [ -e $LOGDIR/$LOGDATE.log ]; then
mail -s "dmesg log for $LOGDATE" my@mail.com <$LOGDIR/$LOGDATE.log
fi
Если никакой файл не найден, никакая почта не отправляется. С этой системой у Вас также будут резервные копии Вашего журнала в каталоге $LOGDIR.
Мне нравится выполнять старые аппаратные средства максимально долго, но я заменил бы машину. Вы собираетесь быть нелегко делать любой прогресс в решении этого вопроса.
Мое подозрение было бы тонким взаимодействием между встроенным микропрограммным обеспечением на "провальных" дисках, возможно основная плата замены в горячем режиме, и RAID-контроллером. Никто или в Dell или в Fujitsu не тестирует те диски, что тот контроллер больше, и Вы вряд ли получите любого в любой заинтересованной компании.
Вы помещаете массив в опасности каждый раз, когда это происходит, так как массив становится ухудшенным и восстанавливается. Если законный отказ происходит на другом диске во время восстановить процесса, Вы собираетесь быть в сценарии отказа массива. Надо надеяться, у Вас есть хорошие резервные копии.
Это печально, потому что добавление дисков действительно должно хорошо работать, но с чем-то этот возраст Вы - действительно более обеспеченное стиснуть зубы и получение чего-то с активной поддержкой производителя.
Первая вещь, которую я сказал бы, будет состоять в том, чтобы обновить встроенное микропрограммное обеспечение, поскольку это происходит справедливо часто с серверами PE с контроллерами PERC.
Просто, потому что массив может восстановить, когда Вы переустанавливаете диск, я не думаю, что означает, что диск хорошо, это могло продвинуться, и именно поэтому это продолжает выпадать из массива. Именно поэтому, когда Dell сообщает мне только для переустановки его, который я пытаюсь заставить их отправлять мне новый (даже при том, что они, вероятно, просто отправляют мне тот, который кто-то передал обратно :-/).
У меня были те же проблемы с Краем Питания 2650, на самом деле, это была проблема PERC, если у Вас есть некоторая запчасть, попытайтесь подкачать его.
Вы сказали, что уже высветили встроенное микропрограммное обеспечение платы RAID. Вы обновляли драйвер для него одновременно? В ранее обращениях за поддержкой с Dell о сбойных дисках они всегда были раздражающе непреклонны, что мы использовали и последнее встроенное микропрограммное обеспечение и драйвер для платы RAID.
Один из них даже предложил, чтобы я должен был восстановить массив с нуля после обновления встроенного микропрограммного обеспечения, чтобы заставить диск прекратить перестать работать. К счастью, я заставил их заменять диск, прежде чем я обратился к выполнению этого (который был проблемой). Таким образом, я не могу подтвердить или отклонить, работало ли его предложение.
У меня была одна последняя мысль и только потому, что Вы не упоминали это явно. Вы проверили на микропрограммное обновление для фактических дисков?