Задание безопасной перезагрузки cron с откатом на проблему сброса SysRq

Я пытаюсь настроить задание cron для ежедневной перезагрузки устройств. С помощью безопасный обратный вызов для сброса SysRq, если по какой-то причине перезагрузка зависает (проблема в том, что SSH прекращается, и устройство никогда не перезагружается, поэтому оно теряется и требует дорогостоящего вмешательства человека для перезапуска).

Сценарий, который раньше работал для некоторое время:

5 5 * * * root /sbin/reboot -f; sleep 30; /bin/echo `date -u +'\%Y-\%m-\%dT\%H:\%M:\%SZ'` >> /var/log/player-reboot.error.log; echo 1 > /proc/sys/kernel/sysrq; sync; echo b > /proc/sysrq-trigger

Однако это довольно жестоко (жесткая перезагрузка -f), и некоторые из наших устройств в последнее время не восстанавливаются (пара тысяч каждый день). Знаете ли вы еще один более умный способ достичь желаемых результатов? Спасибо!

2
задан 27 November 2017 в 16:04
1 ответ

Более простой подход - запланировать другой процесс для проверки времени безотказной работы более 24 часов (т. Е. 25 часов). Если проверка вернула истину, очевидно, что что-то пошло не так с перезагрузкой, поэтому компьютер необходимо перезагрузить с помощью SysRq .

Для максимальной надежности ваша периодическая проверка не должна зависеть от crond (который может быть остановлен зависанием процесса shutdown ). Скорее используйте схему опроса; что-то вроде этого:

#!/bin/bash
max_uptime=$((25*3600)) #max 25h
sleep_time=3600 #1h sleeps
while true; do
    current_uptime=`grep -o "^[[:digit:]]\+" /proc/uptime`
    echo "current uptime: $current_uptime seconds"
    if [ $current_uptime -gt $max_uptime ]; then
        echo "reboot!"
        echo 1 > /proc/sys/kernel/sysrq; sync; echo b > /proc/sysrq-trigger
    else
        echo "not now!"
    fi
    echo "sleeping..."
    sleep $sleep_time
done

Вы можете сначала запустить приведенный выше сценарий с помощью записи @reboot crond или с помощью rc.local и других.

2
ответ дан 3 December 2019 в 11:27

Теги

Похожие вопросы