У нас есть кластер пульса из 2 узлов, который серверирует виртуальный IP-адрес. Ранее из-за ошибки сетевой интерфейс для node1 умер и привел к тому, что кластер выбил node1 из виртуальной IP-стороны.
Теперь, когда мы исправили это, node1 больше не может воссоединиться с виртуальной IP-стороной. Установка node2 в ждущее состояние не приводит к отработке отказа на node1.
Я не знаком с сердцебиением. Есть ли где-нибудь конфигурация/команда, которая позволяет мне отменить/настроить/удалить черный список?
После некоторого покопания выясняется, что количество отказов достигло своего предела во время сбоя сетевого интерфейса. Следовательно, ресурс отказывается вернуться на рабочий узел. Я мог просмотреть счетчик сбоев для каждого ресурса с помощью:
pcs status failcount show <resource_id> [node]
источника:
$ pcs resource help
Чтобы решить эту проблему, я выполнил следующее:
crm_resource --cleanup
, который очистил все счетчики сбоев для моих ресурсов. ( https://clusterlabs.org/pacemaker/doc/en-US/Pacemaker/1.1/html/Pacemaker_Explained/s-failure-handling.html ) Теперь аварийное переключение работает, и теперь все в порядке.