Я следую документу http://clusterlabs.org/doc/en-US/Pacemaker/1.1-pcs/html/Clusters_from_Scratch/_verify_corosync_installation.html для установки 2 кластеров узла в AWS. Этим двум узлам установили кардиостимулятор, и правила FW включены. Когда я выполняю команду состояния ПК на обоих узлы, я получаю сообщение, что другой узел ГРЯЗЕН (офлайн).
Два узла, что у меня есть установка, являются ha1p и ha2p.
ВЫВОД НА ha1p
[root@ha1 log]# pcs status
Cluster name: mycluster
WARNING: no stonith devices and stonith-enabled is not false
Last updated: Wed Dec 24 21:30:44 2014
Last change: Wed Dec 24 21:27:44 2014
Stack: cman
Current DC: ha1p - partition with quorum
Version: 1.1.11-97629de
2 Nodes configured
0 Resources configured
Node ha2p: UNCLEAN (offline)
Online: [ ha1p ]
Full list of resources:
ВЫВОД НА ha2p
[root@ha2 log]# pcs status
Cluster name: mycluster
WARNING: no stonith devices and stonith-enabled is not false
Last updated: Wed Dec 24 21:30:44 2014
Last change: Wed Dec 24 21:27:44 2014
Stack: cman
Current DC: ha2p - partition with quorum
Version: 1.1.11-97629de
2 Nodes configured
0 Resources configured
Node ha1p: UNCLEAN (offline)
Online: [ ha2p ]
Full list of resources:
Содержание/etc/cluster/cluster.conf как указано ниже:
[Журнал root@ha1] # кошка/etc/cluster/cluster.conf
<cluster config_version="9" name="mycluster">
<fence_daemon/>
<clusternodes>
<clusternode name="ha1p" nodeid="1">
<fence>
<method name="pcmk-method">
<device name="pcmk-redirect" port="ha1p"/>
</method>
</fence>
</clusternode>
<clusternode name="ha2p" nodeid="2">
<fence>
<method name="pcmk-method">
<device name="pcmk-redirect" port="ha2p"/>
</method>
</fence>
</clusternode>
</clusternodes>
<cman expected_votes="1" two_node="1"/>
<fencedevices>
<fencedevice agent="fence_pcmk" name="pcmk-redirect"/>
</fencedevices>
<rm>
<failoverdomains/>
<resources/>
</rm>
</cluster>
Любая справка очень ценилась бы.
Это происходит потому, что ваш кластер не имеет полной конфигурации stonith. В нечистом состоянии означает, что кластер не знает состояние узла.
Возможно, вы можете отредактировать файл / etc / hosts и удалить строки, содержащие 127.0.0.1 и :: 1 (строки, в которых упоминается localhost). У меня возникла именно эта проблема, я попытался использовать этот метод и решил проблему.
Да, вам нужно убедиться, что имя хоста, которое вы используете в определении кластера, НЕ совпадает с именем хоста в строке 127.0.0.1 в /etc/hosts.
Итак, мой / etc / hosts
выглядит так:
127.0.0.1 cluster-node1 domain.com localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.0.1 node1
192.168.0.2 node2
Ошибка:
Node ha2p: UNCLEAN (offline)
Означает, что corosync не мог связаться с другими службами corosync, работающими на других узлах кластера.
Как исправить:
ss -tulnp|egrep ':5405.*corosync'
ip_version: ipv6
в раздел totem
в файле /etc/corosync/corosync.conf
.getent ahosts $HOSTNAME
, чтобы увидеть, как текущее имя хоста решена.У меня возникла та же проблема, причиной которой было несоответствие времени между обоими узлами. После синхронизации ntp/chrony проблема решена.