узел кардиостимулятора ГРЯЗЕН (офлайн)

Я следую документу http://clusterlabs.org/doc/en-US/Pacemaker/1.1-pcs/html/Clusters_from_Scratch/_verify_corosync_installation.html для установки 2 кластеров узла в AWS. Этим двум узлам установили кардиостимулятор, и правила FW включены. Когда я выполняю команду состояния ПК на обоих узлы, я получаю сообщение, что другой узел ГРЯЗЕН (офлайн).

Два узла, что у меня есть установка, являются ha1p и ha2p.

ВЫВОД НА ha1p

[root@ha1 log]# pcs status
Cluster name: mycluster
WARNING: no stonith devices and stonith-enabled is not false
Last updated: Wed Dec 24 21:30:44 2014
Last change: Wed Dec 24 21:27:44 2014
Stack: cman
Current DC: ha1p - partition with quorum
Version: 1.1.11-97629de
2 Nodes configured
0 Resources configured


Node ha2p: UNCLEAN (offline)
Online: [ ha1p ]

Full list of resources:

ВЫВОД НА ha2p

[root@ha2 log]# pcs status
Cluster name: mycluster
WARNING: no stonith devices and stonith-enabled is not false
Last updated: Wed Dec 24 21:30:44 2014
Last change: Wed Dec 24 21:27:44 2014
Stack: cman
Current DC: ha2p - partition with quorum
Version: 1.1.11-97629de
2 Nodes configured
0 Resources configured


Node ha1p: UNCLEAN (offline)
Online: [ ha2p ]

Full list of resources:

Содержание/etc/cluster/cluster.conf как указано ниже:

[Журнал root@ha1] # кошка/etc/cluster/cluster.conf

<cluster config_version="9" name="mycluster">
  <fence_daemon/>
  <clusternodes>
    <clusternode name="ha1p" nodeid="1">
      <fence>
        <method name="pcmk-method">
          <device name="pcmk-redirect" port="ha1p"/>
        </method>
      </fence>
    </clusternode>
    <clusternode name="ha2p" nodeid="2">
      <fence>
        <method name="pcmk-method">
          <device name="pcmk-redirect" port="ha2p"/>
        </method>
      </fence>
    </clusternode>
  </clusternodes>
  <cman expected_votes="1" two_node="1"/>
  <fencedevices>
    <fencedevice agent="fence_pcmk" name="pcmk-redirect"/>
  </fencedevices>
  <rm>
    <failoverdomains/>
    <resources/>
  </rm>
</cluster>

Любая справка очень ценилась бы.

5
задан 24 December 2014 в 23:52
5 ответов

Это происходит потому, что ваш кластер не имеет полной конфигурации stonith. В нечистом состоянии означает, что кластер не знает состояние узла.

1
ответ дан 3 December 2019 в 01:44

Возможно, вы можете отредактировать файл / etc / hosts и удалить строки, содержащие 127.0.0.1 и :: 1 (строки, в которых упоминается localhost). У меня возникла именно эта проблема, я попытался использовать этот метод и решил проблему.

1
ответ дан 3 December 2019 в 01:44

Да, вам нужно убедиться, что имя хоста, которое вы используете в определении кластера, НЕ совпадает с именем хоста в строке 127.0.0.1 в /etc/hosts.

Итак, мой / etc / hosts выглядит так:

127.0.0.1   cluster-node1 domain.com localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

192.168.0.1     node1
192.168.0.2     node2
2
ответ дан 3 December 2019 в 01:44

Ошибка:

Node ha2p: UNCLEAN (offline)

Означает, что corosync не мог связаться с другими службами corosync, работающими на других узлах кластера.

Как исправить:

  • проверить, какой IP прослушивается, и убедиться, что IP находится на внешнем интерфейсе, таком как eth0, а не на интерфейсе loopback: ss -tulnp|egrep ':5405.*corosync'
  • убедитесь, что IP-версия IPv4 или IPv6, как вы и ожидали. Вы можете заставить IPv4, добавив ip_version: ipv6 в раздел totem в файле /etc/corosync/corosync.conf.
  • проверьте правила брандмауэра
  • проверьте другие проблемы, связанные с работой сети. Убедитесь, что IP-адреса узлов доступны между собой.
  • используйте getent ahosts $HOSTNAME, чтобы увидеть, как текущее имя хоста решена.
0
ответ дан 3 December 2019 в 01:44

У меня возникла та же проблема, причиной которой было несоответствие времени между обоими узлами. После синхронизации ntp/chrony проблема решена.

0
ответ дан 9 July 2021 в 06:16

Теги

Похожие вопросы