Я использую OVirt версии 4.2.3.8-1.el7, подключенный к 2 серверам IBM PureFlex с 10 узлами (5+5) в общей сложности.
OVirt внезапно потерял соединение со всеми узлами, но виртуальные машины на этих узлах работают без проблем. Я получаю следующую ошибку для всех узлов:
VDSM Node6 command GetCapabilitiesAsyncVDS failed: Message timeout which can be caused by communication issues
Узлы доступны по SSH, и я могу подключиться к этим узлам по SSH с управляющей машины OVirt.
Я перезапустил сервер управления OVirt один раз, и он смог подключиться к узлам на некоторое время, но проблема повторилась через некоторое время.
Может ли кто-нибудь помочь мне, как это можно исправить?
Я могу дать вам только контрольный список:
Можете ли вы пропинговать движок (управляющую машину) с каждого узла? Можете ли вы пропинговать все узлы из движка?
Вы что-нибудь изменили? Вы выпускали какие-нибудь обновления по узлам или двигателям? Есть ли у вас резервные копии ядра?
Кто-то изменил базовую сеть? Был ли IPv6 активирован в вашей сети недавно? IPv6 подходит для виртуальных машин, но для инфраструктуры ovirt (особенно для версии oVirt, которую вы используете) это может вызвать проблемы.
Кроме того, вы можете попытаться связаться с очень полезным сообществом oVirt .