Вопросы о подсистеме хостинга ресурсов кластера Hyper-V (RHS)

Question

Вопросы о подсистеме хостинга ресурсов кластера Hyper-V (RHS)

Я отвечаю за несколько крупных отказоустойчивых кластеров Hyper-V. Я очень иногда вижу проблему, когда сообщение 'ISALIVE:0 'для виртуальной машины (через библиотеку vmclusres.dll) проверка завершится неудачно, и подсистема хостинга ресурсов прекратит работу, выйдя из строя несколько машин.

В Интернете есть множество противоречивой информации о том, что на самом деле происходит Вот. Некоторые источники предполагают, что отказоустойчивая кластеризация будет пытаться изолировать ресурс, который сначала не прошел проверку работоспособности, в свой собственный процесс (предполагая, что это защищает другие ресурсы, работающие под тем же RHS).

Этого категорически не происходит на полностью исправленном кластере Windows 2016 Hyper-V. Похоже, что вышедшая из строя RHS завершается, убивая все без исключения вычисления, выполняемые в рамках одного процесса. В журналах упоминается об изолированном проблемном ресурсе виртуальной машины, но я на самом деле не вижу никаких доказательств того, что это происходит (в свойствах этого ресурса), но даже если это действительно происходит, конфигурация по умолчанию все равно привела к тому, что один ресурс эффективно вызывает отключение.

Я могу как бы добавить доверия к этому сводному описанию поведения, но заставляю ресурс работать на отдельных мониторах самостоятельно. Если я делаю это в лаборатории, я встаю:

Get-ClusterResource -Name "*Virtual Machine blah*"

foreach ($resource in $cluster_resources) {$resource.SeparateMonitor}

... Я вижу, что все они используют настройку по умолчанию, которая не запускает отдельный монитор. Хорошо.

Если я настрою их всех на запуск в их собственном мониторе:

foreach ($resource in $cluster_resources) {$resource.SeparateMonitor = 1}

... и подсчитайте процессы RHS, разницы нет. Как и следовало ожидать, если я перезапущу компьютер, у меня внезапно появится много процессов RHS, по одному для каждой виртуальной машины.

Это говорит о том, что ресурс не может волшебным образом переключаться между родительскими процессами RHS, пока они запущены \ включены, поэтому готовая конфигурация действительно может вывести из строя весь узел, когда есть проблема с одним ресурсом. Может ли кто-нибудь где-нибудь сказать мне, здесь ли я?

Кроме того, пытаюсь вернуться к тому, почему возникла исходная проблема. Кто-нибудь знает, где я могу получить информацию о том, что выполняет проверка ISALIVE для библиотеки vmclusres.dll на самом деле ? Нигде нет информации о том, какая проверка не удалась, если это проверка состояния виртуальной машины, какая-то проверка связи IC и т. Д. ВМ не сбрасывала внутри гостя, она просто «провалилась» и вызвала сбой, что своего рода страшно. Из некоторых исследований я знаю, что проверка ISALIVE - это пятиминутная проверка, которая должна быть более глубокой проверкой из двух, но я не могу найти документации, в которой говорится, что она на самом деле проверяет, поэтому у меня нет способ работы в обратном направлении.

2

hyper-v failovercluster

задан hobgadling 27 January 2019 в 10:26

Ссылка

1 ответ

Вопросы о подсистеме хостинга ресурсов кластера Hyper-V (RHS)

Теги

Похожие вопросы