Я сталкиваюсь с очень устойчивой виртуальной машиной (2008R2, инструменты VMware лишь немного устаревшие, те, которые поставлялись с 5.5U3a) в кластере ESXi 6.0U2, работающем на серверах Dell R630. С внешней стороны виртуальная машина перестает отвечать через некоторое время - может быть день, может быть неделя - и она больше не отвечает на эхо-запросы, запросы на подключение и так далее (он запускает промышленное приложение и немного MSSQL). Однако такое поведение уже можно было наблюдать, когда кластер работал с версией 5.5U3a.
Итак, я пытаюсь перезапустить виртуальную машину через веб-клиент или через толстый клиент. Ничего не произошло. Мол, часами. Следующий шаг эскалации:
esxcli vm process kill -w <worldID> -t soft
Нет ответа, без изменений. Сильно пропустите -t и сразу перейдите к
esxcli vm process kill -w <worldID> -t force
Также нет ответа. ВМ продолжает пыхтеть, не отвечает и все такое, но мир просто отказывается быть убитым. Также нет сообщения об ошибке. Перезагрузка хоста с виртуальной машиной - это последнее средство.
Как я могу определить основную причину такого странного поведения?
Как я могу определить основную причину этого очень странного поведения?
Научный метод - ваш друг.
Определите проблему, которую вы хотите решить. Похоже, у вас есть 2 (возможно, взаимосвязанные) проблемы. Виртуальная машина перестает отвечать, и ESXi не может ее убить.
Сбор данных. Найдите соответствующую информацию в журналах, вашем мониторинге и т. Д.
Проанализируйте данные.
Внесите изменения на основе вашего анализа.
Убедитесь, что изменения работают. Если они не вернутся к 2 или 3 и не соберут больше данных / проведут повторный анализ.
Задокументируйте свои выводы.
После определения правильного процесса с помощью
пс | grep vmx
, вы можете внезапно завершить его с помощью kill -9
. Будьте очень осторожны, чтобы выбрать (и убить) правильный процесс. Для получения дополнительной информации посмотрите здесь
Если ничего не работает, согласно документации VmWare, вам пришлось перезагрузить хост ESX