У меня есть Dell Poweredge R630 с 4 диска в RAID. Я не уверен, что это RAID 10 или RAID 5, потому что я не заказывал и не настраивал сервер изначально, и я просто сетевой администратор по умолчанию, это не моя основная работа. На сервере работает vSphere Essentials ESXi 6.7 и на нем размещается полдюжины виртуальных машин.
Я использую резервное копирование виртуальных машин Altaro, запущенное на виртуальной машине на другом хосте, для резервного копирования этого хоста, а также хоста ESXi 6.5. Когда я начал резервное копирование виртуальных машин на этом хосте, я обнаружил, что резервное копирование случайно завершается ошибкой. В любую ночь 2 или 3 из 5 виртуальных машин, для которых я выполняю резервное копирование, откажутся, но не одни и те же виртуальные машины каждую ночь. Пару недель назад они начали постоянно терпеть неудачи.
Работая со службой поддержки Altaro, чтобы выяснить, почему она терпит неудачу, они обнаружили следующее в журналах Altaro:
2019/09/24 00:11:31.034: DISKLIB-LINK : "san://snapshot-155[Storage] VMName/VMName.vmdk@192.168.1.1:443?User@domain.local/XXX" : failed to open (Unknown error).
2019/09/24 00:11:31.034: DISKLIB-CHAIN : "san://snapshot-155[Storage] VMName/VMName.vmdk@192.168.1.1:443?User@domain.local/XXX" : failed to open (Unknown error).
2019/09/24 00:13:18.446: VixDiskLib: Detected DiskLib error 2338 (NBD_ERR_NETWORK_CONNECT).
2019/09/24 00:13:18.446: VixDiskLib: VixDiskLib_Read: Read 437 sectors at 19619760 failed. Error 14009 (The server refused connection) (DiskLib error 2338: NBD_ERR_NETWORK_CONNECT) at 5235.
Их служба поддержки сообщает эти записи журнала, я предполагаю, в частности, последнюю строку , пришло прямо от хозяина.
Не будучи экспертом по ESXi, я не совсем уверен, какие файлы журналов следует просматривать в ESXi, чтобы попытаться выяснить, что происходит не так, чтобы подтвердить, что это проблема с диском на хосте, и определить, какой это диск. Я могу его заменить. Пока что vCenter не генерирует никаких предупреждений или предупреждений о проблеме с диском, а хост не указывает на проблему с массивом.
Еще один момент данных: большинство этих виртуальных машин работают под управлением Windows. Каждый из них выполняет внутреннее резервное копирование Windows на отдельный диск, и все они работают без ошибок. Мне показалось интересным, что Windows может создавать резервные копии своих дисков внутри виртуальной машины, но возникает ошибка чтения, когда ESXi делает резервную копию извне.
Это не проблема жесткого диска хоста. Файл журнала сообщает вам, что не удалось открыть виртуальный жесткий диск виртуальной машины из-за сетевой ошибки.
Я предполагаю, что резервные копии виртуальных машин, которые находятся на том же хосте, что и резервная копия Altaro, вероятно, не провал. Это правда?