После скачка использования ЦП хост-сервер для VMWare ESXi 5.5 стал безразличным относительно DRAC, Сети и кластерного членства.
Хост является блейд-модулем, Dell PowerEdge M820 в шасси Dell M1000e с 4 x Xeon E5-4620s и 128 ГБ RAM и локальный SSD в RAID 6.
Всем VM's является Сервер 2 008 R2. Существует один SQL-сервер, который использует RAID SSD для данных. Иначе VM's хранится на QNAP с 10 ссылками Gbit.
Ресурсы не по зафиксированному.
Никакие отказы оборудования никогда не регистрировались или обозначались на блейд-модуле или QNAP.
Сервер должен был быть "холодной" перезагрузкой от M1000e DRAC для становления функциональным снова.
Это, кажется, какой-то отказ VMware, который трудно заблокировал аппаратные средства, однако предварительный тупик журналов отсутствует 3-месячный до удара их.
Начиная с перезапуска - VMware и серверное оборудование не сообщили или указали на любые проблемы.
Кто-либо еще испытал что-нибудь как это? Какие-либо идеи, мысли, предложения?
Скорее всего, это проблема с вашими Windows VM(ами). Можете ли вы сказать нам, какой сетевой драйвер (драйверы) используют ВМ Windows? Intel e1000? Intel e1000e? VMware vmxnet3?
Если они не используют VMware vmxnet3, вы сталкиваетесь с ужасной ошибкой, которая проявляется в падении хоста (PSOD). Смотрите соответствующую статью в базе знаний #2059053
Вот след сбоя на хосте 5.5 ESXi после интенсивной сетевой активности между Windows Server 2008R2 и виртуальной машиной Windows Server 2012.
Исправление заключается в переходе на драйвер vmxnet3. Это укусает многих, потому что e1000/e1000e являются настройками по умолчанию при создании виртуальных машин Windows.
На Вашей позиции я бы открыл билет с Dell и запустил бы всю диагностику. Скорее всего, они направят Вас на обновление всех прошивок до последней версии, если Вы еще этого не сделали. Обычно это хорошая идея.
Я бы также открыл билет с VMware для этой же проблемы.
Возможно, вы столкнулись с ошибкой в операционной системе или аппаратным сбоем. В качестве альтернативы, Вы можете просто пометить эту систему как "возможную проблему" и ждать, если это когда-нибудь повторится.
/Правка - или вы можете прослушать Ed, и/или проверить VMware KB.