Таким образом, я недавно купил систему класса сервера наряду со всеми периферийными устройствами класса сервера. Мне лицензируют для ESXi 6 и имею все недавние установленные патчи. Система обтекала 2 недели теперь, и внезапно у меня был полный катастрофический отказ.
Я интерпретировал этот код ошибки как "Внутренняя Ошибка Таймера". Я передал информацию SuperMicro, но быть честным я не очень уверен относительно их ответов до сих пор. Моя интерпретация была то, что система просто не должна отказывать - по причине, что это - Xeon с памятью ECC, выполняющей ESXI.
Действительно ли возможно, что это было кем-то от ошибки и не должно происходить снова? Как Вы обработали бы это? Поиск некоторого совета от тех, кто видел эти типы ошибок и что они заканчивают тем на самом деле, что делали.
Вы видите эту ошибку (MCE, исключение проверки машины) именно потому, что у нее есть ОЗУ ECC.
У вас где-то сломано оборудование, скорее всего, карта памяти, но, возможно, один или несколько процессоров (CPU 10, возможно?) Или что-то среднее. Закажите ваш контракт на поддержку.
Это могут быть и другие части оборудования, но каждый раз, когда я видел это, это была неисправность ОЗУ ECC, имеющая несколько битовых ошибок. Если MCE расшифровывается как «ошибка внутреннего таймера», следующая наиболее вероятная причина - неисправный процессор или материнская плата.
Да, это повод для беспокойства. Сервер разбился!
Проверьте вашу оперативную память и контакты сокета процессора (если вы собрали сервер вручную).
Вот и вся информация, которую вы получите. Вы можете обратиться в службу поддержки VMware, и они проанализируют аварийный дамп за вас.