«Физический уровень Intel QPI обнаружил внутриполосный сброс QPI, но прервал инициализацию»

У меня есть Linux-сервер, который зарегистрировал следующую ошибку mcelog:

Hardware event. This is not a software error.
MCE 0
CPU 0 BANK 20
MISC 800000
TIME 1476167381 Tue Oct 11 06:29:41 2016
MCG status:
MCi status:
Corrected error
MCi_MISC register valid
MCA: BUS error: 0 0 Level-3 Generic Generic Other-transaction
Request-did-not-timeout
QPI:
Intel QPI physical layer detected a QPI in-band reset but aborted
initialization
STATUS 8800004000200e0f MCGSTATUS 0
MCGCAP 7000c16 APICID 0 SOCKETID 0
CPUID Vendor Intel Family 6 Model 63

Я могу найти ссылку на эту ошибку в документации по системному программированию Intel и в коде мониторинга на github, но ничего не объясняет причину, следствие и предлагает действия. Я прочитал последние примечания к обновлению микрокода, чтобы узнать, упоминается ли оно, но ничего не могу найти.

Ошибка может быть одноразовой "космического излучения" или "несобытием", которое следует игнорировать, но может ли кто-нибудь уточнить какие-либо рекомендации на уровне системного администратора в реальном мире?

Спасибо

1
задан 12 October 2016 в 15:12
1 ответ

Я предполагаю, что это пара процессоров E5-2640v4 (v# в конце имеет значение).

Вам необходимо проверить лист ошибок процессора (ищите документы "обновления спецификации" для вашего конкретного процессора), так как есть несколько ошибок, связанных с проблемами QPI на многих моделях процессоров...

Хорошо: http://www.intel.com/content/dam/www/public/us/en/documents/specification-updates/xeon-e5-v4-spec-update.pdf не перечисляет никаких ошибок, которые могли бы привести к такому поведению QPI. У вас может быть дефект аппаратуры, или вы пострадали от неперечисленных ошибок (более распространённых, чем вы думаете).

Однако, Supermicro - это абсолютная чушь в поддержании их BIOS в актуальном состоянии (у них всё ещё есть это возмутительное утверждение о том, что они никогда не обновляют ваш BIOS на своих страницах поддержки), так что мы можем с уверенностью предположить, что в нём будут устаревшие компоненты прошивки для платформы, такие как обновление микрокода и байтэкод установки платформы.

Так что вы всё ещё можете надеяться, что обновление прошивки поможет. Как и ожидалось от Supermicro, даже в последнем BIOS для этой материнской платы есть слишком старое обновление микрокода, ниже минимальной версии, которую рекомендуется использовать при работе под Linux (вам нужна хотя бы версия 0x0b00001d, начиная с 2016-06-06). Пожалуйста, установите пакет обновления микрокода для вашего дистрибутива (должен быть основан на версии Intel 20160714 или более поздней), это может помочь.

Так как поддержка supermicro, как правило, достаточно хороша в решении проблем, вызванных шуткой о жизненном цикле управления микропрограммой сервера/рабочей станции. Сообщите о проблеме напрямую и запросите бета-версию BIOS с обновлённой прошивкой (микрокод процессора, чипсет, прошивка ME/AMT/TPM и компоненты настройки платформы). Вместо этого они могут сообщить RMA плату, если сочтут это более вероятным аппаратным дефектом

.
0
ответ дан 4 December 2019 в 05:45