Я выполняю сервер человечности 14.04 на Супермикро X10SLM-F / Xeon E3-1271 v3
Память: SuperTalent 32 ГБ ECC DDR3 1600
О каждых 4 днях вход в систему Ubuntu покажет это:
{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]: Error 0, type: corrected
{1}[Hardware Error]: fru_text: CorrectedErr
{1}[Hardware Error]: section_type: memory error
[Firmware Warn]: error section length is too small
Сразу после этого перезагрузки сервера самого способом "цикла включения и выключения питания".
Когда я смотрю в журнале событий BIOS, я вижу это:
DATE TIME ERROR CODE SEVERITY
06/13/15 13:13:38 Smbios 0x02 P1-DIMMB2
И описание ошибки:
Single Bit ECC Memory Error
ipmitool в Ubuntu показывают это:
ipmitool sel elist
...
...
1a | 06/13/2015 | 13:13:39 | Memory | Correctable ECC | Asserted | CPU 0 DIMM 8
1b | 06/13/2015 | 13:13:39 | Memory | Uncorrectable ECC | Asserted | CPU 0 DIMM 8
Несколько вопросов:
Если память ECC сам исправление, почему машина перезагружает себя?
Я, возможно, пропуская некоторую установку в BIOS, который будет мешать полю перезагрузить себя?
Это - очевидно, проблема карты памяти, или это может быть проблемой слота или проблемой ЦП?
Как мешать серверу перезагрузить?
Спасибо за любой совет.
Система не должна перезагружаться при исправимой ошибке памяти. Вы видите дополнительную информацию / шаблон через ipmitool sel elist
? Сторожевой таймер BMC может перезагрузить систему, проверьте, включен ли он, с помощью ipmitool mc watchdog get
.
Поскольку у вас уже есть информация о местонахождении неисправного модуля памяти, замените его, и если проблема появится снова, возможно, неисправен слот памяти.
X10SLM-F RAM, которую вы используете, отсутствует в списке протестированных модулей RAM - если у вас есть возможность, замените все планки памяти в «проблемной» системе на эквивалентные, протестированные Supermicro. Также проверьте список поддерживаемых ОС для вашей версии Ubuntu.
Что касается настроек CMOS, вы можете использовать Supermicro SUM
, при условии, что у вас установлены ключи SUM, для сброса настроек BIOS со всех систем, затем vimdiff
, чтобы проверить, не любой параметр CMOS отличается для систем, которые регулярно перезагружаются, и систем, которые этого не делают.
sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf
Это аппаратное обеспечение Supermicro, поэтому оно недорогое и не имеет полировки и интеграции Dell, HP или IBM ...
ОЗУ ECC исправляет ошибки, но есть порог, который, вероятно, превышено. Рассматриваемый модуль DIMM, вероятно, выходит из строя, и вам следует запланировать его замену.
Вы можете попытаться идентифицировать модуль по слоту и заменить его. Поскольку это происходит часто, будет легко определить проблему.
Также посмотрите Связанные вопросы справа от этого вопроса.
Я видел ту же проблему с этой платой версии 1.02. Я думаю, у него есть конкретная проблема. Я покупаю много плат SM, и они обычно довольно хороши.Я думаю, что с этой платой проблема, если все модули DIMMS заполнены. Я использую Windows, и у меня, например, появляется синий экран.
Попробуйте просто запустить с 16 ГБ (всего 2 слота), и я уверен, что проблема исчезнет. Я знаю, что это не решение, но помогло бы диагностировать странное поведение. Я даже отправил плату обратно в SM, и они сказали, что все в порядке, возможно, они не тестировали с 4 модулями DIMM.