Ошибки памяти ECC, вызывающие случайные перезагрузки сервера

Я выполняю сервер человечности 14.04 на Супермикро X10SLM-F / Xeon E3-1271 v3

Память: SuperTalent 32 ГБ ECC DDR3 1600

О каждых 4 днях вход в систему Ubuntu покажет это:

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:  fru_text: CorrectedErr
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

Сразу после этого перезагрузки сервера самого способом "цикла включения и выключения питания".

Когда я смотрю в журнале событий BIOS, я вижу это:

DATE            TIME           ERROR CODE      SEVERITY
06/13/15      13:13:38      Smbios 0x02         P1-DIMMB2

И описание ошибки:

Single Bit ECC Memory Error

ipmitool в Ubuntu показывают это:

ipmitool sel elist
...
...
  1a | 06/13/2015 | 13:13:39 | Memory | Correctable ECC | Asserted | CPU 0 DIMM 8
  1b | 06/13/2015 | 13:13:39 | Memory | Uncorrectable ECC | Asserted | CPU 0 DIMM 8

Несколько вопросов:

  1. Если память ECC сам исправление, почему машина перезагружает себя?

  2. Я, возможно, пропуская некоторую установку в BIOS, который будет мешать полю перезагрузить себя?

  3. Это - очевидно, проблема карты памяти, или это может быть проблемой слота или проблемой ЦП?

  4. Как мешать серверу перезагрузить?

Спасибо за любой совет.

2
задан 16 June 2015 в 08:58
3 ответа

Система не должна перезагружаться при исправимой ошибке памяти. Вы видите дополнительную информацию / шаблон через ipmitool sel elist ? Сторожевой таймер BMC может перезагрузить систему, проверьте, включен ли он, с помощью ipmitool mc watchdog get . Поскольку у вас уже есть информация о местонахождении неисправного модуля памяти, замените его, и если проблема появится снова, возможно, неисправен слот памяти.

X10SLM-F RAM, которую вы используете, отсутствует в списке протестированных модулей RAM - если у вас есть возможность, замените все планки памяти в «проблемной» системе на эквивалентные, протестированные Supermicro. Также проверьте список поддерживаемых ОС для вашей версии Ubuntu.

Что касается настроек CMOS, вы можете использовать Supermicro SUM , при условии, что у вас установлены ключи SUM, для сброса настроек BIOS со всех систем, затем vimdiff , чтобы проверить, не любой параметр CMOS отличается для систем, которые регулярно перезагружаются, и систем, которые этого не делают.

sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf
1
ответ дан 3 December 2019 в 12:46

Это аппаратное обеспечение Supermicro, поэтому оно недорогое и не имеет полировки и интеграции Dell, HP или IBM ...

ОЗУ ECC исправляет ошибки, но есть порог, который, вероятно, превышено. Рассматриваемый модуль DIMM, вероятно, выходит из строя, и вам следует запланировать его замену.

Вы можете попытаться идентифицировать модуль по слоту и заменить его. Поскольку это происходит часто, будет легко определить проблему.

Также посмотрите Связанные вопросы справа от этого вопроса.

0
ответ дан 3 December 2019 в 12:46

Я видел ту же проблему с этой платой версии 1.02. Я думаю, у него есть конкретная проблема. Я покупаю много плат SM, и они обычно довольно хороши.Я думаю, что с этой платой проблема, если все модули DIMMS заполнены. Я использую Windows, и у меня, например, появляется синий экран.

Попробуйте просто запустить с 16 ГБ (всего 2 слота), и я уверен, что проблема исчезнет. Я знаю, что это не решение, но помогло бы диагностировать странное поведение. Я даже отправил плату обратно в SM, и они сказали, что все в порядке, возможно, они не тестировали с 4 модулями DIMM.

0
ответ дан 3 December 2019 в 12:46

Теги

Похожие вопросы