Как сказано в заголовке, на одном из моих BL460 у меня установлен RedHat, и в / var / log / messages от mcelog deamon появляется повторяющееся сообщение:
mcelog: Исправлены ошибки памяти на странице 61a5dd000, превышающие порог 10. через 24ч: 10 через 24ч mcelog: Расположение РОЗЕТКА: 1 КАНАЛ: 1 DIMM: 0 [] mcelog: Страница 61a5dd000 в автономном режиме mcelog: Offlining page 61a5dd000 failed: Ошибка ввода / вывода
У меня два вопроса:
Является ли сообщение "нормальным", я имею в виду, что система видит ошибки, исправляет их, а затем после всех исправлений, которые мне не следовало делать этих ошибок больше нет в / var / log / messages? (даже если это означает, что в каком-то модуле dimm есть ошибки)
Я пытаюсь найти модуль DIMM, но не нахожу его. Я обнаружил PROC 1 BL и пару CHANNEL 1. Но в BL460 DIMM или указаны как от 1 до 6. Я предположил, что DIMM: 0 был физическим DIMM 1, но после его удаления сообщение по-прежнему появляется в / var / log / messages. (затем я удалил 1 и 2, чтобы проверить, потому что оба являются CHANNEL1, но все те же) Как я могу понять, какой это физический DIMM?
Спасибо :)
Это случай, когда у вас должны быть установлены агенты управления HPE. Я не использую mcelog на соответствующем серверном оборудовании HPE.
См .: Сервер HP ProLiant DL380e Gen8 - использование SPP
Для RHEL / CentOS эти драйверы управляют работоспособностью системы и отправляют отчеты в ОС. Конечно, вы также можете получить эту информацию непосредственно из МОТ.
Пример вывода:
hpasmcli> show dimm
DIMM Configuration
------------------
Processor #: 1
Module #: 1
Present: Yes
Form Factor: 9h
Memory Type: DDR3(18h)
Size: 8192 MB
Speed: 1866 MHz
Supports Lock Step: No
Configured for Lock Step: No
Status: Ok
Processor #: 1
Module #: 4
Present: Yes
Form Factor: 9h
Memory Type: DDR3(18h)
Size: 8192 MB
Speed: 1866 MHz
Supports Lock Step: No
Configured for Lock Step: No
Status: Ok
Или через МОТ ...