mcelog и HP BL460: понять ошибку DIMM

Как сказано в заголовке, на одном из моих BL460 у меня установлен RedHat, и в / var / log / messages от mcelog deamon появляется повторяющееся сообщение:

mcelog: Исправлены ошибки памяти на странице 61a5dd000, превышающие порог 10. через 24ч: 10 через 24ч mcelog: Расположение РОЗЕТКА: 1 КАНАЛ: 1 DIMM: 0 [] mcelog: Страница 61a5dd000 в автономном режиме mcelog: Offlining page 61a5dd000 failed: Ошибка ввода / вывода

У меня два вопроса:

  1. Является ли сообщение "нормальным", я имею в виду, что система видит ошибки, исправляет их, а затем после всех исправлений, которые мне не следовало делать этих ошибок больше нет в / var / log / messages? (даже если это означает, что в каком-то модуле dimm есть ошибки)

  2. Я пытаюсь найти модуль DIMM, но не нахожу его. Я обнаружил PROC 1 BL и пару CHANNEL 1. Но в BL460 DIMM или указаны как от 1 до 6. Я предположил, что DIMM: 0 был физическим DIMM 1, но после его удаления сообщение по-прежнему появляется в / var / log / messages. (затем я удалил 1 и 2, чтобы проверить, потому что оба являются CHANNEL1, но все те же) Как я могу понять, какой это физический DIMM?

Спасибо :)

0
задан 21 February 2019 в 21:17
1 ответ

Это случай, когда у вас должны быть установлены агенты управления HPE. Я не использую mcelog на соответствующем серверном оборудовании HPE.

См .: Сервер HP ProLiant DL380e Gen8 - использование SPP

Для RHEL / CentOS эти драйверы управляют работоспособностью системы и отправляют отчеты в ОС. Конечно, вы также можете получить эту информацию непосредственно из МОТ.

Пример вывода:

hpasmcli> show dimm
DIMM Configuration
------------------
Processor #:                     1
Module #:                     1
Present:                      Yes
Form Factor:                  9h
Memory Type:                  DDR3(18h)
Size:                         8192 MB
Speed:                        1866 MHz
Supports Lock Step:           No
Configured for Lock Step:     No
Status:                       Ok

Processor #:                     1
Module #:                     4
Present:                      Yes
Form Factor:                  9h
Memory Type:                  DDR3(18h)
Size:                         8192 MB
Speed:                        1866 MHz
Supports Lock Step:           No
Configured for Lock Step:     No
Status:                       Ok

Или через МОТ ...

enter image description here

0
ответ дан 24 November 2019 в 00:51

Теги

Похожие вопросы