Супермикро BMC вызванные сторожевым таймером перезагрузки

Я недавно получил материнскую плату SuperMicro X10SLL-F, которая имеет встроенный BMC (Микросхема Aspeed AST2400). Я хочу использовать встроенный сторожевой контроллер когда под управлением Linux на сервере (укрепленный хинду).

Я включил сторожевую функцию в BIOS, затем переключил перемычку материнской платы от жесткой перезагрузки до NMI (сторожевое действие тайм-аута, для тестирования чтобы не перезагружать). О мягком - я установил и добавил к значению по умолчанию runlevel сторожевую программу (sys-apps/watchdog), который настроен для проверки с помощью ping-запросов сторожевого устройства (/dev/watchdog, который присутствует), каждые 10 секунд. Сторожевой тайм-аут установлен на 250 секунд.

Программы, по-видимому, видят сторожевые аппаратные средства (ipmitool с включенным openipmi):

# ipmitool mc watchdog get
Watchdog Timer Use:     SMS/OS (0x44)
Watchdog Timer Is:      Started/Running
Watchdog Timer Actions: Hard Reset (0x01)
Pre-timeout interval:   0 seconds
Timer Expiration Flags: 0x10
Initial Countdown:      254 sec
Present Countdown:      253 sec

Freeipmi:

# bmc-watchdog --get
Timer Use:                   SMS/OS
Timer:                       Running
Logging:                     Enabled
Timeout Action:              Hard Reset
Pre-Timeout Interrupt:       None
Pre-Timeout Interval:        0 seconds
Timer Use BIOS FRB2 Flag:    Clear
Timer Use BIOS POST Flag:    Clear
Timer Use BIOS OS Load Flag: Clear
Timer Use BIOS SMS/OS Flag:  Set
Timer Use BIOS OEM Flag:     Clear
Initial Countdown:           254 seconds
Current Countdown:           253 seconds

Однако после определенного количества времени я добираюсь (с хорошим "текущим обратным отсчетом" значения, о которых сообщают программы выше):

[  294.107534] Uhhuh. NMI received for unknown reason 21 on CPU 0.
[  294.107998] Do you have a strange power saving mode enabled?
[  294.108437] Dazed and confused, but trying to continue

Который является NMI, по-видимому, вызванным сторожевым тайм-аутом. Немного меньше чем минута после той жесткой перезагрузки машины происходит.

Где проблема и к какому направлению я должен вырыть?

Править: сообщения ядра связаны с ipmi:

[    0.353090] ipmi message handler version 39.2
[    0.353353] ipmi device interface
[    0.353623] IPMI System Interface driver.
[    0.353898] ipmi_si: probing via ACPI
[    0.354172] ipmi_si 00:08: [io  0x0ca2] regsize 1 spacing 1 irq 0
[    0.354444] ipmi_si: Adding ACPI-specified kcs state machine
[    0.354790] ipmi_si: probing via SMBIOS
[    0.355051] ipmi_si: SMBIOS: io 0xca2 regsize 1 spacing 1 irq 0
[    0.355317] ipmi_si: Adding SMBIOS-specified kcs state machine duplicate interface
[    0.355836] ipmi_si: probing via SPMI
[    0.356095] ipmi_si: SPMI: io 0xca2 regsize 1 spacing 1 irq 0
[    0.356362] ipmi_si: Adding SPMI-specified kcs state machine duplicate interface
[    0.356906] ipmi_si: Trying ACPI-specified kcs state machine at i/o address 0xca2, slave address 0x0, irq 0
[    0.390536] ipmi_si: The BMC does not support clearing the recv irq bit, compensating, but the BMC needs to be fixed.
[    0.418476] ipmi_si 00:08: Found new BMC (man_id: 0x002a7c, prod_id: 0x0801, dev_id: 0x20)
[    0.419004] ipmi_si 00:08: IPMI kcs interface initialized
[    0.419272] IPMI SSIF Interface driver
[    0.420350] IPMI Watchdog: driver initialized
[    0.420635] Copyright (C) 2004 MontaVista Software - IPMI Powerdown via sys_reboot.
[    0.421444] IPMI poweroff: ATCA Detect mfg 0x2A7C prod 0x801
[    0.421710] IPMI poweroff: Found a chassis style poweroff function

Править: Я пытался использовать сторожевой таймер BMC с конфигурацией "-u 4-p 2-a 0-F-P-L-O-i 300-e 10". Таким образом, только время SMS/ОС используется, прерывание перед тайм-аутом установлено на NMI, действие тайм-аута не установлено ни на ОДИН:

# bmc-watchdog --get
Timer Use:                   SMS/OS
Timer:                       Running
Logging:                     Enabled
Timeout Action:              None
Pre-Timeout Interrupt:       NMI / Diagnostic Interrupt
Pre-Timeout Interval:        0 seconds
Timer Use BIOS FRB2 Flag:    Clear
Timer Use BIOS POST Flag:    Clear
Timer Use BIOS OS Load Flag: Clear
Timer Use BIOS SMS/OS Flag:  Set
Timer Use BIOS OEM Flag:     Clear
Initial Countdown:           300 seconds
Current Countdown:           290 seconds

Но ведомый ни к какому изменению вообще.

Править. Также, когда я инициировал сторожевой таймер с повторением \0x00 к/dev/watchdog и затем сохранил это нетронутым - система правильно перезагружается после значения по умолчанию 10 вторых тайм-аутов. Таким образом, сторожевой таймер работает хороший, но точно в 350 секунд от системных перезагрузок запуска.

Править. Я проверил журнал системного события (SEL) BMC и нашел это после перезагрузки:

Sensor #202 | Watchdog 2 | Assertion Event | Timer interrupt ; Timer use at expiration = SMS/OS ; Interrupt type = none
Sensor #202 | Watchdog 2 | Assertion Event | Timer expired, status only ; Timer use at expiration = SMS/OS ; Interrupt type = none

То, что интересно здесь - то, что событие отметило как "состояние только". И несмотря на это, система перезагружается. Когда я инициировал сторожевой тайм-аут намеренно, журналы отличаются:

Sensor #202 | Watchdog 2 | Assertion Event | Timer interrupt ; Timer use at expiration = SMS/OS ; Interrupt type = none
Sensor #202 | Watchdog 2 | Assertion Event | Hard Reset ; Timer use at expiration = SMS/OS ; Interrupt type = none
6
задан 31 May 2015 в 21:25
1 ответ

В конце концов, я нашел немного странное решение: просто оставьте перемычку сторожевого таймера (JWD1) открытой (без выбора NMI или жесткого сброса). Сторожевой таймер включен в настройках BIOS.

В этом случае сторожевой таймер работает должным образом - система была стабильной в течение 25 минут с запущенным bmc-watchdog и перезагружалась после завершения программы сторожевого таймера.

4
ответ дан 3 December 2019 в 00:35

Теги

Похожие вопросы