Многократная перегрузка ядра выше 100% на сервере Centos7 Supermicro

Я использую Centos 7 (3.10.0-514.26.2.el7.x86_64) на плате supermicro H8QG6 с 4 процессорами AMD 6276 (16 ядер), всего 64 ядра. Я использую его для научных вычислений, и обычно все идет гладко, как на первом изображении htop .

Я использую Centos 7 (3.10.0-514.26.2.el7.x86_64) на плате supermicro H8QG6 с 4 процессорами AMD 6276 (16 ядер), всего 64 ядра. Я использую его для научных вычислений, и обычно все идет гладко, как на первом изображении htop .

Я использую Centos 7 (3.10.0-514.26.2.el7.x86_64) на плате supermicro H8QG6 с 4 процессорами AMD 6276 (16 ядер), всего 64 ядра. Я использую его для научных вычислений, и обычно все идет гладко, как на первом изображении htop . Затем внезапно htop начинает сообщать об использовании одного процессора более 1000%, как на этом втором изображении , и компьютер почти не отвечает. Кстати, кажется, что почти каждый процесс перегружает процессор: даже сам htop сообщает о загрузке 1600% !!! При этом в journalctl появляются такие ошибки: perf: прерывание заняло слишком много времени (3973> 3883), снижение kernel.perf_event_max_sample_rate до 50000 ядро: обработчик сообщений IPMI: BMC вернул неверный ответ, ожидалось netfn 7 cmd 52, получено netfn 5 cmd 2d Ядро: обработчик сообщений IPMI: BMC вернул неверный ответ, ожидалось netfn 7 cmd 52, получено netfn 5 cmd 2 Ядро: обработчик сообщений IPMI: BMC вернул неверный ответ, ожидаемый netfn 7 cmd 37, получил netfn 7 cmd 52 Ядро: обработчик сообщений IPMI: BMC вернул неверный ответ, ожидалось netfn 7 cmd 52, получено netfn 7 cmd 37 но я не могу определить, являются ли они симптомом или причиной странного поведения. Кто-нибудь знает, что происходит? Большое спасибо!

Обновление : я установил ipmitool и запустил демон ipmievd. Как только проблема возникает, в journalctl появляется следующее:

ipmievd [7567]: Датчик памяти - корректируемый ECC (@ DIMMD1 (CPU3))

Возможно ли, что проблема связана с неисправным модулем памяти?

2
задан 27 September 2017 в 17:34
1 ответ

Причиной действительно был неисправный модуль RAM. Аномальный всплеск использования процессора появился, когда в журналах начала появляться ошибка оперативной памяти. модуль был идентифицирован и заменен, и теперь проблема решена.

3
ответ дан 3 December 2019 в 10:34

Теги

Похожие вопросы