Я использую Centos 7 (3.10.0-514.26.2.el7.x86_64) на плате supermicro H8QG6 с 4 процессорами AMD 6276 (16 ядер), всего 64 ядра. Я использую его для научных вычислений, и обычно все идет гладко, как на первом изображении htop .
Я использую Centos 7 (3.10.0-514.26.2.el7.x86_64) на плате supermicro H8QG6 с 4 процессорами AMD 6276 (16 ядер), всего 64 ядра. Я использую его для научных вычислений, и обычно все идет гладко, как на первом изображении htop .
Я использую Centos 7 (3.10.0-514.26.2.el7.x86_64) на плате supermicro H8QG6 с 4 процессорами AMD 6276 (16 ядер), всего 64 ядра. Я использую его для научных вычислений, и обычно все идет гладко, как на первом изображении htop .
Затем внезапно htop начинает сообщать об использовании одного процессора более 1000%, как на этом втором изображении , и компьютер почти не отвечает. Кстати, кажется, что почти каждый процесс перегружает процессор: даже сам htop сообщает о загрузке 1600% !!! При этом в journalctl появляются такие ошибки:
perf: прерывание заняло слишком много времени (3973> 3883), снижение kernel.perf_event_max_sample_rate до 50000
ядро: обработчик сообщений IPMI: BMC вернул неверный ответ, ожидалось netfn 7 cmd 52, получено netfn 5 cmd 2d
Ядро: обработчик сообщений IPMI: BMC вернул неверный ответ, ожидалось netfn 7 cmd 52, получено netfn 5 cmd 2
Ядро: обработчик сообщений IPMI: BMC вернул неверный ответ, ожидаемый netfn 7 cmd 37, получил netfn 7 cmd 52
Ядро: обработчик сообщений IPMI: BMC вернул неверный ответ, ожидалось netfn 7 cmd 52, получено netfn 7 cmd 37
но я не могу определить, являются ли они симптомом или причиной странного поведения. Кто-нибудь знает, что происходит? Большое спасибо!
Обновление : я установил ipmitool и запустил демон ipmievd. Как только проблема возникает, в journalctl появляется следующее:
ipmievd [7567]: Датчик памяти - корректируемый ECC (@ DIMMD1 (CPU3))
Возможно ли, что проблема связана с неисправным модулем памяти?
Причиной действительно был неисправный модуль RAM. Аномальный всплеск использования процессора появился, когда в журналах начала появляться ошибка оперативной памяти. модуль был идентифицирован и заменен, и теперь проблема решена.