Произвольное зависание и загрузка сервера только с холодной загрузкой

я сталкиваюсь с чрезвычайно странной проблемой в отношении одного сервера, он случайным образом зависает/зависает без вывода на сервер и не отвечает на короткие клавиши, и требуется холодная загрузка при загрузке с холодной загрузкой, вообще никаких ошибок на загрузочном экране.

Он вообще не зависает при большой нагрузке, около 9-20% отказов процессора, средняя нагрузка около 2-5(12-ядерных процессоров)и 128 ГБ ОЗУ

Мы проверили журналы, ничего не показывает, например, паники ядра или что-либо, что относится к самой проблеме.

Во всех зависаниях после холодной загрузки, когда мы проверяем журнал, мы видим, что обычный жнец OOM убивает php-процессы (пользователи достигают лимитов), но ничего особенного, но всегда на OOM, Иногда, когда сервер зависает, в журнале вы видите текущее время, а иногда, например, он показывает после текущего времени сбоя несколько строк от более старой даты и зависает.

Ничто в журналах не может определить, связано ли это с программным обеспечением или с большой нагрузкой, просто нормальная работа, это модернизированная машина из старой, которая работала стабильно в течение многих лет. Зависания бывают случайными, могут быть после недели работы сервера, двух дней, трех недель и т. д.

Также мы пытались извлечь vmcore дамп зависания сервера, но все равно там ничего не ловит.

Это просто зависание без вывода на экран, но сервер все еще работает, но не доступен для печати, ничего не могу получить доступ по ssh, а kvm, как я уже сказал, вообще не показывает вывода на экран.

Может ли это быть связано с неисправным оборудованием? Как моя подвеска связана с неисправной оперативной памятью?

Я совсем запутался в этом вопросе.. Спасибо

0
задан 18 October 2021 в 20:42
1 ответ
  1. Убедитесь, что температуры в норме, ЦП/ОЗУ/ЧИПСЕТ/ДИСКИ, я предполагаю, что вы пользователь Linux из-за OOM, установите lm-sensorsи проверьте температуру с помощью sensorsкоманда.
  2. Это ваша оперативная память, запустите memtest86, имейте в виду, что полный тест на 128 ГБ может занять неделю.
0
ответ дан 18 October 2021 в 22:37

Теги

Похожие вопросы