У меня есть система Linux с двумя интерфейсами Ethernet, eth0 и eth1, которые используются в одной подсети. Иногда я вижу, что даже когда один из интерфейсов отключен (кабель отключен), Linux продолжает использовать его IP-адрес.
Например, если eth0 отключен, а eth1 подключен, вы можете увидеть, что "
dmesg
неоднократно сообщает следующее, и производительность сервера падает.
[Oct12 11:43] CPU5: Package temperature above threshold, cpu clock throttled (total events = 539077151)
[ +0.000001] CPU1: Package temperature above threshold, cpu clock throttled (total events = 539077144)
[ +0.000003] CPU4: Package temperature above threshold, cpu clock throttled (total events = 539077179)
[ +0.000002] CPU7: Package temperature above threshold, cpu clock throttled (total events = 539077201)
[ +0.000001] CPU3: Package temperature above threshold, cpu clock throttled (total events = 539077211)
[ +0.000004] CPU6: Package temperature above threshold, cpu clock throttled (total events = 539077197)
[ +0.000001] CPU2: Package temperature above threshold, cpu clock throttled (total events = 539077208)
[ +0.000001] CPU0: Package temperature above threshold, cpu clock throttled (total events = 539077122)
[Oct12 11:44] CPU6: Core temperature above threshold, cpu clock throttled (total events = 447115263)
[ +0.000001] CPU2: Core temperature above threshold, cpu clock throttled (total events = 447115267)
[ +0.002025] CPU6: Core temperature/speed normal
HP iLO сообщает о ~ 30 ° C меньше, чем датчиков
сообщает.
coretemp-isa-0000
Adapter: ISA adapter
Package id 0: +95.0°C (high = +86.0°C, crit = +96.0°C)
Core 0: +95.0°C (high = +86.0°C, crit = +96.0°C)
Core 2: +95.0°C (high = +86.0°C, crit = +96.0°C)
Core 3: +95.0°C (high = +86.0°C, crit = +96.0°C)
Core 4: +94.0°C (high = +86.0°C, crit = +96.0°C)
Интерфейс HPE iLO сообщает, что температура ЦП составляет 55 ° C в то же время, когда снимаются показания датчиков.
Когда я бегаю сенсоры
, я получаю следующее в dmesg
:
[Oct12 11:46] ACPI Error: SMBus/IPMI/GenericSerialBus write requires Buffer of length 66, found length 32 (20180313/exfield-393)
[ +0.000726] ACPI Error: Method parse/execution failed \_SB.PMI0._PMM, AE_AML_BUFFER_LIMIT (20180313/psparse-516)
[ +0.000500] ACPI Error: AE_AML_BUFFER_LIMIT, Evaluating _PMM (20180313/power_meter-338)
Я обновил ядро до последней версии ( 4.18.13-1.el7.elrepo.x86_64
) это утром, и это тоже не помогло.
Мне удалось в основном решить эту проблему, обновив ядро в ОС. Сейчас я использую 4.18.13-1.el7.elrepo.x86_64, и температура отображается иначе, чем в пользовательском интерфейсе iLO, но соотношение между температурой процессора и «высоким» намного лучше и лучше согласуется с соотношениями iLO.
coretemp-isa-0000
Adapter: ISA adapter
Package id 0: +74.0°C (high = +86.0°C, crit = +96.0°C)
Core 0: +72.0°C (high = +86.0°C, crit = +96.0°C)
Core 2: +72.0°C (high = +86.0°C, crit = +96.0°C)
Core 3: +74.0°C (high = +86.0°C, crit = +96.0°C)
Core 4: +71.0°C (high = +86.0°C, crit = +96.0°C)
Откройте системный журнал IML в веб-интерфейсе МОТ и посмотрите, о каких событиях он сообщает.
Это надежный способ проверить состояние оборудования на серверном оборудовании HPE.
Мониторинг температуры Intel может приводить к различным «температурам» в зависимости от того, какой интерфейс / MSR вы используете. Кроме того, разные процессоры могут иметь разные пороговые значения в зависимости от изготовления.
Может также потребоваться пошутить с некоторыми тепловыми настройками в UEFI. Существуют параметры «Максимальное охлаждение», которые могут помешать вам достичь порогового значения.
Наконец, обратите внимание на используемые вами дополнительные карты и посмотрите, не повлияет ли это. Карты ввода-вывода могут вызвать сбой в мониторинге температуры, заставляя ПО FW / OS думать, что система находится в состоянии теплового повреждения.