Почему Linux продолжает использовать отключенные интерфейсы Ethernet?

У меня есть система Linux с двумя интерфейсами Ethernet, eth0 и eth1, которые используются в одной подсети. Иногда я вижу, что даже когда один из интерфейсов отключен (кабель отключен), Linux продолжает использовать его IP-адрес.

Например, если eth0 отключен, а eth1 подключен, вы можете увидеть, что "

dmesg неоднократно сообщает следующее, и производительность сервера падает.

[Oct12 11:43] CPU5: Package temperature above threshold, cpu clock throttled (total events = 539077151)
[  +0.000001] CPU1: Package temperature above threshold, cpu clock throttled (total events = 539077144)
[  +0.000003] CPU4: Package temperature above threshold, cpu clock throttled (total events = 539077179)
[  +0.000002] CPU7: Package temperature above threshold, cpu clock throttled (total events = 539077201)
[  +0.000001] CPU3: Package temperature above threshold, cpu clock throttled (total events = 539077211)
[  +0.000004] CPU6: Package temperature above threshold, cpu clock throttled (total events = 539077197)
[  +0.000001] CPU2: Package temperature above threshold, cpu clock throttled (total events = 539077208)
[  +0.000001] CPU0: Package temperature above threshold, cpu clock throttled (total events = 539077122)
[Oct12 11:44] CPU6: Core temperature above threshold, cpu clock throttled (total events = 447115263)
[  +0.000001] CPU2: Core temperature above threshold, cpu clock throttled (total events = 447115267)
[  +0.002025] CPU6: Core temperature/speed normal

HP iLO сообщает о ~ 30 ° C меньше, чем датчиков сообщает.

coretemp-isa-0000
Adapter: ISA adapter
Package id 0:  +95.0°C  (high = +86.0°C, crit = +96.0°C)
Core 0:        +95.0°C  (high = +86.0°C, crit = +96.0°C)
Core 2:        +95.0°C  (high = +86.0°C, crit = +96.0°C)
Core 3:        +95.0°C  (high = +86.0°C, crit = +96.0°C)
Core 4:        +94.0°C  (high = +86.0°C, crit = +96.0°C)

Интерфейс HPE iLO сообщает, что температура ЦП составляет 55 ° C в то же время, когда снимаются показания датчиков.

Когда я бегаю сенсоры , я получаю следующее в dmesg :

[Oct12 11:46] ACPI Error: SMBus/IPMI/GenericSerialBus write requires Buffer of length 66, found length 32 (20180313/exfield-393)
[  +0.000726] ACPI Error: Method parse/execution failed \_SB.PMI0._PMM, AE_AML_BUFFER_LIMIT (20180313/psparse-516)
[  +0.000500] ACPI Error: AE_AML_BUFFER_LIMIT, Evaluating _PMM (20180313/power_meter-338)

Я обновил ядро ​​до последней версии ( 4.18.13-1.el7.elrepo.x86_64 ) это утром, и это тоже не помогло.

3
задан 12 October 2018 в 21:20
3 ответа

Мне удалось в основном решить эту проблему, обновив ядро ​​в ОС. Сейчас я использую 4.18.13-1.el7.elrepo.x86_64, и температура отображается иначе, чем в пользовательском интерфейсе iLO, но соотношение между температурой процессора и «высоким» намного лучше и лучше согласуется с соотношениями iLO.

coretemp-isa-0000
Adapter: ISA adapter
Package id 0:  +74.0°C  (high = +86.0°C, crit = +96.0°C)
Core 0:        +72.0°C  (high = +86.0°C, crit = +96.0°C)
Core 2:        +72.0°C  (high = +86.0°C, crit = +96.0°C)
Core 3:        +74.0°C  (high = +86.0°C, crit = +96.0°C)
Core 4:        +71.0°C  (high = +86.0°C, crit = +96.0°C)
0
ответ дан 3 December 2019 в 06:54

Откройте системный журнал IML в веб-интерфейсе МОТ и посмотрите, о каких событиях он сообщает.

Это надежный способ проверить состояние оборудования на серверном оборудовании HPE.

2
ответ дан 3 December 2019 в 06:54

Мониторинг температуры Intel может приводить к различным «температурам» в зависимости от того, какой интерфейс / MSR вы используете. Кроме того, разные процессоры могут иметь разные пороговые значения в зависимости от изготовления.

Может также потребоваться пошутить с некоторыми тепловыми настройками в UEFI. Существуют параметры «Максимальное охлаждение», которые могут помешать вам достичь порогового значения.

Наконец, обратите внимание на используемые вами дополнительные карты и посмотрите, не повлияет ли это. Карты ввода-вывода могут вызвать сбой в мониторинге температуры, заставляя ПО FW / OS думать, что система находится в состоянии теплового повреждения.

0
ответ дан 3 December 2019 в 06:54

Теги

Похожие вопросы