Сбой ЦП Cisco UCS ежедневно в одно и то же время

Ситуация

  • Недавнее обновление с 2.2 до 3.1 (1e).
  • С момента обновления в 6:51 утра (UTC + 1) каждый день у меня возникают отказы от нуля до трех (из ~ 60) блейд-серверов серии B200 в моей установке.
  • Это всегда одни и те же три лезвия, все в разных шасси.
  • Неисправности проявляются в виде хаоса. rd зависает с сообщениями «Прогнозируемый сбой ЦП» и «CATERR_N» в SEL.
  • Выключение и включение лезвия восстанавливает его работоспособность (по крайней мере, до следующего сбоя).
  • В UCSM нет одноразовых или повторяющихся расписаний, которые бы приближались к этому времени суток.
  • Центр технической поддержки Cisco ведет расследование, но не проливает света на то, почему сбои происходят каждый день в одно и то же время.

Мои исследования и подозрения

  • У меня есть рабочая теория, согласно которой это реальные проблемы с оборудованием, которые каким-то образом были обнаружены при обновлении прошивки.
  • В руководстве по поиску и устранению неисправностей есть краткое упоминание о так называемом «диспетчере сканирования датчиков», но я не могу найти никаких подробностей о том, что он делает или как это контролировать.
  • Я почти исключил экологическую причину. В то время наши мониторы мощности и температуры не показывают ничего необычного. Мы не находимся в зоне землетрясения: -)

Вопрос

Почему сбои происходят каждый день в одно и то же время?

1
задан 17 May 2016 в 13:21
1 ответ

Это оказалось ошибкой в ​​версии прошивки 3.1 (1e) (для этой ссылки требуется учетная запись Cisco). Это описывается как «редкое событие», связанное с VIC 1340 и прерыванием отладки.

Причина, по которой это происходило в одно и то же время каждый день, заключается в том, что оно было вызвано…

  • интенсивным использованием памяти, за которым следует
  • ] работает lspci ,

, и это именно то, что Puppet делал каждое утро (мы запускаем его только один раз в день).

Непонятно, почему эта ошибка затронула только определенные лезвия, но обновление до версии 3.1 (1h) проблема решена.

2
ответ дан 3 December 2019 в 20:38

Теги

Похожие вопросы