Нестабильные медные ссылки на 10 ГБ, Broadcom и карты Intel к Cisco 4900M переключатели

Мы купили некоторые серверы Dell PowerEdge R730 с картами PCI Express QLogic/Broadcom BCM57810, и подключите их к Cisco 4900M переключатели - ссылки на 10 ГБ не работают надежно. Они не будут иногда соединяться, иногда соединяться после нескольких минут, и когда они действительно соединяются, они отбрасывают несколько раз в день. Разъединения могут продлиться 4 минуты или 2 часа.

Коммутаторы Cisco имеют существующие медные ссылки на 10 ГБ на Dell PowerVault SAN, которые были стабильными и рабочими в течение многих месяцев.

Я вижу разъединения в журналах VMware как сообщения как:

bnx2x 0000:82:00.1: vmnic5: NIC Link is Down

и

 network connectivity on virtual switch "vSwitch2". Physical NIC vmnic5 is down.

Я не вижу полезных кодов ошибок или предшествующих сообщений, только сообщений, вызванных сбросами канала. В Windows это показывает разъединенной картой, и на переключателе это показывает разъединенным портом коммутатора.

Когда ссылки соединяются, они работают - ping ping крупного кадра, сессии iSCSI устанавливают, хранилища данных появляются со всеми найденными путями. Но соединения неустойчивы.

Мы проверили:

  • Кабели:
    • первоначально Cat5e единственный кабель, теперь структурированная кабельная система Cat6. Длина кабеля в целом - <7 м.
    • Соединенный с новым кабелем, разместите для переключения без патчей/соединений и никаких других кабелей поблизости.
  • Драйверы/ОС:
    • Первоначально сборка VMware ESXi 5.5 U2 Dell ("ESXI 5.5.0, 2068190") с bnx2x версией драйвера 2.710.39.v55.2
    • Затем обновленный драйвер из vmware.com, bnx2x версия 2.710.70.v50.7
    • Затем ESXi 6.0, сборка Dell ("ESXI 6.0.0 2494585"), который имеет bnx2x версию 2.712...
    • Затем Windows Server 2012 R2 с последним драйвером от сайта Dell.
  • Встроенное микропрограммное обеспечение сетевой платы QLogic/Broadcom; это является последним от Dell, FFv7.12.17.
  • Конфигурация порта коммутатора, это просто mtu 9000 и switchport access vlan NNN
  • Порты коммутатора
    • Это модули RJ45 на 10 ГБ с 8 портами (WS-X4908-10G-RJ45), один на переключатель. SAN поднимают первые четыре порта в каждом модуле, новые серверы занимаются оставлением четырьмя портами в каждом модуле. Это, кажется, влияет на все порты, которые мы используем для новых серверов. Таким образом, это не один провальный порт или один провальный модуль.
    • Я не попытался разрушить соединения SAN для тестирования тех портов без некоторой определенной причины думать, что порты 1-4 более надежны, чем 5-8, который был бы последним средством.
  • Счетчики интерфейса коммутатора, никакие ошибки кроме разъединений.
  • Отключение различного из разгружать возможностей в драйвере Windows QLogic/Broadcom, и включение EnergyEfficientEthernet, принуждение карт к 10 ГБ вместо автоматического обнаружения.
  • При соединении тех же хостов тех же переключателей в порты на 1 ГБ, который, кажется, хорошо работает, они неоднократно соединяются очень быстро.
  • Перекрестный соединяя два хоста, они соединяются быстро на уровне 10 ГБ и содержат стабильное соединение в течение многих дней.
  • Мы купили карту Intel X540-t2 и попробовали это. Это ведет себя то же.
  • С тех пор мы купили соединительные кабели CAT 6a и протестировали их, никакое изменение.

Мы повысили вызов с поддержкой Dell, они ничего не нашли неправильно и предполагают, что переключатели виновным, но поскольку переключатели выполняют медные соединения на 10 ГБ к устройству хранения данных Dell PowerVault, и насколько я могу сказать от наших контрольных журналов переключателя и журналов событий SAN, те ссылки не отбрасывают, я не желаю думать, что Коммутаторы Cisco являются проблемой.

Они выполняют IOS 15.1 (1) SG2, который не является последним, но переключатели живы и стабильны, я не хочу небрежно изменять встроенное микропрограммное обеспечение "на всякий случай".

Это происходит через несколько серверов, несколько сетевых плат, несколько брендов сетевой платы, несколько версий драйвера, многопозиционных переключателей. Это не может быть единственная дефектная часть аппаратных средств. Это - все в обусловленной питанием стойке с кондиционированным воздухом.

Это - первый раз, когда мы попробовали хост VMware соединений коммутатора на уровне 10 ГБ, таким образом, у нас нет никакой другой конфигурации, мы можем соответствовать или аппаратные средства, с которыми мы можем соединиться.

Что еще мы можем проверить?

- Редактирование: Мы надеялись обновлять встроенное микропрограммное обеспечение переключателя, но я только что нашел ссылку по теме - это, кажется, известная проблема между модулем Cisco WS-X4908-10G-RJ45 и картами Broadcom BCM57810, зависимым версии IOS - https://supportforums.cisco.com/discussion/11755141/4900m-ws-x4908-10g-rj45-port-startup-delay, который имеет большое соответствующее обсуждение и приводит к:

https://tools.cisco.com/bugsearch/bug/CSCug68370

WS-X4908-10G-RJ45 и Broadcom 57810S 10 ГБ ОСНОВЫВАЮТ-T проблему совместимости

CSCug68370

Описание

Признак: порты BaseT на 10 Гбит/с (на WS-X4908-10G-RJ45) подключенный к серверам Dell 820 с Broadcom 57810S ОСНОВА-T DP 10 ГБ. На перезагрузке переключателя или удалении / переустанавливают кабельных портов, подходят после долгого времени (до 1 часа) или не подходят вообще. Условия: 1) модуль WS-X4908-10G-RJ45 2) Версии 15.0 (2) SG до 15,0 (2) SG7, 15.1 (2) SG до 15,1 (2) Обходное решение SG3: Понизьте до 12,2 (54) SG

Это не точно та же модель сервера, и она не упоминает карты Intel, но проблемой является симпатичное место - на соответствии.

6
задан 6 August 2015 в 18:06
2 ответа

Похоже, это ошибка Cisco https://tools.cisco.com/bugsearch/bug/CSCug68370 и обновление до одной из "известных исправленных" версий IOS (15.1(2) SG4), похоже, исправило ее.

.
2
ответ дан 3 December 2019 в 00:32

Обновите хосты ESXi. Это единственное, что вы действительно упустили при поиске и устранении неисправностей.

Вашей установке 5.5 почти 1 год !!

На момент написания текущая версия ESXi 5.5 2718055 . Текущий номер сборки ESXi 6.0 - 2809209 .

Dell, HP, не имеет значения ... вы все равно должны обновить свои установки ESXi. Многие люди игнорируют этот , и это вторая по частоте причина непреднамеренных простоев в тех средах, которые я вижу.

3
ответ дан 3 December 2019 в 00:32

Теги

Похожие вопросы