Мы купили некоторые серверы Dell PowerEdge R730 с картами PCI Express QLogic/Broadcom BCM57810, и подключите их к Cisco 4900M переключатели - ссылки на 10 ГБ не работают надежно. Они не будут иногда соединяться, иногда соединяться после нескольких минут, и когда они действительно соединяются, они отбрасывают несколько раз в день. Разъединения могут продлиться 4 минуты или 2 часа.
Коммутаторы Cisco имеют существующие медные ссылки на 10 ГБ на Dell PowerVault SAN, которые были стабильными и рабочими в течение многих месяцев.
Я вижу разъединения в журналах VMware как сообщения как:
bnx2x 0000:82:00.1: vmnic5: NIC Link is Down
и
network connectivity on virtual switch "vSwitch2". Physical NIC vmnic5 is down.
Я не вижу полезных кодов ошибок или предшествующих сообщений, только сообщений, вызванных сбросами канала. В Windows это показывает разъединенной картой, и на переключателе это показывает разъединенным портом коммутатора.
Когда ссылки соединяются, они работают - ping ping крупного кадра, сессии iSCSI устанавливают, хранилища данных появляются со всеми найденными путями. Но соединения неустойчивы.
Мы проверили:
mtu 9000
и switchport access vlan NNN
Мы повысили вызов с поддержкой Dell, они ничего не нашли неправильно и предполагают, что переключатели виновным, но поскольку переключатели выполняют медные соединения на 10 ГБ к устройству хранения данных Dell PowerVault, и насколько я могу сказать от наших контрольных журналов переключателя и журналов событий SAN, те ссылки не отбрасывают, я не желаю думать, что Коммутаторы Cisco являются проблемой.
Они выполняют IOS 15.1 (1) SG2, который не является последним, но переключатели живы и стабильны, я не хочу небрежно изменять встроенное микропрограммное обеспечение "на всякий случай".
Это происходит через несколько серверов, несколько сетевых плат, несколько брендов сетевой платы, несколько версий драйвера, многопозиционных переключателей. Это не может быть единственная дефектная часть аппаратных средств. Это - все в обусловленной питанием стойке с кондиционированным воздухом.
Это - первый раз, когда мы попробовали хост VMware соединений коммутатора на уровне 10 ГБ, таким образом, у нас нет никакой другой конфигурации, мы можем соответствовать или аппаратные средства, с которыми мы можем соединиться.
Что еще мы можем проверить?
- Редактирование: Мы надеялись обновлять встроенное микропрограммное обеспечение переключателя, но я только что нашел ссылку по теме - это, кажется, известная проблема между модулем Cisco WS-X4908-10G-RJ45 и картами Broadcom BCM57810, зависимым версии IOS - https://supportforums.cisco.com/discussion/11755141/4900m-ws-x4908-10g-rj45-port-startup-delay, который имеет большое соответствующее обсуждение и приводит к:
https://tools.cisco.com/bugsearch/bug/CSCug68370
WS-X4908-10G-RJ45 и Broadcom 57810S 10 ГБ ОСНОВЫВАЮТ-T проблему совместимости
CSCug68370
Описание
Признак: порты BaseT на 10 Гбит/с (на WS-X4908-10G-RJ45) подключенный к серверам Dell 820 с Broadcom 57810S ОСНОВА-T DP 10 ГБ. На перезагрузке переключателя или удалении / переустанавливают кабельных портов, подходят после долгого времени (до 1 часа) или не подходят вообще. Условия: 1) модуль WS-X4908-10G-RJ45 2) Версии 15.0 (2) SG до 15,0 (2) SG7, 15.1 (2) SG до 15,1 (2) Обходное решение SG3: Понизьте до 12,2 (54) SG
Это не точно та же модель сервера, и она не упоминает карты Intel, но проблемой является симпатичное место - на соответствии.
Похоже, это ошибка Cisco https://tools.cisco.com/bugsearch/bug/CSCug68370 и обновление до одной из "известных исправленных" версий IOS (15.1(2) SG4), похоже, исправило ее.
.Обновите хосты ESXi. Это единственное, что вы действительно упустили при поиске и устранении неисправностей.
Вашей установке 5.5 почти 1 год !!
На момент написания текущая версия ESXi 5.5 2718055 . Текущий номер сборки ESXi 6.0 - 2809209 .
Dell, HP, не имеет значения ... вы все равно должны обновить свои установки ESXi. Многие люди игнорируют этот , и это вторая по частоте причина непреднамеренных простоев в тех средах, которые я вижу.