Неустойчивый хост и возможность соединения VM на автономном ESXI

У меня есть автономный ESXi 5.5.0 b2143827. Это работает на Dell R710 с 144 ГБ RAM. Это имеет приблизительно 20 VM's на нем.

Прямо сейчас я не могу добраться на консоль через клиент VMware vSphere или SSH. Это просто действует, как будто сервер не существует. Хост возвратится в на вид случайные времена, и я могу добраться на хост через SSH и vSphere клиент, но затем он просто уйдет сеть снова в неопределенное время в будущем. Я могу получить доступ к нему через чрезвычайную консоль на самом физическом хосте (Alt+F1).

Однако весь VM's является активным и рабочим. Но приблизительно 10 раз в день, весь VMs привезет сеть для между 15 секундами и 5 минутами. Затем они возвратятся очень хорошо, и все продолжает отсчитывать.

Я сделал следующее:

  • Это было на предыдущей сборке, я обновил его к b2143827. Это не имело никакого значения
  • /sbin/services.sh restart - это не помогает ситуации
  • Перезапущенный физический хост. Это не имело никакого значения.
  • От физической консоли (Alt+F1) Я проверил с помощью ping-запросов другое физическое устройство в сети. Это не отбрасывает пакетов вообще.
  • От физической консоли я проверил с помощью ping-запросов виртуальную машину на хосте. Это несет приблизительно 80%-ю потерю
  • От удаленной машины я могу проверить с помощью ping-запросов IP-адрес управления с 0%-й потерей пакетов
  • От удаленной машины я могу проверить с помощью ping-запросов VM на хосте и видеть, что хост ясно уходит и назад в сети иногда
  • Я смотрел tail -f /var/log/hostd.log некоторое время и ничего не видел неблагоприятный случай там
  • Система установлена на SD-карте. Я завершил работу сервера, DD'd карта к другой карте, затем загрузил его на новой карте. Та же проблема.
  • Попробованный другой сетевой коммутатор
  • Запустил Менеджер обновлений Dell и обновил каждое встроенное микропрограммное обеспечение к последней версии.

Я в замешательстве, куда пойти отсюда. Этот сервер работал безупречно в течение прошлых 2,5 лет. VMware раньше устанавливался на физическом диске, но 6 месяцев назад он перешелся на SD-карту, таким образом, мы могли реконфигурировать физические диски.

2
задан 17 November 2014 в 11:26
2 ответа

После 3 дней отсутствия прекратите устранение неполадок, я в конце концов обнаружил, что проблема в том ... подождите ... наш Cisco ASA взламывает сам себя и наводняет сеть фиктивным трафиком.

Поскольку мы выполняли довольно простую коммутацию, а серверная среда - 100 % virtualised, мы ничего не заметили внутри сетевого стека.

Самым большим отвлекающим фактором, от которого я столкнулся, был пинг гостевой ОС с ее хоста. Я бы подумал, что это было полностью автономно по отношению к физическим сетевым адаптерам, но, по-видимому, нет.

В конце концов я обнаружил проблему, зеркалировав порт управления на коммутаторе и наблюдая за трафиком к нему / от него с помощью Wireshark, и наблюдая, как трафик покидает источник порт, но никогда не прибывают в пункт назначения. Поскольку я не мог видеть его внутри самой сети, мне потребовалось всего 4 часа, чтобы изолировать ASA как источник проблемы.

После удаления ASA из сети все шло гладко.


Оказалось, что ASA не взломал сам себя, кто-то создал искаженное правило NAT, в котором не было no-proxy-arp ], поэтому он начал отвечать на запросы ARP по всему внутреннему / 24. Удаление этого правила и оказание твердой поддержки тому, кто его добавил, и теперь у нас есть что, почему и кто.

Это также объясняет, почему сеть только для хоста не работала должным образом. ASA отвечал на запрос ARP, поэтому хост не знал, что нужно сделать его сетевым запросом только для хоста.

1
ответ дан 3 December 2019 в 10:44

Я бы посоветовал обновить прошивку сетевых адаптеров Broadcom на вашем сервере Dell PowerEdge. Тот факт, что вы видите проблему с внешним подключением в дополнение к пингам, специфичным для виртуальной машины, указывает на проблему с сетевой картой.

  • Можете ли вы попробовать другое устройство с сетевой картой? ( на этом хосте четыре )
  • Сколько восходящих каналов у вас от стандартного vSwitch? ( у вас должно быть несколько живых восходящих каналов )
  • Насколько воспроизводима проблема?

Что касается загрузки SDHC, я действительно рекомендую использовать загрузку SD / USB только на серверах ESXi, которые входят в vSphere и общее хранилище. Из-за режима отказа этих карт под ESXi нет никаких преимуществ в использовании их для загрузки автономных систем. Посмотрите разницу между устанавливаемым и встроенным режимами ESXi .

2
ответ дан 3 December 2019 в 10:44

Теги

Похожие вопросы