Причудливые проблемы с Центром обновления Windows - потеря соединения

Я наблюдаю действительно странную проблему, которую не могу локализовать.

Сценарий: стек серверов Dell Poweredge, работающих в стабильном кластере. Попытка применить некоторые обновления Windows, серверы потеряли доверие к Интернету и домену. Не удалось восстановить доверие домена. Удалил обновление, все заработало. Переустановил, все ок. То же самое на другом сервере, поэтому я решил восстановить базовый уровень. Сервера перестроены с нуля: Была применена последняя версия прошивки (BIOS, сетевые карты, RAID и т. Д.) И последний уровень драйверов. Стандартная сборка 2012R2 Datacenter, подключенная к сети, а затем в обновления. На разных этапах сборки применяются обновления, которые вырубают интернет-соединение. DNS полностью разрешается, вы можете ping, traceroute и т. Д., Но браузер не работает. Кроме того, если вы попытаетесь присоединиться к домену на этом этапе, это будет «Сетевой путь не найден». Многократные попытки восстановить связь не удаются.

В некоторых случаях сервер достигает стадии, на которой он готов присоединиться к домену, после чего появляется другой набор обновлений после присоединения к домену, некоторые из которых затем снова прерывают интернет-соединение. На этом этапе также потеряны доверительные отношения с доменом.

В большинстве случаев простой процесс удаления самого последнего обновления и перезагрузки восстанавливает соединение. Затем вы можете переустановить то же самое обновление, и сервер продолжит себя вести. Если это' Затем это произойдет снова на более позднем этапе сборки с другим обновлением.

Я исключил, что это одно обновление, поскольку оно происходит на разных этапах с применением разных накопительных пакетов. Пробовали несколько версий драйверов / прошивок для сервера. В сети нет блокировки брандмауэра. Никакого программного обеспечения безопасности. Нет брандмауэра Windows. Я даже подготовил сервер обратно и перестроил его объединенную инфраструктуру сетевого адаптера, и Интернет все еще не работал, пока я не откатил обновление, после чего оно заработало. Затем снова накатил его, и проблема исчезла.

В большинстве случаев я могу достичь точки, в которой сервер будет стабильным и находится в рабочем состоянии, если я больше не применяю обновления.

Есть ли у кого-нибудь опыт работы с чем-то отдаленно похожим на это?

1
задан 19 May 2017 в 11:24
1 ответ

Я решил опубликовать обновление по этой, теперь решенной проблеме.

Как выяснилось, обновления Windows были полным отвлекающим маневром. Так уж вышло, что когда возникла проблема, я запускал обновления, но на самом деле кажется, что просто процесс перезагрузки убил стек TCPIP. Мне удалось воспроизвести проблему несколько раз простой перезагрузкой, а затем перезагрузка с помощью Netsh Winsock Reset и перезагрузка вернули ее к жизни. Как ни странно, часто удаление недавнего обновления и перезагрузка имели бы тот же эффект, но не всегда. Что за этим стояло? Вроде бы карты NIC. Хотя последняя версия прошивки и драйверов, одна из настроек RSS (масштабирование на стороне приема) вызывала проблему. Это позволяет распределять трафик NIC по нескольким процессорам, а не ограничиваться одним. Типичная настройка производительности, которая вызывает больше проблем, чем решает. Я отключил его и привет, все снова стабильно. Я могу исправлять и перезагружаться, сколько душе угодно, не теряя стек TCPIP :)

Очень непонятная проблема, но, возможно, кто-то другой найдет нечто подобное, и отключение RSS может помочь.

1
ответ дан 3 December 2019 в 23:30

Теги

Похожие вопросы