Storage Space Direct: ошибка SMB

Итак, у нас есть этот 4-узловой кластер Storage Space Direct (S2D) , работающий более 1,5 года без каких-либо серьезных проблем. Операционная система - Windows Server 2016 .

  • Брандмауэр отключен для всех профилей
  • Антивирус не установлен, Защитник Windows ВЫКЛЮЧЕН
  • Делегирование Active Directory не затронуто
  • Об изменениях в сетевой инфраструктуре не сообщалось
  • RDMA был отключен год назад, так как мы выяснили, что сетевая карта не поддерживает его полностью.

Два дня назад мы заметили много сообщений об ошибках в журнале событий кластера и заданий резервного копирования всех Hyper- V Сбой виртуальной машины, размещенной в кластере (сделано через VEEAM).

Исследование быстро показало, что существует много проблем с SMB-соединениями .

Любой из 4 хостов:

  • может пинговать другие ресурсы в сети
  • не может подключите все общие папки
  • Ошибка синхронизации NTP ( net time \\ server не работает, как и w32tm / monitor )

Очевидно, файловый ресурс-свидетель не работает, поскольку ну, и о некоторых проблемах с доменными службами будет сообщено ...

Мы попытались перезагрузить узлы отдельно, и после перезагрузки соединения SMB в порядке ... в течение нескольких минут / часов, а затем проблема возникает снова .

Влияние на кластер, наряду с отключением файлового ресурса-свидетеля, заключается в том, что мы не можем легко выполнить живую миграцию виртуальных машин между узлами (успешно случайно). Однако быстрая миграция происходит как шарм. Поскольку соединения SMB невозможны, мы не можем переместить виртуальную машину в другой кластер или автономный хост.

Мы опасаемся, что кластер выйдет из строя, если узел выйдет из строя неконтролируемым образом. Несмотря на то, что виртуальная машина стабильна, мы все еще не можем выполнить резервное копирование (мы могли бы выполнить экспорт).

Кто-нибудь из вас слышал об этой проблеме с S2D или ролью отказоустойчивого кластера Microsoft? Это также может быть не связано с самим кластером ...

Что можно сделать, чтобы найти основную причину этой проблемы?

Вот образцы журналов, найденных в роли кластера, и в журналах событий для SMBCLient :

Из консоли кластера:

Ресурс сетевого имени кластера «Имя кластера» обнаружил ошибку включение сетевого имени на этом узле. Причина неудачи было: «Не удалось получить токен входа».

Код ошибки: «1311».

Вы можете снова отключить ресурс сетевого имени и снова подключиться к нему, чтобы повторить попытку.

Событие с ID 30803:

Не удалось установить сетевое соединение.

Ошибка: {Тайм-аут устройства} Указанная операция ввода-вывода на% hs не была завершено до истечения периода ожидания.

Имя сервера: server.domain.com

Адрес сервера: x.x.x.x: 445 Тип подключения:Wsk

Руководство: это указывает на проблему с базовой сетью или транспорт, например, с TCP / IP, а не с SMB. Брандмауэр, который блокирует TCP-порт 445 или TCP-порт 5445 при использовании iWARP RDMA адаптер, также может вызвать эту проблему.

Другой, ID 30804:

Сетевое соединение было отключено.

Имя сервера: \ server.domain.com Адрес сервера: x.x.x.x: 445 Тип подключения: Wsk

Указание: указывает, что подключение клиента к серверу был отключен.

Частые, неожиданные отключения при использовании RDMA через конвергентный Адаптер Ethernet (RoCE) может указывать на неправильную конфигурацию сети. RoCE требует настройки Priority Flow Control (PFC) для каждого хоста, коммутатор и маршрутизатор в сети RoCE. Неспособность правильно настроить PFC приведет к потере пакетов, частым отключениям и снижению производительности.

5
задан 12 October 2019 в 00:35
1 ответ

Я нашел решение, это была глупая вещь. Хосты имели несколько NIC для доступа к сети к различным VLAN. Часть NIC, где отображено на Виртуальном коммутаторе, и некоторые из них была совместно использована с ОС (' , Позволяют операционной системе управления совместно использовать этот сетевой адаптер ').

я заметил, что пакет SMB часто использовал неправильный интерфейс (демилитаризованная зона), и конечно просьба была отклонена.

команда Powershell я раньше определял неправильный маршрут, используемый трафиком SMB:

Find-NetRoute -RemoteIPAddress x.x.x.x

(где x.x.x.x является удаленным ресурсом в Вашей сети)

Это показало интерфейс DMZ вместо интерфейса LAN. Удаление' Позволяет операционной системе управления совместно использовать этот сетевой адаптер ' на демилитаризованной зоне vSwitch, решил проблему для меня.

я все еще не понимаю, как этот кластер работал так хорошо в течение 1,5 лет с этой конфигурацией. Но хорошо, теперь это решено, FSW и все другие операции работают хорошо.

Hope это может помочь ;)

2
ответ дан 3 December 2019 в 01:56

Теги

Похожие вопросы