Что, вероятно, происходит, вот то, что, в то время как отправитель балансируется через два NICs, переключатель отправляет всем пакетам вниз один порт к получателю, потому что только одно из получения, NICs является ARPing (или Ваш переключатель только записывает MAC против одного порта). Можно проверить это путем рассмотрения статистики порта.
Если у Вас вместо этого есть многопозиционные переключатели, и Вы поднимаете трубку один NIC в каждом сервере к каждому переключателю, и нет никакого кросс-соединения, то можно, вероятно, получить лучшую производительность. Однако это зависит с обеих сторон (устройство хранения данных и сервер) выполнение циклической балансировки и ничего запутывающегося о целой ситуации и сдающийся в отвращении. С большим количеством деталей о то, какое устройство хранения данных включено, могло бы поднять больше деталей о том, способно ли то, что Вы используете, к выполнению правильной вещи.
Смотрите на Формирователь Удивления:
http://lartc.org/wondershaper/
Это - фантастическое использование 'tc' для управления уровнями загрузки/загрузки.