Гм, сложная проблема :-/. Одна точка:
Я думаю, что могло бы хорошо иметь место, что наш брандмауэр (как указано более ранний только способный к обработке 100 Мбит) мог быть настоящей причиной для высокого среднего числа загрузки на сервере и таким образом даже добавляющий, что больше серверов не поможет нам очень.
Если бы брандмауэр отрегулировал передачу данных, то Вы не видели бы высокую загрузку ЦП (%user выше); скорее Вы видели бы выше %iowait (поскольку это включает сеть I/O). Таким образом, это кажется маловероятным (если приложение не делает некоторый опрос).
Я думаю, что Ваш лучший план действий должен исследовать более тесно высокий %user на серверах приложений; сделайте некоторое профилирование для обнаружения то, что точно делает приложение, когда оно загружает ЦП. Это должно дать Вам ключ к разгадке.
Брандмауэр могло бы также стоить изучить, поскольку Вы рядом с его способностью.
почему Вы не смотрели на трафик со стороны сервера базы данных? Если Ваш брандмауэр snmp способный, необходимо смочь видеть нагрузку на него, и если ничто иное затем, по крайней мере, различие между в и не взаимодействует через интерфейс. Это должно дать Вам некоторое представление. Кроме того, в то время как Вы заявляете, что это - способных 100 Мбит, все еще неясно, сколько пакетов в секунду это может обработать. Это - также что-то для учета.