Мы замечаем, что значительный объем веб-трафика исходит от парсеров контента (определяемых в соответствии с их схемой сканирования). Они бесполезны для нас, но потребляют много наших ресурсов (пропускная способность, ЦП). Есть ли какое-либо приложение / брандмауэр, чтобы обнаруживать парсеры контента и блокировать их?
За исключением сканеров поисковых систем, они не бесполезны.
Примечание: я предпочитаю использовать существующие решения . Он считает, что это обычная проблема и должно быть решение.
Лучший способ сделать это - заблокировать трафик с помощью netfilter / iptables, поскольку это значительно эффективнее, чем блокировка с помощью apache2 / php. Проблема здесь в том, что вам необходимо знать ip / имя хоста парсеров контента.
Возможным расширением может быть попытка обнаружить парсеры контента на основе их поведения (-> статистические методы! - например, запросов в минуту) или например, поиск отсутствующего агента пользователя или других вещей, которые может иметь обычный пользовательский браузер, а затем отказать им в доступе. Конечно, вы также можете добавить IP / имя хоста через php (или любую другую среду, которую вы используете) в iptables, чтобы он заблокировался. Но обычно для этого требуется разрешение root, и НЕ рекомендуется давать разрешение root для вашего apache2.