Есть ли какое-нибудь приложение / брандмауэр для обнаружения парсеров контента? [закрыто]

Мы замечаем, что значительный объем веб-трафика исходит от парсеров контента (определяемых в соответствии с их схемой сканирования). Они бесполезны для нас, но потребляют много наших ресурсов (пропускная способность, ЦП). Есть ли какое-либо приложение / брандмауэр, чтобы обнаруживать парсеры контента и блокировать их?

За исключением сканеров поисковых систем, они не бесполезны.

Примечание: я предпочитаю использовать существующие решения . Он считает, что это обычная проблема и должно быть решение.

2
задан 31 December 2012 в 17:02
1 ответ

Лучший способ сделать это - заблокировать трафик с помощью netfilter / iptables, поскольку это значительно эффективнее, чем блокировка с помощью apache2 / php. Проблема здесь в том, что вам необходимо знать ip / имя хоста парсеров контента.

Возможным расширением может быть попытка обнаружить парсеры контента на основе их поведения (-> статистические методы! - например, запросов в минуту) или например, поиск отсутствующего агента пользователя или других вещей, которые может иметь обычный пользовательский браузер, а затем отказать им в доступе. Конечно, вы также можете добавить IP / имя хоста через php (или любую другую среду, которую вы используете) в iptables, чтобы он заблокировался. Но обычно для этого требуется разрешение root, и НЕ рекомендуется давать разрешение root для вашего apache2.

0
ответ дан 3 December 2019 в 15:33

Теги

Похожие вопросы