Как определить, кто очищает мой веб-сайт?

У меня есть веб-сайт электронной коммерции, размещенный на AWS.

Я понимаю, что существуют инструменты, которые предотвращают / блокируют сканирование ботов. Но можно ли определить, кто очищает мой сайт? Я имею в виду, смогу ли я обнаружить запросы, исходящие от бота, затем найти IP-адрес бота и использовать его для идентификации сервера, который очищает мой сайт?

0
задан 9 December 2020 в 06:03
1 ответ

Почетный бот/вебскрейпер идентифицирует себя с помощью заголовка User-Agent (И учитывает файл robots.txt, если вы хотите управлять его поведением), что упрощает его идентификацию.

Вредоносный бот (который не запрашивает и не соблюдает ваш файл robots.txt) может по-прежнему идентифицировать себя с помощью заголовка User-agent, позволяющего вам идентифицировать его, а затем вы можете создавать и применять политики на стороне сервера, чтобы попытаться контролировать его поведение. . Когда используется строка User-Agent, идентичная реальному веб-браузеру, вы не можете использовать ее для ее идентификации. Тогда может быть довольно сложно отличить запросы от бота от запросов, сделанных реальными пользователями.

После того, как вы определили, какие запросы исходят от бота, в ваших логах также будет указан IP-адрес, который был источником запроса.

Если вы не можете легко идентифицировать запросы как исходящие от бота, имейте в виду, что обычно вы делаете свой веб-контент общедоступным и хотите, чтобы его можно было найти и получить к нему доступ. Если ваш сервер не может обрабатывать запросы, поступающие от бота, у вас большие проблемы, поскольку он также не сможет обрабатывать разумное количество одновременных реальных посетителей.

1
ответ дан 9 December 2020 в 06:57

Теги

Похожие вопросы