Блок офлайновые браузеры

Я думаю, что python_select должен отсортировать это для Вас. Это позволяет Вам сделать, чтобы MacPorts установил все версии Python, затем Вы выбираете, какой Вы хотите быть значением по умолчанию. Вы можете просто sudo port install это.

2
задан 3 January 2013 в 12:36
3 ответа

На самом деле у меня нет хорошего ответа, только несколько идей. Но это интересный вопрос. Я не думаю, что ответ прост, за исключением случаев, когда кто-то еще вложил массу усилий в написание программы для этого. Если они не хотят говорить вам, что они роботы, им и не нужно. Вам придется использовать какие-то уловки, чтобы узнать, есть ли они.

Может быть, вы могли бы поместить невидимую ссылку вверху страницы, по которой человек не сможет следовать, а затем заблокировать всех, кто подписан это.

Под невидимым я подразумеваю поместить его в html-комментарий. Я не знаю достаточно об офлайн-браузерах, чтобы знать, достаточно ли они умен, чтобы не переходить по ссылкам внутри html-комментариев.

Любой, кто переходит по новой ссылке ровно каждые x секунд, также является роботом. Заблокируйте их.

Такие вещи.

1
ответ дан 3 December 2019 в 10:52

Short Answer: No

Long Answer:...

Most "Offline Browsers"/Scrapers just download the raw HTML/JS/CSS to be processed by the browser later. These, if their User-Agent Strings look like Legit "Online Browsers" that's all you have to go by and thus can't block them.

If they were to execute javascript on their scrape (usefull for sites that use javascript to load parts of the page etc.) then you can test their JavaScript API to see what features they have and target them this way. However this is pretty much pointless as they are likely to use a system like WebKit which other legit browsers also use.

Some Scrapers may abide by the Robots.txt file however they are more likely to be the scrapers like Google Search/Cache and not "Offline Browsers".

The last method is to use authentication that the downloads hide behind. This is effective so long as the user for the offline scraper doesn't provide it with an authenticated session.

Hope that helps :)

2
ответ дан 3 December 2019 в 10:52

Если вам нужно защитить ваши большие загрузки, лучший способ справиться с этим - оставить их после входа в систему. Как вы выяснили, вмешательство с блокировкой через htaccess или роботов против пользовательского агента может привести к блокировке легитимного трафика.

0
ответ дан 3 December 2019 в 10:52

Теги

Похожие вопросы