Блокирование бота yandex.ru

Question

Блокирование бота yandex.ru

Выезд HMailServer. Намного легче управлять и диагностировать, и "инструмент для очистки", по моему скромному мнению, затем MailEnable, если Вы просто хотите сделать SMTP.

5

search-engine robots.txt

задан Ross 29 April 2010 в 10:49

Ссылка

6 ответов

Я слишком молод здесь (репутация) для регистрации всех URL, я должен как гиперссылки, так простите мои заключенные в скобки URL.

Ссылка форума от Dan Andreatta и эта другая, имеют некоторых, но не все из того, в чем Вы нуждаетесь. Вы захотите использовать их метод нахождения IP-адресов и написать сценарий чего-то для хранения списков новыми. Затем Вы хотите что-то вроде этого, чтобы показать Вам некоторые известные значения включая схемы именования субдомена, которые они использовали. Не спускайте crontabbed глаз с их диапазонов IP, возможно, автоматизируйте что-то для оценки разумного CIDR (я не нашел упоминания об их фактическом выделении; мог просто быть сбой Google меня).

Найдите их диапазон (диапазоны) IP максимально точно, таким образом, Вы не должны напрасно тратить время, приводя в порядок обратный взгляд DNS, в то время как пользователи ожидают (http://yourdomain/notpornipromise), и вместо этого Вы только делаете соответствие сравнения или что-то. Google просто показал мне grepcidr, который выглядит очень релевантным. От связанной страницы: "grepcidr может использоваться для фильтрации списка IP-адресов против одной или нескольких спецификаций Бесклассовой междоменной маршрутизации (CIDR) или произвольных сетей, указанных диапазоном адресов". Я предполагаю, что хорошо, что это - созданный код цели с известным вводом-выводом, но Вы знаете, что можно воспроизвести функцию миллиардом различных способов.

Большинство, "общее решение", я могу думать для этого и на самом деле хотеть совместно использовать (говорящие вещи в существование и все это) состоит в том, чтобы Вы начали писать базу данных таких преступников в Вашем местоположении (местоположениях), и тратят некоторые взгляды вне часов и исследование на способах защитить и контратака поведение. Это берет Вас глубже в обнаружение проникновения, анализ образов и медовые сети, чем объем этого конкретного вопроса действительно гарантирует. Однако в рамках того исследования бесчисленные ответы на этот вопрос, который Вы задали.

Я нашел это из-за интересного поведения Яндекса на одном из моих собственных сайтов. Я не назвал бы то, что я вижу в своем собственном оскорбительном журнале, но spider50.yandex.ru использовал 2% моего количества посещения и 1% моей пропускной способности... Я вижу, где бот был бы действительно оскорбителен для больших файлов и форумов и такого, ни один из которого доступны для злоупотребления на сервере, на который я смотрю сегодня. Что было достаточно интересно гарантировать, что расследование было ботом, смотрящим на /robots.txt, затем ожидая 4 - 9 часов и прося/directory/не в нем, затем ожидая 4 - 9 часов, прося/another_directory/, затем возможно, еще много и /robots.txt снова, повторяют рекламу finitum. Насколько частота идет, я предполагаю, что они достаточно хорошего поведения, и машина spider50.yandex.ru, казалось, уважала /robots.txt.

Я не планирую заблокировать их с этого сервера сегодня, но я был бы, если я обменялся опытом Ross.

Для ссылки на крошечных числах мы имеем дело с в случае моего сервера сегодня:

Top 10 of 1315 Total Sites By KBytes
 # Hits  Files  KBytes   Visits  Hostname
 1 247 1.20% 247 1.26% 1990 1.64% 4 0.19% ip98-169-142-12.dc.dc.cox.net
 2 141 0.69% 140 0.72% 1873 1.54% 1 0.05% 178.160.129.173
 3 142 0.69% 140 0.72% 1352 1.11% 1 0.05% 162.136.192.1
 4 85 0.41% 59 0.30% 1145 0.94% 46 2.19% spider50.yandex.ru
 5 231 1.12% 192 0.98% 1105 0.91% 4 0.19% cpe-69-135-214-191.woh.res.rr.com
 6 16 0.08% 16 0.08% 1066 0.88% 11 0.52% rate-limited-proxy-72-14-199-198.google.com
 7 63 0.31% 50 0.26% 1017 0.84% 25 1.19% b3090791.crawl.yahoo.net
 8 144 0.70% 143 0.73% 941  0.77% 1 0.05% user10.hcc-care.com
 9 70 0.34% 70 0.36% 938  0.77% 1 0.05% cpe-075-177-135-148.nc.res.rr.com
10 205 1.00% 203 1.04% 920  0.76% 3 0.14% 92.red-83-54-7.dynamicip.rima-tde.net

Это находится в общем хосте, кто даже не потрудился ограничивать пропускную способность больше, и если бы проверка приняла некоторую подобную DDoS форму, то они, вероятно, заметили бы и заблокировали бы его, прежде чем я был бы. Так, я не сердит об этом. На самом деле я очень предпочитаю иметь данные, которые они пишут в моих журналах для проигрывания с.

Ross, если Вы действительно сердиты о 2GB/day, что проигрываете Яндексу, Вы могли бы spampoison их. Это - то, для чего это там! Перенаправьте их от того, что Вы не хотите их загрузка, или HTTP 301 непосредственно к spampoison субдомену или самокруткой, таким образом, можно управлять логикой и развлечься еще больше с нею. Такое решение дает Вам инструмент повторному использованию позже, когда это еще более необходимо.

Затем начните выглядеть глубже в своих журналах для забавных как это:

217.41.13.233 - - [31/Mar/2010:23:33:52 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:33:54 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:33:58 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:00 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:01 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:03 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:04 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:05 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:06 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:09 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:14 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:16 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:17 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:18 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:21 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:23 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:24 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:26 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:27 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:28 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"

Подсказка: Никакой/user/каталог, ни гиперссылка к такому, не существуют на сервере.

3

ответ дан wfaulk 3 December 2019 в 01:05

Ссылка

1

Вот часть их информации о IP: cqcounter.com/whois/index.php?query=213.180.199.34 cqcounter.com/whois/index.php?query=77.88.19.60 маршрут: 213.180.192.0/19 descr: сетевой маршрут Яндекса: 213.180.199.0/24 descr: маршрут корпоративной сети Яндекса: 77.88.0.0/18 descr: корпоративная сеть Яндекса – Daniel 1 May 2010 в 16:14
2

Спасибо, большая полезная информация. Я попробую часть этого. Между тем для некоторых моих веб-сайтов я поместил белый список robots.txt для Google, Yahoo и MSN только. – Ross 2 May 2010 в 13:22
3

А-ч да. Хороший запрос к белому списку. You' приветствие ре. – Daniel 4 May 2010 в 10:03

Согласно этому форуму, бот Яндекса хорошего поведения и отношения robots.txt.

В особенности они говорят

Поведение Яндекса довольно много похоже на поведение Google относительно robots.txt.. Бот не смотрит на robots.txt каждый раз, когда он вводит домен.

Боты как Яндекс, Baudi и Sohu все довольно хорошо велись себя и в результате позволяются. Ни один из них никогда не ездил по различным местам, я не хотел, чтобы они пошли, и проанализировали уровни, не обходятся в кругленькую сумму относительно пропускной способности.

Лично у меня нет проблем с ним, и googlebot является безусловно самым агрессивным поисковым роботом для сайтов, которые я имею.

1

ответ дан Dan Andreatta 3 December 2019 в 01:05

Ссылка

1

Это определенно не хорошо ведет себя и работает больше как DDos-атака. Я не хочу передавать на его милосердии для уважения правил. На некоторых моих веб-сайтах у меня нет проблем с ним, но на 2 из них это выполняет много запроса на единственную страницу многократно во втором. – Ross 29 April 2010 в 12:18
2

Это мог быть кто-то просто симулирующий быть ботом Яндекса. IP-адреса запрос прибывают из, происходят из сервера Яндекса? – Dan Andreatta 29 April 2010 в 12:42
3

Да это прибывает из spider*.yandex.ru. Я нашел, что у большого количества людей есть подобная проблема с Яндексом. – Ross 29 April 2010 в 13:44

Не верьте тому, что Вы читаете на форумах об этом! Доверие, что Ваши журналы сервера говорят Вам. Если бы Яндекс повиновался robots.txt, то Вы видели бы доказательство в своих журналах. Я лично убедился, что роботы Яндекса даже не ЧИТАЮТ файл robots.txt!

Выход, напрасно тратящий время с длинными списками IP, которые только служат для замедления сайта решительно.

Введите следующие строки в .htaccess (в корневой папке каждого из Ваших сайтов):

SetEnvIfNoCase User-Agent "^Yandex*" bad_bot
Order Deny,Allow
Deny from env=bad_bot

Я сделал, и весь Яндекс добирается, теперь 403 ошибки Доступа запрещен.

До свидания Яндекс!

6

ответ дан Mark Henderson 3 December 2019 в 01:05

Ссылка

1

Спасибо. Я попробую это. Я в настоящее время блокирую 2 диапазона IP только, но кто знает в будущем. – Ross 25 May 2010 в 17:23

Станьте противными путем добавления этих строк к .htaccess файлу для предназначения для всех посетителей от 77.88.26.27 (или независимо от того, что IP), кто пытается получить доступ к странице, заканчивающейся в .shtml:

# permanently redirect specific IP request for entire site
Options +FollowSymlinks
RewriteEngine on
RewriteCond %{REMOTE_HOST} 77\.88\.26\.27
RewriteRule \.shtml$ http://www.youtube.com/watch?v=oHg5SJYRHA0 [R=301,L]

Тот бот Яндекса теперь получает rickrolled каждый раз, когда он пытается индексировать Ваш сайт. Проблема решена.

1

ответ дан 3 December 2019 в 01:05

Ссылка

Пожалуйста, посмотрите модель OSI. Я рекомендую вам заблокировать эти сети на уровне маршрутизации. Это третий (4-й транспортный) уровень сетевой модели OSI. Если вы заблокируете их на уровне сервера, он находится на 4-м (5,6,7-м) слое и уже прошел. Также ядро может обрабатывать эти запросы в 100 раз лучше, чем сервер Apache. RewriteRule over RewriteRule, директивы SetEnv и т. Д. Просто мешают вашему серверу, независимо от того, показываете ли вы крутой 403. A Request - это запрос, и Яндекс также Baidu выполняет их множество, в то время как Google также сканирует в фоновом режиме! Вам действительно нравится, когда вас засыпают запросами, это стоит вам слотов для веб-серверов, а Baidu известен тем, что делает это намеренно.

61.51.16.0 - 61.51.31.255         61.51.16.0/20     # (Baidu China - Beijing)
14.136.0.0 - 14.136.255.255       14.136.0.0/16     # (Baidu China - H.K.)
123.125.71.0 - 123.125.71.255     123.125.71.0      # (Baidu China)
14.208.0.0 - 14.223.255.255       14.208.0.0/12     # (Baidu China)
95.108.241.0 - 95.108.241.255     95.108.241.0      # (YandexBot Russian Federation)
95.108.151.0 - 95.108.151.255     95.108.151.0      # (YandexBot Russian Federation)
119.63.192.0 - 119.63.199.255     119.63.192.0/21   # (Baidu Japan Inc.)
119.63.192.0 - 119.63.199.255     119.63.196.0/24   # (Baidu Japan Inc.)        
180.76.0.0 - 180.76.255.255       180.76.0.0/16     # (Baidu China, Baidu Plaza, Beijing)
220.181.0.0 - 220.181.255.255     220.181.108.0/24  # (CHINANET Beijing Province Network)

Новые диапазоны: (обновлено вторник, 8 мая 2012 г.)

123.125.71.0 - 123.125.71.255     123.125.71.0/24   # (Baidu China)
202.46.32.0 - 202.46.63.255       202.46.32.0/19    # (Baidu China)

Новые диапазоны: (обновленное вс, 13 мая 2012 г.)

39.112.0.0 - 39.127.255.255       39.112.0.0/12     # KOREAN
211.148.192.0 - 211.148.223.255   211.148.192.0/19  # China (ShenZhen)

0

ответ дан 3 December 2019 в 01:05

Ссылка

Блокирование бота yandex.ru

Теги

Похожие вопросы