Выезд HMailServer. Намного легче управлять и диагностировать, и "инструмент для очистки", по моему скромному мнению, затем MailEnable, если Вы просто хотите сделать SMTP.
Мое текущее решение - это (для веб-сервера NGINX):
if ($http_user_agent ~* (Yandex) ) {
return 444;
}
Это нечувствительно к регистру. Это возвращает ответ 444.
Эта директива смотрит на Строку агента пользователя и если "Яндекс" является обнаруженным соединением, закрывается, не отправляя заголовков. 444 пользовательский код ошибки, понятый под демоном Nginx
Я слишком молод здесь (репутация) для регистрации всех URL, я должен как гиперссылки, так простите мои заключенные в скобки URL.
Ссылка форума от Dan Andreatta и эта другая, имеют некоторых, но не все из того, в чем Вы нуждаетесь. Вы захотите использовать их метод нахождения IP-адресов и написать сценарий чего-то для хранения списков новыми. Затем Вы хотите что-то вроде этого, чтобы показать Вам некоторые известные значения включая схемы именования субдомена, которые они использовали. Не спускайте crontabbed глаз с их диапазонов IP, возможно, автоматизируйте что-то для оценки разумного CIDR (я не нашел упоминания об их фактическом выделении; мог просто быть сбой Google меня).
Найдите их диапазон (диапазоны) IP максимально точно, таким образом, Вы не должны напрасно тратить время, приводя в порядок обратный взгляд DNS, в то время как пользователи ожидают (http://yourdomain/notpornipromise), и вместо этого Вы только делаете соответствие сравнения или что-то. Google просто показал мне grepcidr, который выглядит очень релевантным. От связанной страницы: "grepcidr может использоваться для фильтрации списка IP-адресов против одной или нескольких спецификаций Бесклассовой междоменной маршрутизации (CIDR) или произвольных сетей, указанных диапазоном адресов". Я предполагаю, что хорошо, что это - созданный код цели с известным вводом-выводом, но Вы знаете, что можно воспроизвести функцию миллиардом различных способов.
Большинство, "общее решение", я могу думать для этого и на самом деле хотеть совместно использовать (говорящие вещи в существование и все это) состоит в том, чтобы Вы начали писать базу данных таких преступников в Вашем местоположении (местоположениях), и тратят некоторые взгляды вне часов и исследование на способах защитить и контратака поведение. Это берет Вас глубже в обнаружение проникновения, анализ образов и медовые сети, чем объем этого конкретного вопроса действительно гарантирует. Однако в рамках того исследования бесчисленные ответы на этот вопрос, который Вы задали.
Я нашел это из-за интересного поведения Яндекса на одном из моих собственных сайтов. Я не назвал бы то, что я вижу в своем собственном оскорбительном журнале, но spider50.yandex.ru использовал 2% моего количества посещения и 1% моей пропускной способности... Я вижу, где бот был бы действительно оскорбителен для больших файлов и форумов и такого, ни один из которого доступны для злоупотребления на сервере, на который я смотрю сегодня. Что было достаточно интересно гарантировать, что расследование было ботом, смотрящим на /robots.txt, затем ожидая 4 - 9 часов и прося/directory/не в нем, затем ожидая 4 - 9 часов, прося/another_directory/, затем возможно, еще много и /robots.txt снова, повторяют рекламу finitum. Насколько частота идет, я предполагаю, что они достаточно хорошего поведения, и машина spider50.yandex.ru, казалось, уважала /robots.txt.
Я не планирую заблокировать их с этого сервера сегодня, но я был бы, если я обменялся опытом Ross.
Для ссылки на крошечных числах мы имеем дело с в случае моего сервера сегодня:
Top 10 of 1315 Total Sites By KBytes
# Hits Files KBytes Visits Hostname
1 247 1.20% 247 1.26% 1990 1.64% 4 0.19% ip98-169-142-12.dc.dc.cox.net
2 141 0.69% 140 0.72% 1873 1.54% 1 0.05% 178.160.129.173
3 142 0.69% 140 0.72% 1352 1.11% 1 0.05% 162.136.192.1
4 85 0.41% 59 0.30% 1145 0.94% 46 2.19% spider50.yandex.ru
5 231 1.12% 192 0.98% 1105 0.91% 4 0.19% cpe-69-135-214-191.woh.res.rr.com
6 16 0.08% 16 0.08% 1066 0.88% 11 0.52% rate-limited-proxy-72-14-199-198.google.com
7 63 0.31% 50 0.26% 1017 0.84% 25 1.19% b3090791.crawl.yahoo.net
8 144 0.70% 143 0.73% 941 0.77% 1 0.05% user10.hcc-care.com
9 70 0.34% 70 0.36% 938 0.77% 1 0.05% cpe-075-177-135-148.nc.res.rr.com
10 205 1.00% 203 1.04% 920 0.76% 3 0.14% 92.red-83-54-7.dynamicip.rima-tde.net
Это находится в общем хосте, кто даже не потрудился ограничивать пропускную способность больше, и если бы проверка приняла некоторую подобную DDoS форму, то они, вероятно, заметили бы и заблокировали бы его, прежде чем я был бы. Так, я не сердит об этом. На самом деле я очень предпочитаю иметь данные, которые они пишут в моих журналах для проигрывания с.
Ross, если Вы действительно сердиты о 2GB/day, что проигрываете Яндексу, Вы могли бы spampoison их. Это - то, для чего это там! Перенаправьте их от того, что Вы не хотите их загрузка, или HTTP 301 непосредственно к spampoison субдомену или самокруткой, таким образом, можно управлять логикой и развлечься еще больше с нею. Такое решение дает Вам инструмент повторному использованию позже, когда это еще более необходимо.
Затем начните выглядеть глубже в своих журналах для забавных как это:
217.41.13.233 - - [31/Mar/2010:23:33:52 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:33:54 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:33:58 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:00 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:01 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:03 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:04 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:05 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:06 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:09 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:14 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:16 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:17 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:18 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:21 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:23 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:24 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:26 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:27 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
217.41.13.233 - - [31/Mar/2010:23:34:28 -0500] "GET /user/ HTTP/1.1" 404 15088 "http://www.google.com/" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.1 (build 02228); .NET CLR 1.1.4322; InfoPath.2; .NET CLR 2.0.50727)"
Подсказка: Никакой/user/каталог, ни гиперссылка к такому, не существуют на сервере.
Согласно этому форуму, бот Яндекса хорошего поведения и отношения robots.txt
.
В особенности они говорят
Поведение Яндекса довольно много похоже на поведение Google относительно robots.txt.. Бот не смотрит на robots.txt каждый раз, когда он вводит домен.
Боты как Яндекс, Baudi и Sohu все довольно хорошо велись себя и в результате позволяются. Ни один из них никогда не ездил по различным местам, я не хотел, чтобы они пошли, и проанализировали уровни, не обходятся в кругленькую сумму относительно пропускной способности.
Лично у меня нет проблем с ним, и googlebot является безусловно самым агрессивным поисковым роботом для сайтов, которые я имею.
Не верьте тому, что Вы читаете на форумах об этом! Доверие, что Ваши журналы сервера говорят Вам. Если бы Яндекс повиновался robots.txt, то Вы видели бы доказательство в своих журналах. Я лично убедился, что роботы Яндекса даже не ЧИТАЮТ файл robots.txt!
Выход, напрасно тратящий время с длинными списками IP, которые только служат для замедления сайта решительно.
Введите следующие строки в .htaccess (в корневой папке каждого из Ваших сайтов):
SetEnvIfNoCase User-Agent "^Yandex*" bad_bot
Order Deny,Allow
Deny from env=bad_bot
Я сделал, и весь Яндекс добирается, теперь 403 ошибки Доступа запрещен.
До свидания Яндекс!
Станьте противными путем добавления этих строк к .htaccess файлу для предназначения для всех посетителей от 77.88.26.27 (или независимо от того, что IP), кто пытается получить доступ к странице, заканчивающейся в .shtml:
# permanently redirect specific IP request for entire site
Options +FollowSymlinks
RewriteEngine on
RewriteCond %{REMOTE_HOST} 77\.88\.26\.27
RewriteRule \.shtml$ http://www.youtube.com/watch?v=oHg5SJYRHA0 [R=301,L]
Тот бот Яндекса теперь получает rickrolled каждый раз, когда он пытается индексировать Ваш сайт. Проблема решена.
Пожалуйста, посмотрите модель OSI. Я рекомендую вам заблокировать эти сети на уровне маршрутизации. Это третий (4-й транспортный) уровень сетевой модели OSI. Если вы заблокируете их на уровне сервера, он находится на 4-м (5,6,7-м) слое и уже прошел. Также ядро может обрабатывать эти запросы в 100 раз лучше, чем сервер Apache. RewriteRule over RewriteRule, директивы SetEnv и т. Д. Просто мешают вашему серверу, независимо от того, показываете ли вы крутой 403. A Request - это запрос, и Яндекс также Baidu выполняет их множество, в то время как Google также сканирует в фоновом режиме! Вам действительно нравится, когда вас засыпают запросами, это стоит вам слотов для веб-серверов, а Baidu известен тем, что делает это намеренно.
61.51.16.0 - 61.51.31.255 61.51.16.0/20 # (Baidu China - Beijing) 14.136.0.0 - 14.136.255.255 14.136.0.0/16 # (Baidu China - H.K.) 123.125.71.0 - 123.125.71.255 123.125.71.0 # (Baidu China) 14.208.0.0 - 14.223.255.255 14.208.0.0/12 # (Baidu China) 95.108.241.0 - 95.108.241.255 95.108.241.0 # (YandexBot Russian Federation) 95.108.151.0 - 95.108.151.255 95.108.151.0 # (YandexBot Russian Federation) 119.63.192.0 - 119.63.199.255 119.63.192.0/21 # (Baidu Japan Inc.) 119.63.192.0 - 119.63.199.255 119.63.196.0/24 # (Baidu Japan Inc.) 180.76.0.0 - 180.76.255.255 180.76.0.0/16 # (Baidu China, Baidu Plaza, Beijing) 220.181.0.0 - 220.181.255.255 220.181.108.0/24 # (CHINANET Beijing Province Network)
Новые диапазоны: (обновлено вторник, 8 мая 2012 г.)
123.125.71.0 - 123.125.71.255 123.125.71.0/24 # (Baidu China) 202.46.32.0 - 202.46.63.255 202.46.32.0/19 # (Baidu China)
Новые диапазоны: (обновленное вс, 13 мая 2012 г.)
39.112.0.0 - 39.127.255.255 39.112.0.0/12 # KOREAN 211.148.192.0 - 211.148.223.255 211.148.192.0/19 # China (ShenZhen)