Как обнаружить ботов программно

Вот короткий сценарий, который должен выручить Вас. Это идет через все папки в почтовом ящике и производит их путь. Можно обновить работу, сделанную в рекурсивном разделе для проверки объектов в каждую папку, поскольку это проходит через них.

$outlook = New-Object -Com Outlook.Application
$mapi = $outlook.GetNamespace('MAPI')
$mailboxRoot = $mapi.GetDefaultFolder([Microsoft.Office.Interop.Outlook.OlDefaultFolders]::olFolderInbox).Parent
$walkFolderScriptBlock = {
    param(
        $currentFolder
    )
    foreach ($item in $currentFolder.Folders) {
        $item.FolderPath
        & $walkFolderScriptBlock $item
    }
}
& $walkFolderScriptBlock $mailboxRoot
4
задан 4 July 2015 в 09:18
4 ответа

Здесь есть несколько элементов.

строка пользовательского агента - это одно значение, но его можно тривиально подделать.

Я нашел довольно полезную эвристику: для предварительной обработки, затем посмотрите на трафик:

  • Обратный поиск IP
  • Вызов проекта Routeviews ( http://www.routeviews.org/ ), чтобы вызвать CIDR и ASN для данного IP. Это позволяет вам расширяться от одиночных IP-адресов до смежных диапазонов сети с аналогичными шаблонами трафика.
  • Извлеките имена ASN: http://bgp.potaroo.net/cidr/autnums.html

Разберите ваш доступ регистрирует добавление информации об имени хоста, ASN, CIDR и ASN. Подмножество URL-адресов для невариантной части (обычно удаляя все, что стоит за '?', Хотя YMMV). Если у вас есть определенные поисковые или служебные страницы, сосредоточьтесь на них (обычно я мы видели проблемы либо с ботами, использующими какую-либо службу проверки пользователей или поиском).

Ищите отдельные IP-адреса с большим объемом трафика.

Ищите отдельные блоки CIDR или ASN с большим объемом трафика.

Исключите законный поисковый трафик (Google, Bing, Yahoo, Baidu, Facebook и подобные боты / сетевое пространство). Вероятно, это будет одна из ваших основных областей текущего обслуживания, этот материал все время меняется.

Исключите законный пользовательский трафик. Особенно для массовых пользователей вашего сайта.

Определите, каковы нормальные модели использования как для конечных пользователей, так и для поисковых роботов. Если типичный пользователь посещает 1-3 страницы в минуту при обычном сеансе 5-10 минут, а робот Google ограничивается, скажем, 10 поисками в минуту, и вы внезапно видите, что один блок IP или CIDR загорается сотнями или тысячами поисковых запросов в минуту, возможно, вы нашли свою проблему.

Изучите источники большого объема / значительного (в отрицательном смысле) трафика. Часто запрос WHOIS показывает, что это своего рода хостинговое пространство - обычно не там, где вы увидите много легитимного пользовательского трафика. Шаблоны могут появляться в строках пользовательского агента, URL-адресах запросов, строках реферера и т. Д., Что указывает на дополнительные шаблоны.

Кэширующий клиент Whois может оказаться большим подспорьем, если вы в конечном итоге выполняете множество поисков в WHOIS, и то и другое. ускорить процесс и избежать ограничения скорости / дросселирования регистраторами (по какой-то причине они не любят организации, проводящие тысячи повторных / автоматических поисков). Вы можете обратиться непосредственно к регистраторам для получения дополнительной информации, хотя я этого не делал.

Проверки различных баз данных репутации (поиск спама, SenderBase, теперь есть кое-что в Google в этом направлении) также могут подтвердить плохо контролируемое сетевое пространство.

Я бы хотел сказать, что я Мне есть что продать вам в этом направлении, но я работаю в основном над некоторыми awk и другими инструментами, чтобы собрать это вместе. Он будет анализировать миллион строк журнала в минуту или около того (плюс немного дополнительных накладных расходов для подготовки хэшей для IP-адресов и информации ASN / CIDR) на скромной рабочей станции. Не полностью автоматизирован, но через несколько минут работы даст мне достойное представление о проблеме.

теперь некоторые вещи Google в этом направлении) также могут подтверждать плохо контролируемое сетевое пространство.

Я хотел бы сказать, что у меня есть что продать вам в этом направлении, но то, с чем я работаю, в основном это awk и другие инструменты, чтобы собрать это воедино. Он будет анализировать миллион строк журнала в минуту или около того (плюс немного дополнительных накладных расходов для подготовки хэшей для IP-адресов и информации ASN / CIDR) на скромной рабочей станции. Не полностью автоматизирован, но через несколько минут работы даст мне достойное представление о проблеме.

Теперь некоторые вещи Google в этом направлении) также могут подтверждать плохо контролируемое сетевое пространство.

Я хотел бы сказать, что у меня есть что продать вам в этом направлении, но то, с чем я работаю, это в основном awk и другие инструменты, чтобы собрать это воедино. Он будет анализировать миллион строк журнала в минуту или около того (плюс немного дополнительных накладных расходов для подготовки хэшей для IP-адресов и информации ASN / CIDR) на скромной рабочей станции. Не полностью автоматизирован, но через несколько минут работы даст мне достойное представление о проблеме.

Я буду анализировать миллион строк журнала в минуту или около того (плюс немного дополнительных накладных расходов для подготовки хэшей для IP-адресов и информации ASN / CIDR) на скромной рабочей станции. Не полностью автоматизирован, но через несколько минут работы даст мне достойное представление о проблеме.

Я буду анализировать миллион строк журнала в минуту или около того (плюс немного дополнительных накладных расходов для подготовки хэшей для IP-адресов и информации ASN / CIDR) на скромной рабочей станции. Не полностью автоматизирован, но через несколько минут работы даст мне достойное представление о проблеме.

1
ответ дан 3 December 2019 в 04:05

Я думал бы от повторенных хитов точки зрения системного администратора из единственного IP в равном интервале, укажет на вероятного бота. Вы могли найти это путем простого парсинга журналов.

Я мог бы сначала отфильтровать дюйм/с с большим количеством хитов. Затем заполните массив временами тех хитов и возможно посмотрите на стандартное отклонение интервала между теми хитами.

Явное преимущество к решению как это, это добирается для записи чего-то довольно интересного, если Вы работаете полностью занятый администратор ;-)

1
ответ дан 3 December 2019 в 04:05

Быстрый поиск Google показал этот сайт. Это могла быть хорошая начальная точка.

Проверка только агент пользователя не может быть достаточно, так как агент пользователя может быть легко подделан.

0
ответ дан 3 December 2019 в 04:05

На самом деле существует новая технология, которая предназначена для борьбы с ботами в больших масштабах. Это может быть полезно для покупателей программных медиа. Это называется снятием отпечатков пальцев с устройства и по сути заменяет отслеживание посетителей на основе файлов cookie. Предпосылка заключается в том, что файлы cookie часто используются мошенниками, а IP-адреса также могут быть изменены через VPN. С другой стороны, отпечатки пальцев остаются уникальными для устройства, IP и GEO и не могут быть изменены. Есть несколько веб-сайтов, которые предоставляют это решение - fraudhunt.net , CPA Detective и Distil - и это лишь некоторые из них.

Эта технология определенно имеет свои ограничения. Если вы не хотите углубляться в это и устанавливать другие инструменты - вы можете устранить ботов в GA. Вот несколько известных доменов ботов, которые вы обязательно должны заблокировать

darodar.com (и различные поддомены). Econom.co ilovevitaly.co semalt.com (и различные поддомены) button-for-website.com see-your-website-here.com

0
ответ дан 3 December 2019 в 04:05

Теги

Похожие вопросы