Я хочу обучить свой фильтр SpamAssasin, и я загрузил все спам-тары с января 2015 года по ноябрь 2015 года с этого сайта: untroubled.org/spam/
Кроме того, я Я загрузил свою ветчину и спам из моей личной учетной записи Gmail. Но все мои письма от Gmail содержат около 2500 писем, в то время как эти 11 таров с untroubled.org содержат около 410000 писем. Таким образом, отношение «ветчина / спам» составляет примерно 1: 160, и, таким образом, фильтр SpamAssassin будет слишком смещен в сторону спама.
С другой стороны, такие сайты с наборами данных спама предназначены в основном для исследователей спама, а не для системных администраторов. .
Итак, мой вопрос: что обычно делает системное администрирование или какова рекомендуемая практика? Используют ли они такие наборы данных? Это так опасно?
Принимая во внимание, что метод сбора спама untroubled.org распространяет широкую сеть, я не вижу никаких проблем с обучением Spamassassin с этими данными.
Вам следует рассмотреть возможности вашего почтового сервера и решить, нужно ли вручную сканировать большие объемы известного спама. SA довольно хорошо фильтрует СПАМ на основе своих внутренних правил, но если у вас есть время и желание вручную сканировать эти сообщения, это не вызовет никаких проблем для вашего сервера.