Набор данных СПАМ, подходит для SpamAssasin или нет?

Я хочу обучить свой фильтр SpamAssasin, и я загрузил все спам-тары с января 2015 года по ноябрь 2015 года с этого сайта: untroubled.org/spam/

Кроме того, я Я загрузил свою ветчину и спам из моей личной учетной записи Gmail. Но все мои письма от Gmail содержат около 2500 писем, в то время как эти 11 таров с untroubled.org содержат около 410000 писем. Таким образом, отношение «ветчина / спам» составляет примерно 1: 160, и, таким образом, фильтр SpamAssassin будет слишком смещен в сторону спама.

С другой стороны, такие сайты с наборами данных спама предназначены в основном для исследователей спама, а не для системных администраторов. .

Итак, мой вопрос: что обычно делает системное администрирование или какова рекомендуемая практика? Используют ли они такие наборы данных? Это так опасно?

0
задан 15 December 2015 в 16:35
1 ответ

Принимая во внимание, что метод сбора спама untroubled.org распространяет широкую сеть, я не вижу никаких проблем с обучением Spamassassin с этими данными.

Вам следует рассмотреть возможности вашего почтового сервера и решить, нужно ли вручную сканировать большие объемы известного спама. SA довольно хорошо фильтрует СПАМ на основе своих внутренних правил, но если у вас есть время и желание вручную сканировать эти сообщения, это не вызовет никаких проблем для вашего сервера.

1
ответ дан 4 December 2019 в 16:45

Теги

Похожие вопросы