Если я дам sa-learn
Maildir письма, чтобы обучить их как спам, они будут приняты без проблем, но когда пытаюсь использовать файл mbox, содержащий спам-сообщения из моей личной учетной записи Gmail (используя https://takeout.google.com/settings/takeout/custom/gmail ), ему это не нравится:
$ grep -c '^From ' spam.mbox
390
$ sa-learn --progress --no-sync --spam --mbox spam.mbox
Learned tokens from 0 message(s) (0 message(s) examined)
Итак, очевидно, что spam.mbox
содержит электронные письма (на самом деле 390), но по какой-то причине sa-learn
решает их игнорировать.
Что здесь могло происходить?
Возможно, это не идеально, но я смог заставить sa-learn работать, экспортировав папку со спамом Gmail с помощью Thunderbird, а не утилиты Google Takeout. Кажется, есть что-то странное с форматом mbox в GTakeout, которое вызывает проблемы с SA.
Чтобы использовать Thunderbird для экспорта папки спама Gmail, выполните следующие действия:
Экспортированный файл mbox должен хорошо работать с sa-learn.