Адрес для входа в РФ: exler.world
Байесовский фильтр для Бата
08.04.2006 13:18
7533
Комментарии (4)
Для локальной фильтрации спама (того, который все-таки прорывается через фильтры на сервере) я пользовался Виноградовским байесовским фильтром, который также входит в официальную поставку The Bat!.
Однако у байесовских фильтров, учитывая технологию их работы, есть определенные особенности: график эффективности при обучении сначала растет, затем достигает максимума (когда - зависит от скорости обучения, то есть количества и качества скармливаемых ему писем), а потом начинает заметно снижаться. По крайней мере, именно так было у меня. Я этот фильтр поставил, настроил, обучил, далее какое-то время он у меня работал вполне качественно, но в последнее время (несколько месяцев) стал довольно часто скидывать в спам вполне нужные письма. Попытки "дообучения" к нужному эффекту не привели.
Тогда я, вместо того чтобы снести всю базу и обучать фильтр заново, решил попробовать другой байесовский фильтр, который также имеет плагин для Бата - вот этот. Принцип работы у него точно такой же, как и у Виноградовского: устанавливаете, делаете настройки под себя и обучаете, скормив несколько тысяч спамерских писем и несколько тысяч неспамерских (обучать надо обязательно по двум категориям, иначе будут заметные перекосы).
Поставил, обучил. В настройках заметил несколько возможностей, которых нет у предыдущего фильтра: гибкая система работы с черными списками DNS (правда, я этим не пользуюсь), фильтр с регулярными выражениями и более удобная работа с черными и белыми списками.
Пока полет вполне нормальный: безусловный спам ловит без проблем, неспам, который тот фильтр считал спамом, не трогает. В понедельник протестирую на стандартном потоке в пару тысяч писем, после чего поделюсь впечатлениями.
Кстати, если кому-то нужна батовская папка со спамом (2000 писем) для обучения какого-нибудь байеса - welcome: вот она (6 мегов в архиве, в развернутом виде 23 мега - это спам, который пришел на совершенно различные мои адреса).
Однако у байесовских фильтров, учитывая технологию их работы, есть определенные особенности: график эффективности при обучении сначала растет, затем достигает максимума (когда - зависит от скорости обучения, то есть количества и качества скармливаемых ему писем), а потом начинает заметно снижаться. По крайней мере, именно так было у меня. Я этот фильтр поставил, настроил, обучил, далее какое-то время он у меня работал вполне качественно, но в последнее время (несколько месяцев) стал довольно часто скидывать в спам вполне нужные письма. Попытки "дообучения" к нужному эффекту не привели.
Тогда я, вместо того чтобы снести всю базу и обучать фильтр заново, решил попробовать другой байесовский фильтр, который также имеет плагин для Бата - вот этот. Принцип работы у него точно такой же, как и у Виноградовского: устанавливаете, делаете настройки под себя и обучаете, скормив несколько тысяч спамерских писем и несколько тысяч неспамерских (обучать надо обязательно по двум категориям, иначе будут заметные перекосы).
Поставил, обучил. В настройках заметил несколько возможностей, которых нет у предыдущего фильтра: гибкая система работы с черными списками DNS (правда, я этим не пользуюсь), фильтр с регулярными выражениями и более удобная работа с черными и белыми списками.
Пока полет вполне нормальный: безусловный спам ловит без проблем, неспам, который тот фильтр считал спамом, не трогает. В понедельник протестирую на стандартном потоке в пару тысяч писем, после чего поделюсь впечатлениями.
Кстати, если кому-то нужна батовская папка со спамом (2000 писем) для обучения какого-нибудь байеса - welcome: вот она (6 мегов в архиве, в развернутом виде 23 мега - это спам, который пришел на совершенно различные мои адреса).
Войдите, чтобы оставить комментарий.
Хорошая вещь. В том смысле, что встроенный у меня не работает с тех пор, как идет в дистрибутиве. А этот работает, хотя еще обучен плохо, но это пройдет 😄
А есть аналогичный для Outlook?
Можно, но только весь - это где-то гиг семьсот.
Можно тогда еще архив неспама? 😄
Теги
Информация
Что ещё почитать