2005-07-05 [長年日記]

[Q3] スパムフィルタのログ

INFOレベル以上にしておくと色々とログを吐くのですが*1判定した対象のメッセージがわからないのがいまいちだったので、対象のメッセージのSubjectとMessage-Idもログに出すようにしてみました。

[Q3] スパムフィルタのDBのサイズ

そういえば、ひらがなをトークン化の対象からはずしてからクリーン8000通、スパム4000通くらい学習させていますが、トークンDBのサイズは12MB程度で成長が止まったようです。おおよそありそうなトークンは出尽くしたということでしょうか。これくらいのサイズだとそこそこ実用的な速度で動くのではないかと思います。

[Q3] スパムフィルタと振り分けルール (6)

IMAP4のスパムフィルタはスパムだと判定するとサーバ上でメッセージを移動させようとするため、Junkフォルダをローカルフォルダにするとうまく動かないのですが*2、振り分けルールと統合するとこの問題も解決できそうです。

学習周りがなんとかなれば良いのですが、@Junk以外でクリーンと判定されたメッセージの学習の事なども考えるとまだ方針が立ちません。もっとも適当にやっても誰も気づかないんじゃないかという説もありますけど。

*1  DEBUGにして学習させると大変なことになります

*2  というか、リンク先の指摘で初めて気づきました

[]