INFOレベル以上にしておくと色々とログを吐くのですが*1、判定した対象のメッセージがわからないのがいまいちだったので、対象のメッセージのSubjectとMessage-Idもログに出すようにしてみました。
そういえば、ひらがなをトークン化の対象からはずしてからクリーン8000通、スパム4000通くらい学習させていますが、トークンDBのサイズは12MB程度で成長が止まったようです。おおよそありそうなトークンは出尽くしたということでしょうか。これくらいのサイズだとそこそこ実用的な速度で動くのではないかと思います。
IMAP4のスパムフィルタはスパムだと判定するとサーバ上でメッセージを移動させようとするため、Junkフォルダをローカルフォルダにするとうまく動かないのですが*2、振り分けルールと統合するとこの問題も解決できそうです。
学習周りがなんとかなれば良いのですが、@Junk以外でクリーンと判定されたメッセージの学習の事なども考えるとまだ方針が立ちません。もっとも適当にやっても誰も気づかないんじゃないかという説もありますけど。