■ [Q3] スパムフィルタ (9)
サイズ制限して欲しいという話があったので制限するようにしました。各パートごとにUnicodeに変換した後での文字数を制限します。qmail.xmlのJunkFilter/MaxTextSizeで指定可能です。デフォルトでは32K文字になっています。
■ [Q3] スパムフィルタ (10)
しばらく使っていますが、英語のスパムはほぼ完全に弾いてくれますが、日本語のスパムは通してしまうものがあります。特に最近多い友達からのメールを装ったものとか。日本語のスパムは学習した数も少ないし、トークンの取りうる範囲も広いのでもっと学習させないとだめなのかもしれません。
私も最近Junk Filterを有効にしたばかりですが、学習のさせ方の問題なのか日本語のSPAMには弱いなぁと感じてました。
出力されるログを見ると、現在のロジックだと日本語のSPAMの分別は難しそうですよね。
私の手元には「非常に大量のサンプル」がありますが、ご提供しましょうか?
#精度が上がるならいくらでも提供しますw
どこかの論文(出所がわからなくなってしまいました)を読んだときに形態素解析するとコーパスが小さいときには判定精度が上がるが、コーパスが大きくなったときには2gramの方が判定精度が上がるという実験結果があったので形態素解析するほうは試していなかったのですが、試して見る価値はあるかも知れませんね。
そのあたりを試すときにサンプルを頂くお願いをするかもしれません。そのときはよろしくお願いします。
ここ数日の結果だと、なぜか日本語SPAMの排除率は上がったのですが、GB2312やらBIG5系のSPAMが目だって残っている気がします。
形態素解析の際はお声掛けください、比較的容易にSPAMは用意できると思いますので^^;