2005-01-13 [長年日記]

[Q3] スパムフィルタ (3)

英数字しか処理していないのになかなか正しい判定をするので、ログを取ってどんなトークンがヒットしているのかを調べて見たところ、プロジェクト名とかメールアドレスのユーザ名、ML経由だと"fml"とか"STABLE"などのヘッダに書かれた文字がクリーンとみなされていることが発覚しました。対するスパムは変な単語を含んだ英語のものが多いのでスパムと判定されていました。これだとMLからスパムが配信されたらクリーンと配信されそうです。

今試しているアカウントは、ML経由でスパムが来ることがなく、新しい人からメールが来ることも少なく、プロジェクト名などが入っていることが多く、スパムは英語が中心という環境だったのでうまくいっているようです。

[]