[SIMILAR] WITH 34797 クン WITH 26467 定対 WITH 20867 ム度 WITH 17974 二文 WITH 13603 パム WITH 12525 ン度 WITH 8529 判定 WITH 7380 み現 WITH 7055 語ス WITH 6676 2gram WITH 6466 タ再 WITH 6466 定精 WITH 6425 習量 WITH 5313 トー WITH 5156 は2g WITH 4860 スパ WITH 4785 ーク WITH 4252 る15 WITH 3827 な二 WITH 3578 学習 WITH 3453 分割 WITH 3303 対象 WITH 2890 方式 WITH 2754 やク WITH 2551 現れ WITH 2529 ピュ WITH 2349 精度 WITH 2215 度や WITH 2063 ムフ WITH 2055 特徴 WITH 1989 カナ WITH 1928 本語 の検索結果 127 件中 1 - 10 件目 (0.070647564 秒)
日本語スパムの判定精度があまり上がってこないので(半分くらいすり抜けてしまいます)、ここ数日どういう風に判定しているのかをログを取って調べてみました。すると、 日本語は2gramで処理しているので英語に比べてトークンの取りうる範囲が広い 日本語のメールはクリーンなメールに対してスパムの学習量が少 ...
試しに以下を変えてみました。 いわゆる全角カタカナと全角英数字は2gramで分割せずに連続しているところまででひとつのトークンとするようにしました ひらがなや句読点などを含むトークンは無視するようにしました 同じスパム度・クリーン度を持つトークンをランダムに入れ替えて、判定対象となる15トークンに ...
# (スコア:8323)
そういえば、ひらがなをトークン化の対象からはずしてからクリーン8000通、スパム4000通くらい学習させていますが、トークンDBのサイズは12MB程度で成長が止まったようです。おおよそありそうなトークンは出尽くしたということでしょうか。これくらいのサイズだとそこそこ実用的な速度で動くのではないかと思い ...
# (スコア:6168)
最近、英語の文章をCamelCase化してSubjectや本文を書いたスパムが多くなりました。今のトークン分割方法だとまとめて一つのトークンになってしまうために初出のトークンと見なされて、スパムと判定されないことが多かったので、このような場合には、CamelとCaseにトークンを分割するようにしました。 ...
# (スコア:6000)
なるほど。 こんな感じでどうでしょう。 Boolean @Junk(String?) 第一引数は、空白区切りのトークンのリストで、アドレスにそのトークンが含まれるとホワイトだとみなされます。 例えばホワイトリストが少ないならば、 @Junk('@example.com') @Junk('@example.com @foo.jp') のように直接書けますし、別ファイル ...
# (スコア:5934)
いまさらながらヘッダのエンコードとデコードに、隣り合うトークンがRFC2047でエンコードされているときの間の空白文字の処理がおかしいというバグがあったので直しました。使う変数名が間違っているというあまりにもお間抜けなバグでした… ...
# (スコア:5934)
フィルタについて。 フィルタはTo, From, Subjectと本文に指定した文字列がマッチするかどうかしか指定できません。また、マッチ自体も完全マッチでも正規表現でもなく、GoogleでWeb検索をしたときのように適当にトークンに分解されて検索されるようです。 Gmailを気に入るかどうかはこの辺の感覚が自分に合うか ...
# (スコア:5934)
アドレスを補完するときには、今までは表示名を空白でトークンに区切ったときの各トークンの先頭、アドレスの先頭、ドメイン名の先頭にマッチした場合に補完されるようにしてありました。 アドレスのほうをちょっといじって、アドレスを記号(@._-)でトークンに区切ったときの各トークンの先頭にマッチしたとき ...
# (スコア:5812)
この日からカンクンに移動しました。リゾートっぽさとしてはやはりカンクンの方が上ですね。でもホテルのサービスはいまいち。 ...
# (スコア:5812)
ベイジアンフィルタを書くとすると何が必要になるかなと考えてみました。 まずは日本語のトークンを分割するのには、MeCabが使えそうです。単語の現れる頻度を記録しておくのには何らかのデータベースが必要ですが、これはQDBMがAPIもお手軽で速そうなので良さそうです。両方ともライセンスはLGPLです。 ...
# (スコア:4632)
# (スコア:10000)