[SIMILAR] WITH 7748 ム40 WITH 7748 ンdb WITH 6425 ン80 WITH 6425 出尽 WITH 5219 クン WITH 3548 ン化 WITH 2720 パム WITH 2633 用的 WITH 2063 ムフ WITH 1635 実用 WITH 1192 学習 WITH 1101 イズ WITH 972 スパ WITH 853 速度 WITH 797 トー WITH 718 成長 WITH 717 ーク WITH 707 度で WITH 660 対象 WITH 558 ィル WITH 534 ルタ WITH 510 サイ WITH 358 程度 WITH 317 フィ WITH 305 のサ WITH 234 クリ WITH 215 ーン WITH 137 リー WITH 1 [ WITH 1 q3 WITH 1 ] WITH 1 タの の検索結果 126 件中 1 - 10 件目 (0.080482998 秒)
そういえば、ひらがなをトークン化の対象からはずしてからクリーン8000通、スパム4000通くらい学習させていますが、トークンDBのサイズは12MB程度で成長が止まったようです。おおよそありそうなトークンは出尽くしたということでしょうか。これくらいのサイズだとそこそこ実用的な速度で動くのではないかと思い ...
最近、英語の文章をCamelCase化してSubjectや本文を書いたスパムが多くなりました。今のトークン分割方法だとまとめて一つのトークンになってしまうために初出のトークンと見なされて、スパムと判定されないことが多かったので、このような場合には、CamelとCaseにトークンを分割するようにしました。 ...
# (スコア:3878)
試しに以下を変えてみました。 いわゆる全角カタカナと全角英数字は2gramで分割せずに連続しているところまででひとつのトークンとするようにしました ひらがなや句読点などを含むトークンは無視するようにしました 同じスパム度・クリーン度を持つトークンをランダムに入れ替えて、判定対象となる15トークンに ...
# (スコア:3843)
日本語スパムの判定精度があまり上がってこないので(半分くらいすり抜けてしまいます)、ここ数日どういう風に判定しているのかをログを取って調べてみました。すると、 日本語は2gramで処理しているので英語に比べてトークンの取りうる範囲が広い 日本語のメールはクリーンなメールに対してスパムの学習量が少 ...
# (スコア:3786)
Invalid Text英数字しか処理していないと「未承諾広告※」と書いてあっても素通りしてしまうので、英数字以外の処理についても考えてみました。色々と調べてみると、形態素解析をするとデータベースのサイズは小さくなるものの精度はそれほど上がらず(解析の精度が悪いと下がることも)速度も遅くなるようです。 ...
# (スコア:3537)
なるほど。 こんな感じでどうでしょう。 Boolean @Junk(String?) 第一引数は、空白区切りのトークンのリストで、アドレスにそのトークンが含まれるとホワイトだとみなされます。 例えばホワイトリストが少ないならば、 @Junk('@example.com') @Junk('@example.com @foo.jp') のように直接書けますし、別ファイル ...
# (スコア:3231)
いまさらながらヘッダのエンコードとデコードに、隣り合うトークンがRFC2047でエンコードされているときの間の空白文字の処理がおかしいというバグがあったので直しました。使う変数名が間違っているというあまりにもお間抜けなバグでした… ...
# (スコア:3231)
アドレスを補完するときには、今までは表示名を空白でトークンに区切ったときの各トークンの先頭、アドレスの先頭、ドメイン名の先頭にマッチした場合に補完されるようにしてありました。 アドレスのほうをちょっといじって、アドレスを記号(@._-)でトークンに区切ったときの各トークンの先頭にマッチしたとき ...
# (スコア:3164)
この日からカンクンに移動しました。リゾートっぽさとしてはやはりカンクンの方が上ですね。でもホテルのサービスはいまいち。 ...
# (スコア:3164)
なんだかあまり進んでいないスパムフィルタを。試しにPOP3で有効にして試してみたところ、効いていないことはなさそうな雰囲気です。今は英語以外のトークンをすべて無視しているので、まだ有効性の検証はできないのですけど。当たり前ですが、受信速度はかなり遅くなります。使えるかどうかというと微妙な感じ ...
# (スコア:3046)
# (スコア:10000)