[SIMILAR] WITH 6801 パム WITH 4127 ムフ WITH 2430 スパ WITH 2215 gmail WITH 1117 ィル WITH 1069 ルタ WITH 1066 判定 WITH 767 定さ WITH 635 フィ WITH 334 設定 WITH 308 のス WITH 298 結構 WITH 194 メー WITH 109 ール WITH 1 ( WITH 1 4 WITH 1 ) WITH 1 タに WITH 1 につ WITH 1 つい WITH 1 いて WITH 1 て。 WITH 1 。gm WITH 1 タは WITH 1 は甘 WITH 1 甘め WITH 1 めに WITH 1 に設 WITH 1 され WITH 1 れて WITH 1 てい WITH 1 いる の検索結果 305 件中 1 - 10 件目 (0.324383111 秒)
スパムフィルタについて。 Gmailのスパムフィルタは甘めに設定されているのか、結構な数のスパムが通り抜けてしまいます。スパムじゃないメールがスパムと判定されるのを避けるためなのだと思いますが、もう少し厳しくして欲しいところです。 ...
最近、英語の文章をCamelCase化してSubjectや本文を書いたスパムが多くなりました。今のトークン分割方法だとまとめて一つのトークンになってしまうために初出のトークンと見なされて、スパムと判定されないことが多かったので、このような場合には、CamelとCaseにトークンを分割するようにしました。 ...
# (スコア:9555)
そういえば、ひらがなをトークン化の対象からはずしてからクリーン8000通、スパム4000通くらい学習させていますが、トークンDBのサイズは12MB程度で成長が止まったようです。おおよそありそうなトークンは出尽くしたということでしょうか。これくらいのサイズだとそこそこ実用的な速度で動くのではないかと思い ...
# (スコア:9496)
サーバ側にもスパムフィルタがあった場合、そこでスパムと判定されたメールは即座にスパム扱いしてしまいたいところです。そんな場合には、以下のようにします。ここではサーバ側のスパムフィルタでスパムと判定されたメールには、 X-Spam-Flag: YES というヘッダが付くものとします。 アカウントの設定でスパム ...
# (スコア:9482)
PDFスパムが多くなってスパムフィルタをすり抜けてくるので、xdoc2txtを使って添付ファイルの中のテキストもスキャンできるようにしてみました。PDFとMSオフィス系のドキュメントをスキャンします。 設定方法などは、ドキュメントのスパムフィルタの項に書いてあります。 私のところでは、これでPDFスパムはほと ...
# (スコア:9435)
試しに以下を変えてみました。 いわゆる全角カタカナと全角英数字は2gramで分割せずに連続しているところまででひとつのトークンとするようにしました ひらがなや句読点などを含むトークンは無視するようにしました 同じスパム度・クリーン度を持つトークンをランダムに入れ替えて、判定対象となる15トークンに ...
# (スコア:9424)
振り分けルールの適用は上から順番です。 ホワイトリストの処理を今のやり方でやろうとするとこんな感じでしょうか。もはやほとんどの人には書けない気もしますけど… white.macroというファイルで@Whiteという関数を定義します。 --- white.macro --- @Defun('White', @Contain(From, '@example.com'), @Contai ...
# (スコア:9395)
しばらく使っていますが、英語のスパムはほぼ完全に弾いてくれますが、日本語のスパムは通してしまうものがあります。特に最近多い友達からのメールを装ったものとか。日本語のスパムは学習した数も少ないし、トークンの取りうる範囲も広いのでもっと学習させないとだめなのかもしれません。 ...
# (スコア:9394)
学習させなおして使っているスパムフィルタですが、まだ時々通り抜けてしまうときもありますが、以前よりはかなり日本語スパムの判定精度が良くなりました。 ...
# (スコア:9329)
Invalid TextIMAP4でもスパムフィルタを使えるようにして、スパムを1000通程度、クリーンなメールを2000通程度学習させてから普段使っているメールアカウントで試してみたところ結構正しく判定してびっくりです。 ...
# (スコア:9328)
# (スコア:10000)