[SIMILAR] WITH 5441 パム WITH 3985 近多 WITH 2678 タ( WITH 2385 学習 WITH 2063 ムフ WITH 1944 スパ WITH 1739 クン WITH 964 本語 WITH 761 範囲 WITH 709 語の WITH 641 友達 WITH 622 ムは WITH 558 ィル WITH 558 英語 WITH 534 ルタ WITH 534 完全 WITH 367 日本 WITH 317 フィ WITH 308 のス WITH 265 トー WITH 239 ーク WITH 223 最近 WITH 194 メー WITH 109 ール WITH 1 [ WITH 1 q3 WITH 1 ] WITH 1 ( WITH 1 10 WITH 1 ) WITH 1 しば WITH 1 ばら の検索結果 157 件中 1 - 10 件目 (0.151433065 秒)
しばらく使っていますが、英語のスパムはほぼ完全に弾いてくれますが、日本語のスパムは通してしまうものがあります。特に最近多い友達からのメールを装ったものとか。日本語のスパムは学習した数も少ないし、トークンの取りうる範囲も広いのでもっと学習させないとだめなのかもしれません。 ...
英数字しか処理していないのになかなか正しい判定をするので、ログを取ってどんなトークンがヒットしているのかを調べて見たところ、プロジェクト名とかメールアドレスのユーザ名、ML経由だと"fml"とか"STABLE"などのヘッダに書かれた文字がクリーンとみなされていることが発覚しました。対するスパムは変な単語 ...
# (スコア:8003)
Invalid TextIMAP4でもスパムフィルタを使えるようにして、スパムを1000通程度、クリーンなメールを2000通程度学習させてから普段使っているメールアカウントで試してみたところ結構正しく判定してびっくりです。 ...
# (スコア:7610)
自動振り分け処理中はロックをこまめにはずすようにしました。 また、スパムフィルタ自身がホワイトリストとブラックリストを持てるようにしたため、@Junkで個別にホワイトリストやブラックリストを指定できる必要はないであろうと考え、@Junkの動作を変えました。新しい書式は、 Boolean @Junk(Boolean?, Bool ...
# (スコア:7392)
Invalid Text英数字しか処理していないと「未承諾広告※」と書いてあっても素通りしてしまうので、英数字以外の処理についても考えてみました。色々と調べてみると、形態素解析をするとデータベースのサイズは小さくなるものの精度はそれほど上がらず(解析の精度が悪いと下がることも)速度も遅くなるようです。 ...
# (スコア:7278)
最近PDFを使ったスパムが多いなと思っていたら、台頭するPDFスパム--画像スパムに代わリ新たな脅威に、大半のスパム・フィルタは検知できずなんていう記事も出ていました。 QMAIL3のスパムフィルタでもxdoc2txtを使ってPDFの中の文字列も判定条件に含めるようにすれば防げるかもしれません。 ...
# (スコア:7160)
最近特にFromが自分のアドレスになっているスパムが増えてきました。 QMAIL3ではアカウントの設定で[自分のアドレスからのメールは送信済みとみなす]にチェックを入れると、Fromが自分のアドレスの場合には自動的に送信済みフラグが立って既読になります。これは、自分が送ったメールをBccで自分に送っている場 ...
# (スコア:7153)
Invalid TextIMAP4のスパムフィルタはスパムだと判定するとサーバ上でメッセージを移動させようとするため、Junkフォルダをローカルフォルダにするとうまく動かないのですが、振り分けルールと統合するとこの問題も解決できそうです。 学習周りがなんとかなれば良いのですが、@Junk以外でクリーンと判定されたメ ...
# (スコア:7099)
スパムフィルタについて。 Gmailのスパムフィルタは甘めに設定されているのか、結構な数のスパムが通り抜けてしまいます。スパムじゃないメールがスパムと判定されるのを避けるためなのだと思いますが、もう少し厳しくして欲しいところです。 ...
# (スコア:7089)
学習させなおして使っているスパムフィルタですが、まだ時々通り抜けてしまうときもありますが、以前よりはかなり日本語スパムの判定精度が良くなりました。 ...
# (スコア:7020)
# (スコア:10000)