トップ 最新

#3 [全文検索]

検索方法

並べ替え: 表示件数: 検索条件の書式:

[SIMILAR] WITH 1739 クン WITH 1726 分割 WITH 1499 頻度 WITH 1268 イセ WITH 1263 タベ WITH 1153 手軽 WITH 1117 ィル WITH 1069 ルタ WITH 1063 単語 WITH 904 イジ WITH 903 ベイ WITH 856 両方 WITH 709 語の WITH 635 フィ WITH 606 記録 WITH 578 ジア WITH 569 必要 WITH 538 が必 WITH 482 本語 WITH 456 ンフ WITH 413 ベー WITH 334 セン WITH 332 デー WITH 265 トー WITH 239 ーク WITH 222 ータ WITH 201 アン WITH 192 ンス WITH 183 日本 WITH 142 ライ WITH 140 ース WITH 57 です の検索結果 167 件中 1 - 10 件目 (0.126410894 秒)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 次へ

2004-12-04 [類似検索]

[Q3] SPAMフィル

イジンフィルタを書くとすると何が必要になるかなと考えてみました。 まずは日本語のトークン分割するのには、MeCabが使えそうです単語の現れる頻度記録しておくのには何らかのデータベース必要ですが、これはQDBMがAPIもお手軽で速そうなので良さそうです両方ともライセンスはLGPLです。 ...

#  (スコア:10000)

2005-01-15 [類似検索]

[Q3] スパムフィルタ (4)

Invalid Text英数字しか処理していないと「未承諾広告※」と書いてあっても素通りしてしまうので、英数字以外の処理についても考えてみました。色々と調べてみると、形態素解析をするとデータベースのサイズは小さくなるものの精度はそれほど上がらず(解析の精度が悪いと下がることも)速度も遅くなるようです。 ...

#  (スコア:5616)

2008-01-08 [類似検索]

[Q3] スパムフィルタのトークン分割

最近、英語の文章をCamelCase化してSubjectや本文を書いたスパムが多くなりました。今のトークン分割方法だとまとめて一つのトークンになってしまうために初出のトークンと見なされて、スパムと判定されないことが多かったので、このような場合には、CamelとCaseにトークン分割するようにしました。 ...

#  (スコア:5388)

2003-10-09 [類似検索]

POPFile

POP3プロキシとして動作するベイジンフィルタを使ったspamフィルです。学習をWebUIから行えるのがお手軽で良さそうな雰囲気です。 ...

#  (スコア:5361)

2005-01-09 [類似検索]

[Q3] スパムフィル

なんだかあまり進んでいないスパムフィルタを。試しにPOP3で有効にして試してみたところ、効いていないことはなさそうな雰囲気です。今は英語以外のトークンをすべて無視しているので、まだ有効性の検証はできないのですけど。当たり前ですが、受信速度はかなり遅くなります。使えるかどうかというと微妙な感じ ...

#  (スコア:5193)

2004-08-10 [類似検索]

Gmail (5)

ィルタについて。 フィルタはTo, From, Subjectと本文に指定した文字列がマッチするかどうかしか指定できません。また、マッチ自体も完全マッチでも正規表現でもなく、GoogleでWeb検索をしたときのように適当にトークンに分解されて検索されるようです。 Gmailを気に入るかどうかはこの辺の感覚が自分に合うか ...

#  (スコア:5192)

2005-01-29 [類似検索]

[Q3] スパムフィルタ (10)

しばらく使っていますが、英語のスパムはほぼ完全に弾いてくれますが、日本語のスパムは通してしまうものがあります。特に最近多い友達からのメールを装ったものとか。日本語のスパムは学習した数も少ないし、トークンの取りうる範囲も広いのでもっと学習させないとだめなのかもしれません。 ...

#  (スコア:5107)

2005-03-27 [類似検索]

[Q3] スパムフィルタ再び (2)

試しに以下を変えてみました。 いわゆる全角カタカナと全角英数字は2gramで分割せずに連続しているところまででひとつのトークンとするようにしました ひらがなや句読点などを含むトークンは無視するようにしました 同じスパム度・クリーン度を持つトークンをランダムに入れ替えて、判定対象となる15トークンに ...

#  (スコア:5002)

2004-02-25 [類似検索]

spamフィル

Invalid Textサーバ側にベイジアン系のスパムフィルタを入れた場合、辞書の鍛錬が面倒です。下手をするとコマンドラインから鍛えてあげる必要があったり、良くてもブラウザを使って誤認識したメッセージを選んでチェックしたりする必要があったりします。 クライアントにフィルタを組み込むと楽ですけど、複数の ...

#  (スコア:4992)

2005-01-13 [類似検索]

[Q3] スパムフィルタ (3)

英数字しか処理していないのになかなか正しい判定をするので、ログを取ってどんなトークンがヒットしているのかを調べて見たところ、プロジェクト名とかメールアドレスのユーザ名、ML経由だと"fml"とか"STABLE"などのヘッダに書かれた文字がクリーンとみなされていることが発覚しました。対するスパムは変な単語 ...

#  (スコア:4814)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 次へ