トップ 最新

#3 [全文検索]

検索方法

並べ替え: 表示件数: 検索条件の書式:

[SIMILAR] WITH 4759 編( WITH 3479 クン WITH 2667 外編 WITH 2376 番外 WITH 1992 リゾ WITH 1293 ゾー WITH 873 カン WITH 650 ホテ WITH 484 テル WITH 446 ビス WITH 424 ンク WITH 408 ービ WITH 388 移動 WITH 238 サー WITH 139 ート WITH 1 ( WITH 1 4 WITH 1 ) WITH 1 この WITH 1 の日 WITH 1 日か WITH 1 から WITH 1 らカ WITH 1 ンに WITH 1 に移 WITH 1 動し WITH 1 しま WITH 1 まし WITH 1 した WITH 1 た。 WITH 1 。リ WITH 1 トっ の検索結果 160 件中 1 - 10 件目 (0.21750917 秒)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 次へ

2003-09-21 [類似検索]

外編 (4)

この日かカンクン移動しましたリゾートっぽさとしてはやはりカンクンの方が上ですね。でもホテルのサービスはいまいち。 ...

#  (スコア:10000)

2003-09-19 [類似検索]

外編 (2)

ホテル前のビーチなのですが、透明度が高くて、水に入ると足元に魚が泳いでいます(写真じゃ見えませんけど)。 3年ぶりのダイビングだったので、ボートで行く前にここでリフレッシュのトレーニングを受けました。 ...

#  (スコア:8074)

2003-09-18 [類似検索]

外編 (1)

コズメルのホテル前です。割とこじんまりとした感じでした。 ...

#  (スコア:8072)

2005-03-26 [類似検索]

[Q3] スパムフィルタ再び

日本語スパムの判定精度があまり上がってこないので(半分くらいすり抜けてしまいます)、ここ数日どういう風に判定しているのかをログを取って調べてみました。すると、 日本語は2gramで処理しているので英語に比べてトークンの取りうる範囲が広い 日本語のメールはクリーンなメールに対してスパムの学習量が少 ...

#  (スコア:4676)

2008-01-08 [類似検索]

[Q3] スパムフィルタのトークン分割

最近、英語の文章をCamelCase化してSubjectや本文を書いたスパムが多くなりました。今のトークン分割方法だとまとめて一つのトークンになってしまうために初出のトークンと見なされて、スパムと判定されないことが多かったので、このような場合には、CamelとCaseにトークンを分割するようにしました。 ...

#  (スコア:4676)

2005-03-27 [類似検索]

[Q3] スパムフィルタ再び (2)

試しに以下を変えてみました。 いわゆる全角カタカナと全角英数字は2gramで分割せずに連続しているところまででひとつのトークンとするようにしました ひらがなや句読点などを含むトークンは無視するようにしました 同じスパム度・クリーン度を持つトークンをランダムに入れ替えて、判定対象となる15トークンに ...

#  (スコア:4676)

2006-10-31 [類似検索]

[Q3] アドレスの補完

アドレスを補完するときには、今までは表示名を空白でトークンに区切ったときの各トークンの先頭、アドレスの先頭、ドメイン名の先頭にマッチした場合に補完されるようにしてありました。 アドレスのほうをちょっといじって、アドレスを記号(@._-)でトークンに区切ったときの各トークンの先頭にマッチしたとき ...

#  (スコア:4676)

2005-07-05 [類似検索]

[Q3] スパムフィルタのDBのサイズ

そういえば、ひらがなをトークン化の対象からはずしてからクリーン8000通、スパム4000通くらい学習させていますが、トークンDBのサイズは12MB程度で成長が止まったようです。おおよそありそうなトークンは出尽くしたということでしょうか。これくらいのサイズだとそこそこ実用的な速度で動くのではないかと思い ...

#  (スコア:4676)

2005-06-29 [類似検索]

ツッコミ!! (snak)

なるほど。 こんな感じでどうでしょう。 Boolean @Junk(String?) 第一引数は、空白区切りのトークンのリストで、アドレスにそのトークンが含まれるとホワイトだとみなされます。 例えばホワイトリストが少ないならば、 @Junk('@example.com') @Junk('@example.com @foo.jp') のように直接書けますし、別ファイル ...

#  (スコア:4676)

2005-01-15 [類似検索]

[Q3] スパムフィルタ (4)

Invalid Text英数字しか処理していないと「未承諾広告※」と書いてあっても素通りしてしまうので、英数字以外の処理についても考えてみました。色々と調べてみると、形態素解析をするとデータベースのサイズは小さくなるものの精度はそれほど上がらず(解析の精度が悪いと下がることも)速度も遅くなるようです。 ...

#  (スコア:4676)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 次へ