[SIMILAR] WITH 7748 textmecab WITH 5713 態素 WITH 5293 素解 WITH 4525 estraier WITH 2218 換性 WITH 2211 形態 WITH 1585 互換 WITH 1225 解析 WITH 910 デッ WITH 431 ンデ WITH 377 invalid WITH 287 クス WITH 284 必要 WITH 126 イン WITH 119 ック WITH 1 hyper WITH 1 1 WITH 1 . WITH 1 を使 WITH 1 使っ WITH 1 って WITH 1 て形 WITH 1 析も WITH 1 もで WITH 1 でき WITH 1 きる WITH 1 るよ WITH 1 よう WITH 1 うに WITH 1 にな WITH 1 なっ WITH 1 った の検索結果 251 件中 1 - 10 件目 (0.250699663 秒)
Invalid TextMecabを使って形態素解析もできるようになったそうです。インデックスに互換性がなくなったので作り直す必要があるようです。 ...
どこかの論文(出所がわからなくなってしまいました)を読んだときに形態素解析するとコーパスが小さいときには判定精度が上がるが、コーパスが大きくなったときには2gramの方が判定精度が上がるという実験結果があったので形態素解析するほうは試していなかったのですが、試して見る価値はあるかも知れませんね ...
# (スコア:6548)
ここ数日の結果だと、なぜか日本語SPAMの排除率は上がったのですが、GB2312やらBIG5系のSPAMが目だって残っている気がします。 形態素解析の際はお声掛けください、比較的容易にSPAMは用意できると思いますので^^; ...
# (スコア:6548)
Invalid Text英数字しか処理していないと「未承諾広告※」と書いてあっても素通りしてしまうので、英数字以外の処理についても考えてみました。色々と調べてみると、形態素解析をするとデータベースのサイズは小さくなるものの精度はそれほど上がらず(解析の精度が悪いと下がることも)速度も遅くなるようです。 ...
# (スコア:6540)
以前書いたように、QMAIL3の全文検索エンジンとしてHyper Estraierを使ってみました。試してみて感じたことは、 セットアップが楽 Namazuはperlを入れたり環境変数を設定したりしなくてはいけなくてそこそこ面倒だった気がするのですが、Hyper Estraierアーカイブを展開するだけなので楽です。 インデックスは少 ...
# (スコア:5126)
Invalid Text試してみようと思っていたら既に試された方がいました。 <section name="FullTextSearch"> <key name="Command">estcmd search -ic Shift_JIS -vu -sf -max -1 "$index" "$condition"</key> <key name="IndexCommand">estcmd gather -cl -fm -cm -sd "$index" "$msg"</key> </section> でうまくいく ...
# (スコア:3729)
QMAIL3とHyper Estraierの組み合わせでインデックスを作っているときに、属性でも検索できるようにするツールをS.Kohnoさんが作ってくれました。 Hyper Estraierの属性検索を使いたいという話はBTSにも上がっていたものの、どういう指定の仕方がいいのか思いつかないでいたのですが、これはいいですね。 ...
# (スコア:3404)
現在のインデックス(*.msglistとcache.*)は以下の点でいまいちなので形式を変えようと思っています。 データのサイズなどがcache.box中にバイナリで書かれているので、(一回クラッシュして*.msglistとcache.*の整合が取れなくなった場合などに)間違ったところからこのデータを読んでしまうと割とすぐにクラ ...
# (スコア:2232)
2.9.6から2.9.7になった時にメッセージボックスの形式が変わったので、自動で新しい形式に変換するコードが入っていたのですが、だいぶ経ったので削除しました。これにより、2.9.6以前からの直接のバージョンアップができなくなりました。 ...
# (スコア:2194)
長らく0.26を使っていましたが、svn swしたときにちゃんとスイッチしてくれないことがあるなど幾つか怪しいところがあったので、0.31.1にアップデートしました。 レポジトリのDBに互換性がないようなので、一回ダンプしてレポジトリを作成しなおしてからインポートする必要がありましたが、問題なく動いているよ ...
# (スコア:2194)
# (スコア:10000)