2004-12-04 [長年日記]

[Q3] SPAMフィルタ

ベイジアンフィルタを書くとすると何が必要になるかなと考えてみました。

まずは日本語のトークンを分割するのには、MeCabが使えそうです。単語の現れる頻度を記録しておくのには何らかのデータベースが必要ですが、これはQDBMがAPIもお手軽で速そうなので良さそうです。両方ともライセンスはLGPLです。

[]