はじめに テキスト分類でよく使われるNaive Bayesにはいくつかの厳しい仮定や条件があり、それによって性能が落ちてしまっている。 経験則をいれたりして性能を向上させたTWCNB分類器を試してみる。 多項モデルによるNaiveBayes l_MNB(d) = argmax_c{ log P(c) + Σ_w{f_w * log P(w|c) } } l_MNB(d) : 多項モデルでの文書dの予測クラスラベル P(c) : クラスcである確率 f_w : 文書での単語wの出現頻度 P(w|c) : クラスcでの単語wの出現確率 P(w|c)の推定値=(N_cw + α_w) / (Σ_w {N_cw} + 単語の種類数) N_cw : クラスcで単語wが出現する訓練文書数 α_w : パラメータ(=1) 【メモ】P(c)の推定値=(N_c + α_c) / (Σ_c {N_c} + ク