2. 1 はじめに
日々データが蓄積されていく CGM サービスにおいてドキュメントの整理・分類をすべて人手で行う
ことは限界があるため、コンピュータによる精度の高い自動分類が求められている。
自動分類の世界では実装の容易さから Naïve Bayes でのアプローチが一般的となっているが、
2003 年に MIT より発表された Complement Naïve Bayes が精度の優秀さで注目されている。
Naïve Bayes と比較してどの程度の精度向上が見られるのか、検証を行った。
まず Naïve Bayes、Multinomial Naïve Bayes、Complement Naïve Bayes それぞれのアルゴ
リズムについて簡単に解説した後、精度の比較を行う。
2 Naïve Bayes について
まず、Naïve Bayes のアルゴリズムの仕組みと、Naïve Bayes を用いたテキスト自動分類の精度に
ついて確認をする。
2.1 アルゴリズムの内容
以下、Naïve Bayes についての解説を wikipedia より引用する。
Naïve Bayes とは、強い(単純な)独立性仮定と共にベイズの定理を適用すること
に基づいた単純な確率的分類器である。その元となる確率モデルは、より正確に言
えば「独立特徴モデル; independent feature model」である。
確率モデルの性質に基づき、単純ベイズ分類器は教師あり学習の設定で効率的に訓
練可能である。多くの実用例では、単純ベイズ分類器のパラメータ推定には最尤法
が使われる。つまり、単純ベイズ分類器を使用するにあたって、ベイズ確率やその
他のベイズ的手法を使う必要はない。
設計も仮定も非常に単純であるにも関わらず、単純ベイズ分類器は複雑な実世界の
状況において、期待よりもずっとうまく働く。近頃、ベイズ分類問題の注意深い解
析によって、単純ベイズ分類器の効率性に理論的理由があることが示された[1]。単
純ベイズ分類器の利点は、分類に不可欠なパラメータ(変数群の平均と分散)を見
積もるのに、訓練例データが少なくて済む点である。変数群は独立であると仮定さ
れているため、各クラスについての変数の分散だけが必要であり、共分散行列全体
は不要である。[1]
ベイズの定理は以下のような形になっている。
P ( B | A) P( A)
P( A | B )
P( B)
B が発生したときに A である確率(P(A|B))を求めたい場合、右式のように変形をし、A が発生した
時に B である確率(P(B|A))、A の数、B の数、の3種の情報を元に計算を行う。
これを文書分類に当てはめると、以下のような式となる。
x は文書ドキュメント、c は分類クラスとなる。
P ( x | c ) P (c )
P(c | x)
P ( x)
2
3. ただし、ある分類クラス c の時にある文書ドキュメント x が表れる確率はデータが膨大になること、す
べての文書群を網羅することが事実上不可能なことから正確には算出することはできないため、近
似値を用いることになる。
もっとも多く用いられるのが、訓練ドキュメント中に含まれている単語の数とあるドキュメント中に含ま
れている単語の数との比較により、確率を算出する方法である。この際、ドキュメント中の単語の共
起性は考慮せず、単語同士はお互い独立しているという仮定で計算をすることが一般的である。
(たとえば、「歌手」「さだまさし」という語がドキュメント中に共起されたとしても、相互の語との意味上
文脈上の関係性は考慮しない、ということである)。
結果、以下のような式が Naïve Bayes には用いられる。
K
P( xi | ck ) p ( xij | ck )
j 1
xiはあるドキュメント、xij はドキュメントxiに含まれている単語、ck は分類クラスである。
クラス ck であるときに単語 xij が出現する確率の総乗が、ck であるときにドキュメントxiである確率で
ある。あとは上記式をベイズの定理に当てはめればよい。
2.2 一般的な特徴
一般的に、以下が Naïve Bayes のメリットと言われている。
アルゴリズムが複雑でなく実装が容易
訓練データが少なくてすむ
デメリットとして単語の共起性など各特徴量間の依存性をまったく考慮できないことがあげられ
る。
しかし、必要十分な精度が得られることから、一般的に広く用いられているアルゴリズムである。
3 Multinomial Naïve Bayes について
Multinomial Naïve Bayes (多項単純ベイズ)[2]は、Naïve Bayes において文書分類をする場
合に良く用いられるモデルである。他に有名なものに Bernoulli モデルもあるが、Complement
Naïve Bayes が Multinomial Naïve Bayes をベースとしているため、ここでは触れない。
3.1 アルゴリズムの内容
Naïve Bayes からの変形過程については詳しくは触れないが、Multinomial Naïve Bayes によ
るクラス分類は以下のような式で表される。以下の式は Complement Naïve Bayes の論文の式よ
り引用したものになる。
arg max c[log p( c ) fi log ci ] [3]
i
はクラス C である確率、f は文書ベクトル(f1,f2,・・・・・・fi)で fi はある語が文書 i 内で発生する回
c
数。 ci はクラス C の任意の文書のある語を選んだときその語が i である確率となる。
ドキュメント数やワード数の多少によってのバイアスを極小化するために、それぞれの値を対数化し
ている。
また、ドキュメント中の単語の発生数も評価対象としているところに Bernoulli モデルとの差がある。
Complement Naïve Bayes の論文では、以下のような形で Smoothing Parameter である を
3
4. 与えることで値の補正を行ったものを採用している。今回の実装でも、こちらに習った。
^ Nci i
ci
Nc
^ ^
arg max c[log p ( c ) fi log ci ]
i
4 Complement Naïve Bayes
Complement Naïve Bayes(補集合単純ベイズ)は 2003 年に MIT の Jason D. M. Rennie に
より提案された手法である。[3]
既存の Naïve Bayes が「あるクラスに属する文書・語」の確率によりクラス推定を行っていたのに対
し、Complement Naïve Bayes では補集合の概念に基づき「あるクラスに属さない文書・語」の確
率を算出し、値が一番低いものを用いてクラス推定を行う。
文書分類の場合、語やドキュメントの出現数は各クラスによって差があるため、文書数が多いクラス
では ci が大きくなりすぎるというバイアスが発生するケースがある。
そのため、補集合を扱うことによりバイアスを抑えることを目的としたアプローチとなる。
日本では、株式会社プリファードインフラストラクチャー社が「はてなブックマーク」のブックマークア
イテムの自動カテゴリー分類を実装する際に当アルゴリズムを採用したことが有名である。
4.1 アルゴリズムの内容
3.1.に記載した Multinomial Naïve Bayes から、補集合の値を用いるよう変形がされている。
~
^~ N ci i
ci ~
N c
^~
arg max c[log p ( c ) fi log ci ]
i
^~
ci は、あるクラスcで「ない時」に語 i が発生する確率、となる。
~ ~
ちなみに N c はあるクラスc以外のドキュメント中の数、 N ci はあるクラス c 以外のドキュメントに出
現する語 i の数となる。
4.2 一般的な特徴
Complement Naïve Bayes は捕集合を用いることで各クラスのバイアスを減らすため、多くクラス
が存在する際には有効に働く。
しかし、クラスが二つしか存在しない場合は既存の Multinomial Naïve Bayes とアルゴリズム的
にほとんど差がなく、有効には働かない。
5 比較(Multinomial Naïve Bayes Complement Naïve Bayes)
文書分類において、Multinomial Naïve Bayes と Complement Naïve Bayes にどの程度の精
度の差が出るか、検証を行った。
4
7. 8 参考文献・URL
[1]http://ja.wikipedia.org/wiki/%E5%8D%98%E7%B4%94%E3%83%99%E3%82%A4%E
3%82%BA%E5%88%86%E9%A1%9E%E5%99%A8
[2] A. Berger. 「Error-correcting output coding for text classification.」 (1999)
http://www.cs.cmu.edu/~aberger/pdf/ecoc.pdf
[3] Jason D. M. Rennie. 「 Tackling the Poor Assumptions of Naive Bayes Text
Classifiers」(2003)
http://people.csail.mit.edu/jrennie/papers/icml03-nb.pdf
[4] http://vision.ameba.jp/
7