Complement Naive Bayesの検証

研究課題：Complement Naïve Bayes の検証

新規開発局プログラマ
大平哲也

1

1 はじめに
日々データが蓄積されていく CGM サービスにおいてドキュメントの整理・分類をすべて人手で行う
ことは限界があるため、コンピュータによる精度の高い自動分類が求められている。
自動分類の世界では実装の容易さから Naïve Bayes でのアプローチが一般的となっているが、
2003 年に MIT より発表された Complement Naïve Bayes が精度の優秀さで注目されている。
Naïve Bayes と比較してどの程度の精度向上が見られるのか、検証を行った。

まず Naïve Bayes、Multinomial Naïve Bayes、Complement Naïve Bayes それぞれのアルゴ
リズムについて簡単に解説した後、精度の比較を行う。

2 Naïve Bayes について
まず、Naïve Bayes のアルゴリズムの仕組みと、Naïve Bayes を用いたテキスト自動分類の精度に
ついて確認をする。
2.1 アルゴリズムの内容
以下、Naïve Bayes についての解説を wikipedia より引用する。
Naïve Bayes とは、強い（単純な）独立性仮定と共にベイズの定理を適用すること
に基づいた単純な確率的分類器である。その元となる確率モデルは、より正確に言
えば「独立特徴モデル; independent feature model」である。

確率モデルの性質に基づき、単純ベイズ分類器は教師あり学習の設定で効率的に訓
練可能である。多くの実用例では、単純ベイズ分類器のパラメータ推定には最尤法
が使われる。つまり、単純ベイズ分類器を使用するにあたって、ベイズ確率やその
他のベイズ的手法を使う必要はない。

設計も仮定も非常に単純であるにも関わらず、単純ベイズ分類器は複雑な実世界の
状況において、期待よりもずっとうまく働く。近頃、ベイズ分類問題の注意深い解
析によって、単純ベイズ分類器の効率性に理論的理由があることが示された[1]。単
純ベイズ分類器の利点は、分類に不可欠なパラメータ（変数群の平均と分散）を見
積もるのに、訓練例データが少なくて済む点である。変数群は独立であると仮定さ
れているため、各クラスについての変数の分散だけが必要であり、共分散行列全体
は不要である。[1]

ベイズの定理は以下のような形になっている。

P ( B | A) P( A)
P( A | B )
P( B)
B が発生したときに A である確率（P(A|B)）を求めたい場合、右式のように変形をし、A が発生した
時に B である確率（P(B|A)）、A の数、B の数、の３種の情報を元に計算を行う。

これを文書分類に当てはめると、以下のような式となる。
x は文書ドキュメント、c は分類クラスとなる。

P ( x | c ) P (c )
P(c | x) 
P ( x)

2

ただし、ある分類クラス c の時にある文書ドキュメント x が表れる確率はデータが膨大になること、す
べての文書群を網羅することが事実上不可能なことから正確には算出することはできないため、近
似値を用いることになる。
もっとも多く用いられるのが、訓練ドキュメント中に含まれている単語の数とあるドキュメント中に含ま
れている単語の数との比較により、確率を算出する方法である。この際、ドキュメント中の単語の共
起性は考慮せず、単語同士はお互い独立しているという仮定で計算をすることが一般的である。
（たとえば、「歌手」「さだまさし」という語がドキュメント中に共起されたとしても、相互の語との意味上
文脈上の関係性は考慮しない、ということである）。

結果、以下のような式が Naïve Bayes には用いられる。
K
P( xi | ck )   p ( xij | ck )
j 1
ｘｉはあるドキュメント、xij はドキュメントｘｉに含まれている単語、ck は分類クラスである。
クラス ck であるときに単語 xij が出現する確率の総乗が、ck であるときにドキュメントｘｉである確率で
ある。あとは上記式をベイズの定理に当てはめればよい。

2.2 一般的な特徴
一般的に、以下が Naïve Bayes のメリットと言われている。
 アルゴリズムが複雑でなく実装が容易
 訓練データが少なくてすむ

デメリットとして単語の共起性など各特徴量間の依存性をまったく考慮できないことがあげられ
る。
しかし、必要十分な精度が得られることから、一般的に広く用いられているアルゴリズムである。

3 Multinomial Naïve Bayes について
Multinomial Naïve Bayes (多項単純ベイズ)[2]は、Naïve Bayes において文書分類をする場
合に良く用いられるモデルである。他に有名なものに Bernoulli モデルもあるが、Complement
Naïve Bayes が Multinomial Naïve Bayes をベースとしているため、ここでは触れない。

Naïve Bayes からの変形過程については詳しくは触れないが、Multinomial Naïve Bayes によ
るクラス分類は以下のような式で表される。以下の式は Complement Naïve Bayes の論文の式よ
り引用したものになる。

arg max c[log p( c )   fi log ci ] [3]
i

はクラス C である確率、f は文書ベクトル（f1,f2,・・・・・・fi）で fi はある語が文書 i 内で発生する回
c
数。 ci はクラス C の任意の文書のある語を選んだときその語が i である確率となる。
ドキュメント数やワード数の多少によってのバイアスを極小化するために、それぞれの値を対数化し
ている。
また、ドキュメント中の単語の発生数も評価対象としているところに Bernoulli モデルとの差がある。

Complement Naïve Bayes の論文では、以下のような形で Smoothing Parameter であるを

3

与えることで値の補正を行ったものを採用している。今回の実装でも、こちらに習った。
^ Nci  i
ci 
Nc 
^  ^
arg max c[log p ( c )   fi log ci ]
i

4 Complement Naïve Bayes
Complement Naïve Bayes（補集合単純ベイズ）は 2003 年に MIT の Jason D. M. Rennie に
より提案された手法である。[3]
既存の Naïve Bayes が「あるクラスに属する文書・語」の確率によりクラス推定を行っていたのに対
し、Complement Naïve Bayes では補集合の概念に基づき「あるクラスに属さない文書・語」の確
率を算出し、値が一番低いものを用いてクラス推定を行う。

文書分類の場合、語やドキュメントの出現数は各クラスによって差があるため、文書数が多いクラス
では ci が大きくなりすぎるというバイアスが発生するケースがある。
そのため、補集合を扱うことによりバイアスを抑えることを目的としたアプローチとなる。

日本では、株式会社プリファードインフラストラクチャー社が「はてなブックマーク」のブックマークア
イテムの自動カテゴリー分類を実装する際に当アルゴリズムを採用したことが有名である。

3.1.に記載した Multinomial Naïve Bayes から、補集合の値を用いるよう変形がされている。
~
^~ N ci i
ci  ~
N c
 ^~
arg max c[log p ( c )   fi log ci ]
i
^~
ci は、あるクラスｃで「ない時」に語 i が発生する確率、となる。
~ ~
ちなみに N c はあるクラスｃ以外のドキュメント中の数、 N ci はあるクラス c 以外のドキュメントに出
現する語 i の数となる。

4.2 一般的な特徴
Complement Naïve Bayes は捕集合を用いることで各クラスのバイアスを減らすため、多くクラス
が存在する際には有効に働く。
しかし、クラスが二つしか存在しない場合は既存の Multinomial Naïve Bayes とアルゴリズム的
にほとんど差がなく、有効には働かない。

5 比較（Multinomial Naïve Bayes Complement Naïve Bayes）
文書分類において、Multinomial Naïve Bayes と Complement Naïve Bayes にどの程度の精
度の差が出るか、検証を行った。

4

5.1 前提条件
実装
それぞれのアルゴリズムの実装ならびに評価用アプリの実装は Java で行い、学習データの解析
処理には Hadoop を、データの保管には HBase を用いた。

学習データ
動画共有サイト AmebaVision[4]の動画に付与されているタグデータを用い、タグとそのタグが付
与されている動画の属するジャンル情報の対にて学習を行った。AmebaVision のタグは以下のよ
うな形式のデータセットとなっている。
 サンプル
タグジャンル
ねこペット・動物
クレイアニメクリエイター
太平洋旅行・イベント
・
・
・

 データ件数：1,133,384
 ジャンル数：９ 13 ジャンルのうち、概念が曖昧な「自己紹介・アピール」「ブログ・日記」
「趣味」「モバイル」を除外した。以下が今回の分類対象ジャンルとなる。
クリエイター音楽スポーツペット・動物
アニメ・ゲームエンターテイメントコメディ住まい・暮らし
旅行・イベント

分類を行う文書
各種ニュースサイトのニュース記事を RSS から取得し、解析を行った。
今回は、特定ジャンルのニュース記事が意図した「分類されるべきジャンル」に分類されるかどうか
で評価を実施し、その確率を測定した。
分類されるべき
サイト名
ジャンル
ニッカンスポーツスポーツ
ナタリー音楽
４Ｔｒａｖｅｌ旅行・イベント
秋葉原ブログアニメゲーム
映画生活エンターテイメント

5.2 結果
以下のような結果となった。
なお、ＭＮＢがＭｕｌｔｉｎｏｍｉａｌＮａｉｖｅＢａｙｅｓ、ＣＮＢがＣｏｍｐｌｅｍｅｎｔＮａｉｖｅＢａｙｅｓを用いた結
果となる。
サイト名ＭＮＢＣＮＢ
ニッカンスポーツ
ナタリー
４Ｔｒａｖｅｌ

5

秋葉原ブログ
映画生活

ニッカンナタリー秋葉原映画生活

ＭｕｌｔｉｎｏｍｉａｌＮａｉｖｅＢａｙｅｓを用いたケースよりも、ＣｏｍｐｌｅｍｅｎｔＮａｉｖｅＢａｙｅｓを用いたケー
スの方が概ね精度が向上していることが見受けられ、多数のクラスが存在する場合のクラス推定に
Complement Naïve Bayes アルゴリズムが有効であることが確認できた。

なお、今回の測定では、特定ジャンルのニュースがあるジャンルにマッピングされることを前提とし
て評価を行っている（「ニッカンスポーツ」の場合は必ず「スポーツ」に分類される、という前提で評
価）。
そのため、文書の意味的には適切に分類されていても想定ジャンルに分類されていない場合は評
価を行っていない。実際の分類制度は MNB、CNB とももう少し高いものとなるが、主観が入りや
すいため今回の評価尺度からは除外した。（たとえば筆者の主観で判断した場合、ニッカンスポー
ツ：CNB の場合で 92%の精度となった）

6 Complement Naïve Bayes の最適化について
Complement Naïve Bayes の論文[3]には、上述のアルゴリズムに加え重み付けやテキスト処理
の最適化手法についても合わせて述べられていて、これらを採用することでより精度が増す、とさ
れている。
具体的には以下のようなものである。
 Term Frequency
 Inverse Document Frequency
 Based on Length
 Document Normalization
しかし、今回の実装、ならびに使用したデータセットではその優位性を確認できなかったため、今
回は評価の対象外とする。

7 考察とまとめ
複数クラスの文書分類において、Multinomial Naïve Bayes に比べた Complement Naïve
Bayes の優位性について確認ができた。
また、AmebaVision などのタグ情報が文書分類において有意なデータセットであることも合わせて
確認できた。

今回実装した Multinomial Naïve Bayes、Complement Naïve Bayes の実装と、テストプログラ
ムについては参考資料として提示する。

6

Complement Naive Bayesの検証

Convert to study guideBETA

More Related Content

Complement Naive Bayesの検証