ノンパラメトリックベイズ言語モデルによる コーパス内トピック抽出 2010年6月22日 知識工学部 阿部裕介 CLML-HDP-LDAパッケージを用いたコーパス分析例 概要 1. トピックとは? 2. ベイズ統計言語モデル 3. コーパスからのトピック抽出例 4. 問題点 トピックとは? 文書集合(コーパス)の単語出現頻度は 時期・分野・地域…etcの影響を受けて変動する (例)円高…経済記事では出現頻度が高いが 芸能記事では少ない 餅…1月の新聞記事では出現頻度が高いが 8月の記事では少ない トピックとは? (2) トピック = 単語出現頻度を変動させる (潜在的な)要因 問題:コーパスのみが与えられている状況で、各文書の単 語出現頻度から、そのコーパスに潜在しているトピックに したがって、コーパス内の各単語を分類・クラスタリング し、その結