前回はごくごく簡単なテキストマイニングの例を紹介したが、実は結果があまり正しく分析できていなかったりする。なぜなら、茶筌の辞書「IPA品詞体系辞書(ipadic)」に登録されていない単語は「未知語」として扱われてしまったり、アルファベットの1文字ずつに分割されてしまったりするため、単語としての集計の対象から漏れてしまうのだ。例えば、「MySQLもPostgreSQLもデータベースである。」という文を解析した結果は以下のようになる。 $ chasen -i w MySQLもPostgreSQLもデータベースである。 M エム M 記号-アルファベット y ワイ y 記号-アルファベット S エス S 記号-アルファベット Q キュー Q 記号-アルフ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く