形態素解析に関するhib3のブックマーク (2)

  • 単語の出現頻度を求める --- 興味語の抽出は簡単じゃありませんよ ---

    語文章から、単語の出現数を数えるためには、文章から単語を抽出しなくてはいけません。すなわち分かち書き(単語の間に空白などを入れる)しないといけません。 来ならば、分かち書きは大変な作業ですが、MeCab (和布蕪)やChasen(茶筌)などといった形態素解析ソフトがありますので、これの出力を使うと簡単です。形態素解析(ソフト)は、入力文を単語単位に分割し、かつその品詞を与えてくれます。 PerlRubyなどのスクリプト言語のモジュールとして、提供されていることもあります。ですが、たいていの場合そのようなモジュールを使わなくても、簡潔さを損なうことなく記述することができます。(*1) (*1) 格的に解析している人は除きます。多くの人が「分かち書き+品詞を知りたいくらい」だろうと想定しています。 まず分かち書き まず、日語文章を分かち書き形式に変換しないといけません。分かち書きす

  • 【Python】 Mecabでテキスト中から名詞を抽出する|菅原淳

    下記のコードを実行することで、名詞のみの形態素解析結果を抽出することができます。 text = "解析したいテキストを入れる。" m = MeCab.Tagger("-Ochasen") nouns = [line for line in m.parse(text).splitlines() if "名詞" in line.split()[-1]] for str in nouns: print(str.split()) <出力結果> ['解析', 'カイセキ', '解析', '名詞-サ変接続'] ['テキスト', 'テキスト', 'テキスト', '名詞-一般'] 解説前提として、MecabとPythonが使える環境があるものとします。 私は、PyCharmで実行しています。 まずは、Mecabを使って、テキストをパースするための準備をします。Taggerインスタンスを生成します。 m =

    【Python】 Mecabでテキスト中から名詞を抽出する|菅原淳
  • 1