日本語を話すbotなら形態素解析したいよね!ということで、よくある「マルコフ連鎖」を使ったbotを作ってみました。 元データとして自分の今までのツイートのログを使い、形態素解析してマルコフ連鎖で文章を作るようにします。 形態素解析はMeCab+IPA辞書を使用しています。 気を付けたのは以下の点 ・あまり突飛な文章にならないようにする→3次のマルコフ連鎖にする ・他人の文章は使用しない→「RT 」「QT 」などで始まる引用文は削除する ・他ユーザ名(@~)やハッシュタグ「#~」、URLは削除する ・文章の始まり、終わりは日本語らしいものにする (「な人がいたので私の」みたいな明らかな断片にならないよう、主語~述語の形を取るようにする) 3次のマルコフ連鎖の作り方は、MeCabとPythonでマルコフ連鎖を書いてみる(改)を参考にして、リストを作る単語の数を3つにしてみた。 Twitterに