Twitterで自分が普段どういった発言をよくしているのかが露骨にわかる「テキストマイニング」ツールの使い方
文章の集まりを対象として、単語や文節がどんな頻度で登場しているのか、どういった相関関係があるのか、どういう時系列で出てきているのかなどを分析して有用な情報を得る「テキストマイニング」を簡単に行えるツールを、ユーザーローカルがリリースしました。解析対象はテキストファイルとTwitterアカウントで、自分が普段どういった発言をよくしているのかがわかります。
テキストマイニング 無料 by ユーザーローカル
http://textmining.userlocal.jp/
利用時はサイトにアクセスして、それぞれの「解析ページへ」をクリックすればOK。
Twitter解析の場合、アカウント連携が必要なのでIDとパスワードを入力して「ログイン」をクリック。
GIGAZINE公式アカウントでも試してみました。文章中に出てくる単語の出現パターンが似たものを線で結んだ「共起ネットワーク」では、「食べる」「使う」「できる」などの出現数が多いことがわかります。ワードクラウドでは「ムービー」が圧倒的な存在感。
名詞・動詞・形容詞別のスコアはこんな感じ。出現頻度や、出てきている単語から考えると、ツイートは直近2週間弱のものを使っているようです。
一方のテキストファイル解析は、文字コードがUTF-8・Shift_JISのテキストファイル(.txt)・CSVファイル(.csv)ファイルが対象で、最大10万文字まで解析が可能。解析したファイルを選び「解析する」を押すだけです。
青空文庫の「走れメロス」(著:太宰治)を解析してみた結果がこれ。「メロス」の出現数が多く、作中に出てくる名詞・動詞・形容詞との結びつきも強いことがわかります。
ワードクラウドでも、当然中心はメロス。セリヌンティウスと暴君は同じぐらいの大きさです。
具体的に見ていくと、わかっていたことですが「メロス」の出現頻度が圧倒的。動詞では「走る」よりも「来る」の出現頻度が高いようです。
・関連記事
大学教授は大喜び、学生は戦々恐々のコピペ判定サイト「剽窃チェッカー」 - GIGAZINE
顔文字のパーツが何を示しているのか解析してくれる「顔文字形態素解析」 - GIGAZINE
ネット上の情報を分析して信頼性の判断をサポートする「情報信頼性判断支援システム」が開発される - GIGAZINE
OCRなどでのテキスト解析を困難にするフォント「ZXX」 - GIGAZINE
・関連コンテンツ