Copyright © 2024 Gen Digital Inc. All rights reserved. すべての商標、サービスマーク、商品名 (「マーク」と総称) は、Gen Digital Inc.、その関連会社 (「Gen」)、Gen によってマークの使用権を譲渡された各社の商標または登録商標です。Gen のマークの一覧については、GenDigital.com/trademarks をご確認ください。
【テキストマイニングラボ】では、見える化エンジンのコア技術であるテキストマイニングにちなんだ話題のあれこれをご紹介していきます。 テキストマイニングの基盤技術は、コンピュータで言葉を解析する技術である“自然言語処理“です。 見える化エンジンは、その中の “形態素解析” と “構文解析” の両方を用いています。 第1回目は、この “形態素解析” についてご紹介します。 形態素解析とは文を単語に分けることです。 日本語は英語と違って、単語の区切りなしに書くので、形態素解析処理のことを「単語分かち書き」とも言います。 処理としては、文の先頭から辞書の見出しを当てていき、あり得る組み合わせの中から最も確からしい単語の並びを 選択するということになります。
突然ですが、僕の好きな食べ物は麺類です。「無人島に持っていくとしたら?」の質問には食い気味で「麺類」と答えるでしょう。「無人…」の時点で「麺類!」と答えることができます。 「麺類」といってもスパゲティ、うどん、そば、ラーメン、つけ麺、そーめんなど様々な種類があります。文字にするだけでもお腹が減ってきますね。 その中でもご当地ラーメンと呼ばれるように、ラーメンは地域によって多様な進化を遂げてきています。 しかし、ご当地ラーメンと一言で言っても、例えば和歌山ラーメンにも豚骨系と醤油系があったりして、真の和歌山ラーメンがなんなのかはっきりしていないような気がします。和歌山まで旅行に行ったのに、普通のチェーン店で普通のラーメンを食べてしまったらもったいないですよね。 そこで、ラーメンマンの僕としてはご当地ラーメンがどんな特徴を持っていて、主流がどんなラーメンなのか把握したいのです。 今回のエントリ
2016年5月15日放送分の 魔法つかいプリキュア15話「ハチャメチャ大混乱!はーちゃん七変化!」で プリキュア放送回数が通算600回を迎えました。 せっかくなので、何か記念をと思いプリキュア600話分の「サブタイトル」を テキストマイニングで分析してみました。 最も使用されていた語句は 共起ネットワーク図 クロス集計 クロス集計の結果 キャラクタ別のクロス集計 対応分析 まとめ サブタイトルってのは 「私たちが変身!?ありえない!」(無印1話) みたいなヤツですね。 全600話のタイトルは、下記祥太様のつぶやきにすごいまとめがあります。 歴代『プリキュア』シリーズ通算600話までの全サブタイトル #precure pic.twitter.com/eqCdAV5sad— 祥太(レイフレE13,14「SHOWTIME」) (@shota_) 2016年5月14日 関係ないですけど、今回は60
テキストマイニングの概要 テキストマイニングとはテキストデータを計算機で定量的に解析、有用な情報を取り出すための技術の総称です。主に、自然言語処理、統計、データマイニングといったものを基礎とします。 かつてはこれらの実証分析や論理的研究には、自然言語を計算機で扱うために高価なソフトウェアが必要であり、高い敷居がありました。今日では無料で本格的なテキストマイニングをするための環境が整ってきており、また計算機も高速で安価になったことから、例えば人文社会科学分野などでの応用においても大きな注目と期待が集まっています。 今回はテキストマイニングで雑多な外部のデータを集積し、データセットを作成して、分析手法の選択と適用、可視化までの大雑把なプロセスを整理します。 ツールの準備 テキストマイニングのためのフリーなソフトウェアとしては主に次のようなものがあります。 名称 説明
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く