はじめに テキストデータから、専門用語を取り出すためのPerlモジュール"TermExtract"を解 説します。 日本語の文章中から単語を切り出す定番のソフトとして、「茶筅」や「案山子」があ りますが、そのまま専門用語の抽出に使うには次の2つの問題があります。 ひとつは、複合語に対応していないことです。専門用語の多くは単語を組み合わせて、 複雑な概念を表すことが多くなります。特に「茶筅」の場合は単語を品詞単位で細かく 分割するため、そのまま使うには難があります。 もうひとつは、どの用語が重要であるか判断する仕組みを持たないことです。 その問題点を解決したソフトに東京大学・中川裕志教授、横浜国立大学・ 森辰則助教授が作成した「専門用語自動抽出システム」があります。 それは、1)「茶筅」の形態素解析結果を複合語に組み立て、2)その複合語(単語の場 合もある)を重要度の高い順に返すものです。
システム開発や運用などを手がけるシーエーシー(CAC)は、開発を進めているブログ検索サービスのテストサイト「kizasi」においてブログに表示されている言葉のランキングを試験的に公開している。 kizasiは、独自開発したブログ検索エンジンである「kizasi search engine」を使って、1日あたり約5万件のブログをランダムに選んでさまざまな言葉を抽出し、その抽出したデータベースから言葉の盛り上がり度(きざし度)ランキングや、ジャンルごとにカテゴリー分けした出現ランキングなどを表示する。任意の言葉を入力して検索すれば、ブログにおけるその言葉の出現度を時系列で見ることも可能だ(画像)。 こうした特徴を利用し、たとえば8月から行っている「衆院選特集」では、衆議院議員選挙に関連したブロガーたちが多く書き込んだ言葉の中から、過去24時間における政党や政策、政治家に関する言葉の出現ランキン
独立行政法人・情報通信研究機構(NICT)と沖電気工業は7月21日、Webページ内の新語を自動抽出し、属性を判別する技術を開発したと発表した。検索エンジンの精度強化に生かす。 文章中の語句の出現頻度や、前後の語句の変化などから新語を判別し、既存辞書とのマッチングを行って品詞など属性を判定する。名詞だけでなく、助詞を含む成句など多様な新語を抽出できるという。 高速処理も特徴だ。2年分の新聞記事(約1億文字)を平均1日で解析できるという。 従来のテキスト解析技術を使った検索では、辞書に登録されていない新語を検索するのが難しく、検索精度を下げる原因となっていたという。新聞記事などを使って新語を獲得する研究が行われているものの、ネット上の文章は書式が多様で、自動獲得が難しかった。
ちゃっぷい 今日も寒かったですねぇお嬢様地方もめちゃくちゃ‼️寒かったですお散歩行ったけど、プルプル震えて可哀想だったので即バッグインクリスマスツリーの前でパシャリ📸やはりバッグが好 #お嬢様 #チワワ #ロンチー #ロングコートチワワ #お散歩
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く