[B! keyword][nlp] yassのブックマーク

新語造語未知語　の検出手法 : 研究開発

自然言語処理において、辞書は単語の文法的意味の情報源として必要不可欠であり、辞書に登録されていない単語を減少させるため、辞書の語彙を増強する努力がなされている。新語や専門用語は絶えず増え続けているため、辞書作成の作業は多大な労力を要するのみならず、各解析段階での未知語との遭遇は避けられず、大きな問題の一つとなっている。 ※当然ですが　形態素解析が必要な言語のみの研究です。これができていないと妙な箇所で形態素分割することになります。ヒューリスティックな検出は色々ありますが、ヒューリスティックではない統計的方法です。概して、単語（と見なせるかもしれない記号列）の前後情報から最も尤もらしいモデルを推定します。出現頻度と連接頻度に基づく専門用語抽出湯本紘彰　森辰則　横浜国立大学中川裕志　　　東京大学情報処理学会研究報告. 自然言語処理研究会報告　2001(86) ターム性

yass 2009/10/09

nlp
keyword

リンク

30分で理解する自然言語処理　まとめ - プログラマでありたい

今まで何本か日本語処理のエントリーを書いてきました。後で振り返り易いように、ここらで一覧にまとめておきます。 wikipediaのダウンロード&データベースにインポートコーパスとして、wikipediaの存在はありがたいです。まずはここから始めるのが良いですね。併せて紹介しているxml2sqlも秀逸です。特徴語抽出のあれこれあれこれと言いつつ形態素解析とYahoo APIを使った特徴語抽出のみを紹介しています。手軽に出来るのが魅力です。ベイジアンフィルター　Perlで作りたい人に教えてあげたいちょっとしたこと Algorithm::NaiveBayesの使い方を簡単なサンプルで紹介いたしました。割と好評です。ベイジアンフィルターの人気の高さを垣間みれますね。 TermExtract Perlで出来る特徴語抽出 TermExtractという専門語抽出モジュールの紹介です。TermEx

yass 2008/08/12

リンク

Yahoo！検索語データを無償提供　研究プロジェクト向けに

国立情報学研究所（NII）は2月28日、Yahoo！JAPANの検索語データを研究用に無償提供することでヤフーと合意したと発表した。大規模な検索語データの研究利用は国内初としており、新しい検索技術の研究が進むと期待している。文部科学省が補助するプロジェクト「情報爆発時代に向けた新しいIT基盤技術の研究」（代表・喜連川優東京大教授）に参加する研究者に、NIIを通じて4月から提供する。 Yahoo！検索の検索語から、実際に検索された上位1万件の検索語と検索回数を抽出して提供する。NIIは「現実の検索エンジンに投入される検索語の特徴の分析が進めば、新しい検索手法の研究への大きなインパクトが期待できる」としている。 3月3日に東京・秋葉原で説明会を開く。試作システムのデモなども行う。

yass 2008/03/01

リンク

サイトを形態素解析、単語ごとに検索できる「スマートブラウザ」

Windows SQL Server 2005サポート終了の4月12日が迫る、報告済み脆弱性の深刻度も高く、早急な移行を

yass 2006/01/18

リンク

専門用語（キーワード）自動抽出用Perlモジュール "TermExtract"の解説

はじめに　テキストデータから、専門用語を取り出すためのPerlモジュール"TermExtract"を解説します。日本語の文章中から単語を切り出す定番のソフトとして、「茶筅」や「案山子」がありますが、そのまま専門用語の抽出に使うには次の２つの問題があります。ひとつは、複合語に対応していないことです。専門用語の多くは単語を組み合わせて、複雑な概念を表すことが多くなります。特に「茶筅」の場合は単語を品詞単位で細かく分割するため、そのまま使うには難があります。もうひとつは、どの用語が重要であるか判断する仕組みを持たないことです。その問題点を解決したソフトに東京大学・中川裕志教授、横浜国立大学・森辰則助教授が作成した「専門用語自動抽出システム」があります。それは、１）「茶筅」の形態素解析結果を複合語に組み立て、２）その複合語（単語の場合もある）を重要度の高い順に返すものです。

yass 2005/12/18

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

keywordとnlpに関するyassのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2025年1月第2週）

月間はてなブックマーク数ランキング（2024年12月）

今週のはてなブックマーク数ランキング（2025年1月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (5)

keywordとnlpに関するyassのブックマーク (5)

新語 造語 未知語 の検出手法 : 研究開発

30分で理解する自然言語処理 まとめ - プログラマでありたい

Yahoo！検索語データを無償提供 研究プロジェクト向けに

サイトを形態素解析、単語ごとに検索できる「スマートブラウザ」

専門用語（キーワード）自動抽出用Perlモジュール "TermExtract"の解説

お知らせ

今週のはてなブックマーク数ランキング（2025年1月第2週）

月間はてなブックマーク数ランキング（2024年12月）

今週のはてなブックマーク数ランキング（2025年1月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

新語造語未知語　の検出手法 : 研究開発

30分で理解する自然言語処理　まとめ - プログラマでありたい

Yahoo！検索語データを無償提供　研究プロジェクト向けに