一定期間更新がないため広告を表示しています
概要 Javaの比較的新しい形態素解析器、Kuromoji。 lucene-gosenやGomokuのように辞書内包で、jarを落とせばその場で利用でき、Unidicに対応していて、ソースがLuceneのtrunkにコミットされているという、何かと気になる特徴の持ち主。 複数のモードを持っているようで、Searchモードを使うと「日本経済新聞」を「日本 | 経済 | 新聞」のように検索で利用しやすい形にばらして解析してくれたり、Extendedモードを使うと未知語をuni-gramにしてくれたりもするらしい。 今日はそんなKuromojiさんの導入から簡易な使い方までをさらっと追いかけてみた。 導入 まずは下記ページからダウンロード。今回はkuromoji-0.7.5.tar.gzを利用。 Downloads - atilika/kuromoji https://github.com/at
Solr の勉強会 (2011/12/19 19:00 to 21:30) に行ってきました。 第7回Solr勉強会 - atnd.org #SolrJP - twitter.com 2011/12/19_第7回 Solr&検索エンジン勉強会( #SolrJP ) - togetter.com Solr勉強会第7回に参加しました。(発表もしました) - johtani.jugem.jp ので、そのメモ。 会場を提供してくださった VOYAGE GROUP さん、運営者の方々、ありがとうございました。 Solr に特化した内容ではなく、ちょっと間口を広げて検索一般の話もあって勉強になりました。 というか、ちゃんと統計とか数学とかを勉強し直さないと先がないなぁ、と思ったり。。。 Solrベースの全文検索サーバFess 株式会社エヌツーエスエム 菅谷 信介さん オープンソース全文検索サーバー F
lucene-gosenとは lucene-gosenとは、全文検索エンジンのLucene/Solr3.1及び4.0で動作する、日本語の形態素解析用のJavaライブラリで、ここで公開されています。なお、ここで扱うlucene-gosenのバージョンは1.0.1とします。 一般的に日本語を扱う場合には、英語のように空白で文章を単語に区切れない為、n文字ずつ格納するN-GramのCJKAnalyzer(Bi-Gram)や、形態素解析を用いるJapaneseAnalyzer(lucene-gosenに含まれる)を主に用います。それぞれメリットとデメリットがあって、N-Gramは検索もれが少ない分ノイズが多く、形態素解析を用いるとノイズは少なくなるが検索もれが多くなるという特徴があります。どちらも一長一短なので、日本語を扱う場合二つのAnalyzerを併用したりします。(例として、形態素解析を用い
概要 全文検索エンジンとして有名なLucene/Solr。 この子を使って日本語文書のインデックスを作成したい場合、形態素解析かNgramを用いるのが一般的。 Ngramを選択した場合に良く利用されるのがCJKAnalyzer。日本語や英語なんかが混ざった文章を解析する時にはそこそこに便利。 ただ、その仕様や作成されるインデックスのサイズが必ずしも要件に合うとは限らない。これを自前で改変できるようになれば、用途に合った、よりコンパクトなインデックスが作成されるんじゃないだろうか。 そんなことを思ったので、気の向くままに「1文字をインデックスに入れない」とか「カタカナはBi-gramでなくまとめて登録する」とか「顔文字の検索を考慮する」などを試してみた。
cles::blog 平常心是道 blogs: cles::blog NP_cles() « VMWareでディスクを拡張する :: 正規表現で制御文字をフィルタする » 2009/06/29 Solr1.4-devとcmecab-java nlp java solr 290 0へぇ 最近Solrでつくる検索サーバーが個人的にちょっとホットなので、自分でも環境構築をしてみました。 Solr 1.3で日本語の形態素解析に基づくインデックスを作りたい場合senのダウンロードページにあるlucene-ja-2.0test2.zipからlucene-ja.jarとsen.jarを取り出してlibに配置し、schema.xmlに下記を追加するように指示*1している場合が多いようです。 <fieldType name="text_sen" class="solr.TextField"> <ana
ドコモ光の各プランの概要や料金プランの種類や評判、注意点など申込前に知りたい情報をまとめています。現在の契約と比較してドコモ光はお得か、また通信速度の評判に関する根拠もこの記事を読めばわかります。 ドコモ光とは、NTTのフレッツ光回線を使ったインターネット通信サービス。プロバイダーがNTTからフレッツ光回線を借り受けて、独自ブラントとしてさまざまな付加価値をつけ提供するいわゆる「光コラボ」サービスの1つです。その中でドコモ光の最も注目すべき付加価値とは、ドコモの携帯電話料金やスマートフォン料金の割引が適用できること。ドコモ光のプランやくわしい料金については次項でくわしく説明します。 ここではドコモ光の各プランの概要や料金、初期費用について説明します。 ▽ドコモ光の月額料金の構成は? ドコモ光の月額料金はドコモ光の料金の他、オプション料金・光セット割の3つで以下のように構成されます。 ドコモ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く