pcodのブックマーク - はてなブックマーク

pcod id:pcod

ブックマーク / www.rondhuit.com (5)

SIGIR 2017に参加してきました - 株式会社ロンウイット
溝口泰史著 2017年8月7日から8月11日の5日間新宿で開催された、情報検索分野トップカンファレンスのACM-SIGIR 2017に参加してきました。実際には初日はチュートリアル、最終日はワークショップなので、学会としては三日間でしたが、チュートリアル・ワークショップを含め、とても刺激的な五日間でした。会場は京王プラザホテルで、JRの新宿駅からは地上にほとんど出ることなく行き来することができました。会期中雨の降ることが多かったので、この会場の立地はとてもありがたかったです。会場は5階、42階、43階になることが多かったですが、コーヒーブレイクやポスターセッションで立ち寄った43階の部屋からの眺望は曇天にもかかわらず遠くまで新宿を見渡すことができ、気分をリフレッシュすることができました。一日の間にいくつもの発表を聞いており、全ての発表の感想はとても書ききれないので、以下は興味深いと
pcod 2017/11/19
リンク
NLP4L 0.5.0 リリースのお知らせ - 株式会社ロンウイット
お客様各位平素はお引き立てを賜り、ありがとうございます。この度、弊社サブスクリプション・パッケージの機能拡張として、NLP4L 0.5.0 をリリースしましたのでお知らせします。 NLP4LはNatural Language Processing for Luceneの頭文字をとって命名された、Lucene/Solrのための自然言語処理パッケージです。 NLP4LはLuceneインデックスのデータを単語単位で整理されたコーパスとみなして活用することで、次のねらいを達成いたします。 Lucene/Solrの基本検索のF値（精度と再現率を同時に評価する指標）を向上します。 Lucene/Solrの応用検索（もしかして、サジェスト、レコメンド、クラスタリング等）の精度や利便性を向上します。 Lucene/Solrの運用コストを低減します。 Luceneインデックスのデータをコーパスとみなすの
pcod 2013/08/09
ムム！
リンク
ダウンロード - 株式会社ロンウイット
無料のオンラインハンズオンセミナーを開催しています詳細・お申し込みはこちら目次 Apache OpenNLP 日本語固有表現抽出モデルファイル livedoor ニュースコーパス勉強会／セミナー資料海外カンファレンス参加報告セキュリティ警告アーカイブズ Apache OpenNLP 日本語固有表現抽出モデルファイル Apache OpenNLP 1.9.0 以降で利用可能な、日本語固有表現抽出のための学習済みのモデルファイルです。商用利用可能です。ダウンロード：rondhuit-ja-ner-1.0.0.zip（Apache License） livedoor ニュースコーパス概要本コーパスは、NHN Japan株式会社が運営する「livedoor ニュース」のうち、下記のクリエイティブ・コモンズライセンスが適用されるニュース記事を収集し、可能な限りHTMLタグを取り除い
pcod 2013/02/27
資料
リンク
[NLP] 日本語WikipediaからSolr用の類義語辞書を自動作成する - 株式会社ロンウイット
日本語Wikipediaなどの「辞書型コーパス」からLucene/Solr用の類義語辞書を自動作成するシステムを開発しましたので、簡単にご紹介します。参考資料（SlideShare）辞書型コーパスからの類義語知識の自動獲得（SlideShare） Lucene/Solrと類義語検索 Lucene/SolrではSynonymFilterを使って類義語検索を簡単に実現することができます。たとえば次のような内容のsynonyms.txtを用意し：自動車損害賠償責任保険, 自賠責保険 Solrのschema.xmlファイルに次のようなフィールド型を定義すれば： <fieldType name="text_ja" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="solr.Japane
pcod 2012/11/01
memo

Solr
リンク
Solrの日本語対応 -新しく追加されたトークナイザ・トークンフィルタ- 株式会社ロンウイット
先日、Lucene/Solrのbranch_3x(3.6)とtrunk(4.0)にコミットされた日本語向けのトークナイザ・トークンフィルタをご紹介します。 LuceneのJIRAのチケット LUCENE-3305 にて、日本語形態素解析器Kuromojiが導入されました。これにより、日本語ドキュメントに対して形態素解析に基づく単語分割が可能になります。従来、Lucene/Solrで日本語対応をする場合は、lucene-gosenやSenを使用する方法などをとってきましたが、今回の対応であらかじめLucene/Solrに組み込まれたものを使用するということが可能になります。また一方で、LUCENE-2906にて、CJK文字に関するトークンフィルタも追加されました。本記事では、これらのトークナイザ・トークンフィルタに関して、2012/2/23時点のソースに基づいて調査したものを解説いた
pcod 2012/03/21
solr

lucene

nlp
リンク
1