Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

ブックマーク / www.rondhuit.com (5)

  • SIGIR 2017に参加してきました - 株式会社ロンウイット

    溝口 泰史 著 2017年8月7日から8月11日の5日間新宿で開催された、情報検索分野トップカンファレンスのACM-SIGIR 2017に参加してきました。実際には初日はチュートリアル、最終日はワークショップなので、学会としては三日間でしたが、チュートリアル・ワークショップを含め、とても刺激的な五日間でした。 会場は京王プラザホテルで、JRの新宿駅からは地上にほとんど出ることなく行き来することができました。会期中雨の降ることが多かったので、この会場の立地はとてもありがたかったです。会場は5階、42階、43階になることが多かったですが、コーヒーブレイクやポスターセッションで立ち寄った43階の部屋からの眺望は曇天にもかかわらず遠くまで新宿を見渡すことができ、気分をリフレッシュすることができました。 一日の間にいくつもの発表を聞いており、全ての発表の感想はとても書ききれないので、以下は興味深いと

    SIGIR 2017に参加してきました - 株式会社ロンウイット
    pcod
    pcod 2017/11/19
  • NLP4L 0.5.0 リリースのお知らせ - 株式会社ロンウイット

    お客様各位 平素はお引き立てを賜り、ありがとうございます。 この度、弊社サブスクリプション・パッケージの機能拡張として、NLP4L 0.5.0 をリリースしましたのでお知らせします。 NLP4LはNatural Language Processing for Luceneの頭文字をとって命名された、Lucene/Solrのための自然言語処理パッケージです。 NLP4LはLuceneインデックスのデータを単語単位で整理されたコーパスとみなして活用することで、次のねらいを達成いたします。 Lucene/Solrの基検索のF値(精度と再現率を同時に評価する指標)を向上します。 Lucene/Solrの応用検索(もしかして、サジェスト、レコメンド、クラスタリング等)の精度や利便性を向上します。 Lucene/Solrの運用コストを低減します。 Luceneインデックスのデータをコーパスとみなすの

    pcod
    pcod 2013/08/09
    ムム!
  • ダウンロード - 株式会社ロンウイット

    無料のオンラインハンズオンセミナーを開催しています 詳細・お申し込みはこちら 目次 Apache OpenNLP語固有表現抽出モデルファイル livedoor ニュースコーパス 勉強会/セミナー資料 海外カンファレンス参加報告 セキュリティ警告 アーカイブズ Apache OpenNLP語固有表現抽出モデルファイル Apache OpenNLP 1.9.0 以降で利用可能な、日語固有表現抽出のための学習済みのモデルファイルです。商用利用可能です。 ダウンロード:rondhuit-ja-ner-1.0.0.zip(Apache License) livedoor ニュースコーパス 概要 コーパスは、NHN Japan株式会社が運営する「livedoor ニュース」のうち、下記のクリエイティブ・コモンズライセンスが適用されるニュース記事を収集し、可能な限りHTMLタグを取り除い

    ダウンロード - 株式会社ロンウイット
    pcod
    pcod 2013/02/27
  • [NLP] 日本語WikipediaからSolr用の類義語辞書を自動作成する - 株式会社ロンウイット

    Wikipediaなどの「辞書型コーパス」からLucene/Solr用の類義語辞書を自動作成するシステムを開発しましたので、簡単にご紹介します。 参考資料(SlideShare) 辞書型コーパスからの類義語知識の自動獲得(SlideShare) Lucene/Solrと類義語検索 Lucene/SolrではSynonymFilterを使って類義語検索を簡単に実現することができます。たとえば次のような内容のsynonyms.txtを用意し: 自動車損害賠償責任保険, 自賠責保険 Solrのschema.xmlファイルに次のようなフィールド型を定義すれば: <fieldType name="text_ja" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="solr.Japane

    [NLP] 日本語WikipediaからSolr用の類義語辞書を自動作成する - 株式会社ロンウイット
    pcod
    pcod 2012/11/01
  • Solrの日本語対応 -新しく追加されたトークナイザ・トークンフィルタ- 株式会社ロンウイット

    先日、Lucene/Solrのbranch_3x(3.6)とtrunk(4.0)にコミットされた日語向けのトークナイザ・トークンフィルタをご紹介します。 LuceneのJIRAのチケット LUCENE-3305 にて、日形態素解析器Kuromojiが導入されました。 これにより、日語ドキュメントに対して形態素解析に基づく単語分割が可能になります。 従来、Lucene/Solrで日語対応をする場合は、lucene-gosenやSenを使用する方法などをとってきましたが、今回の対応であらかじめLucene/Solrに組み込まれたものを使用するということが可能になります。 また一方で、LUCENE-2906にて、CJK文字に関するトークンフィルタも追加されました。 記事では、これらのトークナイザ・トークンフィルタに関して、2012/2/23時点のソースに基づいて調査したものを解説いた

    Solrの日本語対応 -新しく追加されたトークナイザ・トークンフィルタ- 株式会社ロンウイット
  • 1