#elasticsearchjp いま、会社の方でメールサーバーのログを可視化するという業務を行っている。可視化の勉強をすすめるうちに、「これは面白い」と徐々にその魅力に取り憑かれ、いまではプライベートの環境でも可視化して遊んだりしている(最近寝不足なのはこのせい)。 そこで、もう少し知識を深めたいなということで今回全文検索エンジンのElasticsearchに関する勉強会に参加してきた次第である。 会場は丸の内にあるリクルートテクノロジーズさん。方向音痴な私はエレベーターの乗り換えがあったりして迷いながらも、参加者の方に教えていただきながらなんとか41Fの会場に到着。 Elasticsearch 2.0の紹介(elastic社 大谷さん) Elasticsearch 2.0について Lucene 5ベース RC1版は本番では使わないこと 特徴: Simplification, Secur
ここ2〜3日、ず〜っとmecab-ipadic-neologdの辞書をLucene Kuromojiに適用するという作業を延々と繰り替えしていました。 修正されたmecab-ipadic-neologdの辞書を、Lucene Kuromojiに適用してみる http://d.hatena.ne.jp/Kazuhira/20150316/1426520209 が、けっこうな数の手順を踏むので、だんだん面倒になってきました…。 そこで、上記のエントリでやった手順をまとめたbashスクリプトを書きました。ビルド方法もだいたい決まったことですし。 ※完全に同じではありません エラートラップとかは大して入れていませんが、ご了承ください。 実行する前提条件として、以下がインストールされている必要があります。 MeCabをビルドできるソフトウェア(C++コンパイラ、iconv、xz) Git wget
入門 自然言語処理 作者: Steven Bird,Ewan Klein,Edward Loper,萩原正人,中山敬広,水野貴明出版社/メーカー: オライリージャパン発売日: 2010/11/11メディア: 大型本購入: 20人 クリック: 639回この商品を含むブログ (44件) を見る 1.趣味は判例検索です! 人の趣味には色々な趣味があるだろうが「趣味は判例検索です!」という人はあまりいないのではなかろうか。私は数少ないそういう「変な趣味」を持っており、 サイ太先生が大噓判例八百選を書かれた際には、メジャーな判例データベースのクロスレビューに参加させて頂いたりした。 年齢認証 2.期待したい判例検索 ここで、判例データベースの検索方式が、30年遅れというのは昔から思っていたことである。例えば、判例を検索する時に我々が知りたいのは、「システム開発でベンダーが敗訴した事件」とか「慰謝料が
When your collection is too large for one node, you can break it up and store it in sections by creating multiple shards. A Shard is a logical partition of the collection, containing a subset of documents from the collection, such that every document in a collection is contained in exactly one Shard. Which shard contains a each document in a collection depends on the overall "Sharding" strategy fo
前回からの続きになります。今回はexampleディレクトリのsolr/conf/schema.xmlを見ていきます。schema.xmlについてのマニュアルはこれ。 schema.xmlは名前の通りインデックスファイルのスキーマを定義しています。これは、schema要素の直下にtypes要素とfields要素があります。types要素は、フィールドが取りうる型fieldTypeで定義します。一番最初の要素を見るのが分かりやすいと思います。 <fieldtype class="solr.StrField" name="string" omitnorms="true" sortmissinglast="true"> ここでは、stringと言う型を定義しています。それに対応するclassがsolr.StrFieldになっています。classの値はjavaのクラスファイルです。solrはsolr
こんにちは、 id:yanbe です。 全文検索エンジンLucene上に構築されたSolrという検索ミドルウェアがあります。拡張性・カスタマイズ性に富み、既存のデータのインポート機能が豊富なのもあって、広く利用されています。 参考: Solr - Wikipedia 国内のウェブサービスでのSolrの採用事例を挙げるとNAVERやCookpad、アメーバなどがありますが、はてなでも以前より一部のサービスでSolrを採用しています。 Solrの公式ドキュメント(英語)はwiki形式で提供されており、網羅的な情報はこちらで手に入ります。また、Solrの基本的な使い方を学べるチュートリアルもありますが、「すでにある典型的なLAMP構成のウェブサービスにSolrによる検索機能を組み込む」までには、ここからさらに多くの情報を調べる必要があり、Solrの導入のハードルとなっていると感じました。 そこで
Lucene Query Syntax Lucene has a custom query syntax for querying its indexes. Unless you explicitly specify an alternative query parser such as DisMax or eDisMax, you're using the standard Lucene query parser by default. Here are some query examples demonstrating the query syntax. Keyword matching Search for word "foo" in the title field. title:foo Search for phrase "foo bar" in the title field.
今週はAmazonのCloudSearchが発表されたり、Lucene/Solrの3.6がリリースされたりと、全文検索さんとお付き合いしている人たちにはアドレナリンが出やすい1週間でした。 3.6には形態素解析を使ったAnalyzer(Kuromoji)が入るなど、日本人にとっては脳内物質が駆けめぐりやすいリリースになっているようです。β‐エンドルフィン。チロシン。エンケファリン。 とりあえず触ってみたところとかをメモ。 Change Logとか Lucene3.6のChange Log core : http://lucene.apache.org/core/3_6_0/changes/Changes.html contrib : http://lucene.apache.org/core/3_6_0/changes/Contrib-Changes.html Solr3.6のReleas
概要 全文検索エンジンのSolrを使って、Wikipedia(日本語版)の記事を検索する機能をさらっと作ってみる。面倒なことはすっ飛ばして、できるだけ少ない手数を選択。あと、ソースコードはJava。 注意事項として、Solrはけっこうメモリ食う。特にoptimize時とか、大掛かりなソート時とか。 メモリが少ないマシンでは使うと不自由するので避けた方が良いかもしれない。とりあえず手元の4G積んだマシンでは快適に動いている。 @CretedDate 2011/09/04 @Env Solr3.5.0 / lucene-gosen1.2.1 @UpdateDate 2012/02/21 Solr3.5.0に変更したりクエリの誤りを直したり Solrの導入 まずSolrをダウンロードして解凍する。 ここからダウンロード http://lucene.apache.org/solr/#getstar
日本語Wikipediaなどの「辞書型コーパス」からLucene/Solr用の類義語辞書を自動作成するシステムを開発しましたので、簡単にご紹介します。 参考資料(SlideShare) 辞書型コーパスからの類義語知識の自動獲得(SlideShare) Lucene/Solrと類義語検索 Lucene/SolrではSynonymFilterを使って類義語検索を簡単に実現することができます。たとえば次のような内容のsynonyms.txtを用意し: 自動車損害賠償責任保険, 自賠責保険 Solrのschema.xmlファイルに次のようなフィールド型を定義すれば: <fieldType name="text_ja" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="solr.Japane
doltengをインストールする。 Seasarプロジェクトの作成方法ですが、eclipseプラグイン「dolteng」を利用すると簡単に作成可能です。 doltengのページに書かれたeclipse更新サイトからインストールします。 doltengでseasarプロジェクトの作成。 s2strutsやsastrutsはsolr adminと相性が悪い為、doltengで生成する際のプロジェクトは以下のようにします。 Application Typeが「Web Application」だが、Presentationを未選択にするのがポイント。 Persistenceは任意で構いません。Server ManagementはWTPにするとよいです。 続いてパスの設定ですが、任意で構いません。 solrをダウンロードする。 solrのオフィシャルサイトからsolrをダウンロードします。 Apac
This page exists for the Solr Community to share Tips, Tricks, and Advice about Analyzers, Tokenizers and Filters. Reference material previously located on this page has been migrated to the Official Solr Reference Guide. If you need help, please consult the Reference Guide for the version of Solr you are using. The sections below will point to corresponding sections of the Reference Guide for eac
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く