オープンソースの全文検索エンジンライブラリ「Apache Lucene」開発チームは2月20日、最新版となる「Apache Lucene 5.0」およびLuceneベースのNoSQL検索プラットフォーム「Apache Solr 5.0」をリリースした。 Apache LuceneはJavaで作成された検索エンジン。1時間あたり150GB以上というインデックススループットやランク付け、多数のクエリタイプサポート、フィールドによるソート、誤字補完といった機能を有し、全文検索を必要とするほぼすべてのアプリケーションで利用できるという。SolrはLuceneのサブプロジェクトで、Luceneをベースとしたエンタープライズ向けの検索プラットフォーム。 Apache Lucene 5.0は、2012年10月に公開されたバージョン4.0に続くメジャーバージョンとなる。インデックスの安全性強化とヒープ使用
新しくインデキシングされたドキュメントを検索結果の上位に表示したいというニーズは割とよくあると思います。 フレッシュネスブーストと呼ばれる手法です。 Solr の場合 TIMESTAMP などの日付でソートすることもできるのですが Solr はソートがあまり上手ではありません。 時間とシステムリソースを大量に消費します。 ヒット件数が数十万件を超えるような場合にはあまり使いたくありません。 正確にソートされなくても最近インデキシングされたドキュメントが だいたい上位にくればいいのであれば日付でブーストする方法があります。 1つめは クエリタイプが dismax の場合で、BoostQuery を使う方法です。 bq で指定します。 bq=TIMESTAMP:[NOW/DAY-7DAY TO NOW/DAY]^20000 この例では1週間以内にインデキシングされたドキュメントがブーストされま
2. 名前: 菅谷信介 所属: N2SM, Inc. オープンソース活動: Apache Portals (Jetspeed2など) コミッタ Seasarプロジェクトコミッタ(S2Container, Teeda, SAStruts, DBFlute, S2Portlet, S2Robot..) Fessプロジェクト運営 などなど・・・ Github: https://github.com/codelibs Blog: http://www.chazine.com/ Twitter: https://twitter.com/shinsuke_sugaya/ 自己紹介
前書き 10代の頃は(ゴースト)ライターという職業に憧れていた時期もありました@yutakikuchi_です。 Geospatial Indexes and Queries ― MongoDB Manual 2.4.9 MySQL :: MySQL 4.1 リファレンスマニュアル :: 10.6.1 空間インデックスの作成 位置情報IndexをMongoDBで管理する手法については前に調査済みで、mysqlにもSpatialindexはあまり普及していない印象、ということで...今日は検索SolrのSpatial Searchについて調べてみます。最終的にはFessやNutchでWebPageをCrawlingして得た住所データをGeocodingでLat/Lngデータに変換して自前のServerにIndexingしていく事を考えており、その前段階の作業です。Solrを選ぶ理由ですがSpa
■ Document Boost JavaでSolrにインデクシングするプログラムを書く時に、 SolrInputDocumentっていうクラスを使ったりしますが、 特定のフィールドの重要度を上げたいな、という時は ↓のメソッドを使って第3引数にfloatで重み付けします(デフォルトは1.0) addField(java.lang.String, java.lang.Object, float) コレでイイじゃんって言われればそれまでなのですが、 重要度をコロコロ変えて、どんな感じに影響があるか確認しながら検索したい時に、 都度ドキュメントをインデックスし直して、、ってかなり面倒な事になります。 ■ Query Boost インデックスする時にboost値を設定するのが面倒な事になるんだったら、 検索する時に設定してしまえばイイじゃない、というアレです。 DisMaxというコンポーネントを
Apache Solr 4.0 がリリースされた。 本記事では Solr 4.0 の新機能や改善された点のうち気になるものを紹介する。 概要 Solr 4.0 では、下記の変更が入る。 83 個の新機能 13 個の最適化 121 個のバグ改修 Solr 4.0 はメジャーバージョンアップにふさわしい、非常に強力なリリースとなる。 SolrCloud Solr 4.0 の数ある新機能のうちの目玉機能。 SolrCloud という名前から推測できるように、Solr の分散構成が行えるようになった。とはいうものの、Solr 3.6 以前でもレプリケーションは行えたのだが、Solr 4.0 は一味ちがう。 今までより断然賢くなった。シャーディングもクラスタリングも簡単な設定で行うことができる。インデクス書き込みも複数ノードから行える。そしてなにより自動フェイルオーバーができるようになった。 さらに
この記事は古くなりました。新しい知見は下記を参照。aoking.hatenablog.jp 概要 全文検索エンジン Solr を使用していて、パフォーマンスチューニングに四苦八苦した話。 ここでは、検索時ではなくドキュメントの追加時についてのチューニングについて記してある。 更新自体は参照に比べて頻度が少ないが、参照はレプリケーションして負荷分散しやすい。 更新は整合性を保つために一台のマスターノードに対して行われるので更新はボトルネックになりやすいのだ。 定期的に IO 負荷が高くなる Solr を使っていると、一時的に猛烈に IO 負荷が高まる時がある。fsync になんと1分以上かかるような、猛烈な負荷だ。 これはインデクスのマージ時に起きる IO 負荷で、巨大なインデクス同士のマージだとその合計サイズ分の IO が発生することで IO 処理が専有されたままになっていた。 インデクス
概要 Javaの有名な形態素解析器でありながら、長らく「公式サイトどこ?」な状況だったSenとGoSenですが、最近はlucene-gosenなるGoSenベースのライブラリがちゃんと管理された状態で公開されてるとか。 lucene-gosen http://code.google.com/p/lucene-gosen/ しかもこの子は辞書内包なのでjarを落とすだけで使えて、Lucene用AnalyzerやSolr用Toknizerも付いていて、日本語の検索用インデックスを貼る時に便利な各種フィルタも用意されているという、至れり尽くせりな構成になっているとか。 これは触ってみねばということで、とりあえず簡単な形態素解析、辞書の追加、Luceneでの利用、Solrでの利用を試してみました。 ちなみに上のURLでCommiterのところに名前が出ているKoji SekiguchiさんはSol
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く