タグ

opensourceとsearchに関するfragarach_the_swordのブックマーク (6)

  • 第6回 Solr/Luceneの活用に知っておくべき点

    前回までに,Solr/Luceneの概要と簡単な導入検証までを説明しました。Lucene自体はライブラリであることから,これを利用して高度なアプリケーションを独自に実装することも可能ですが、簡単な検索機能であればSolrを利用し、比較的容易に利用できることがお分かりいただけたのではないでしょうか。今回は,導入のための留意点と,周辺のツール類を紹介します。 Solr/Lucene導入の実際 では,導入時の留意点について順に説明してきましょう。 ●インデックス設計 一般的に全文検索エンジンは,プレーンテキストのような非構造化データを効率良く検索するものです。そのため,データを格納するインデックスに対して,データを「ともかく放り込む」といった設計も可能です。 誤解を恐れずにいえば,その考え方自体は大きく間違っていません。しかし,インデックスの構造を充分に設計した方が,より効率の良い効果的な検索機

    第6回 Solr/Luceneの活用に知っておくべき点
    fragarach_the_sword
    fragarach_the_sword 2010/11/12
    ITPro連載:企業システムで有効なオープンソース活用法(6)Solr/Luceneの活用に知っておくべき点
  • 第4回 全文検索エンジン「Lucene/Solr」の用途と良さ

    情報インフラの発展に伴い,私たちが接する情報の絶対量は増加の一途をたどっています。そのため,目的とする情報をすばやくピンポイントで入手するのが困難な状況も増えています。 一方で情報提供側にとっても,情報を確実に利用者に届けることがビジネスの成功に重要な要素となってきており,これを実現するための努力が日々続けられています。 このような状況で,高速で柔軟性が高い検索処理のニーズが高まってきており,全文検索エンジンが注目を集めています。ここでは,オープンソースの全文検索エンジンである「Lucene/Solr」を紹介します。 Lucene/Solrとは Lucene/Solrは,Apache Software Foundation(ASF)のLuceneプロジェクトで開発されているソフトです。LuceneはPure Javaで実装された全文検索エンジンで,単独では実行不可能なライブラリの形式で提供

    第4回 全文検索エンジン「Lucene/Solr」の用途と良さ
    fragarach_the_sword
    fragarach_the_sword 2010/08/25
    ITPro連載:企業システムで有効なオープンソース活用法(4)
  • 第10回 全文検索システムの「Kabayaki」と「Namazu」の特徴

    今回から,全文検索システムの「Kabayaki」を紹介します。Kabayakiは,日語文書用に作られた全文検索システムです。オープンソースの全文検索エンジン「Namazu」に対してWebブラウザで各種設定を可能にするなど,使いやすく改良したものです。 全文検索は,文書の全情報が検索対象となります。ファイル名や見出し,文書中の特定の要素に限定しません。また,ファイル内の文字列検索が単一ファイルを対象にしているのに対し,全文検索は複数の文書が対象となります。操作は,検索キーワードを入力し「検索」ボタンを押すのみです。 Kabayakiは誰でも簡単に使えることを目指して開発されています。“Namazuをおいしくする”という意味からKabayakiと名付けられました。Linux対応のKabayaki-1.0.0が2001年6月に公開され,2003年6月にはWindows版のKabayakiも発表

    第10回 全文検索システムの「Kabayaki」と「Namazu」の特徴
    fragarach_the_sword
    fragarach_the_sword 2010/08/25
    ITPro連載:企業システムで有効なオープンソース活用法(10)
  • Fessで作るApache Solrベースの全文検索サーバー ~ 導入編

    はじめに ドキュメントは日々増えて続けています。ドキュメントの数が多くなるほど、目的の情報は見つけにくくなるため、それらのドキュメントを効率よく管理する方法が必要です。その解決策の一つとして、複数のドキュメント(ファイル)をまたいで検索することができる「全文検索サーバー」の導入が挙げられます。 Fessは簡単に導入できる、Javaベースのオープンソース全文検索サーバーです。Fessの検索エンジン部分にはApache Solrを利用しています。Solrは、2億ドキュメントもインデックス可能と言われる非常に高機能な検索エンジンです。一方で、Apache Solrで検索システムを構築しようとする場合、クローラ部分などを自分で実装する必要性があります。Fessではクローラ部分にSeasar Projectから提供されるS2Robotを利用して、ウェブやファイルシステム上の様々な種類のドキュメントを

    Fessで作るApache Solrベースの全文検索サーバー ~ 導入編
    fragarach_the_sword
    fragarach_the_sword 2009/11/18
    Fessで作るApache Solrベースの全文検索サーバー ~ 導入編(1/3):CodeZine
  • Welcome to Lucene!

    Apache Lucene set the standard for search and indexing performance. Lucene is the search core of both Apache Solr™ and Elasticsearch™. Our core algorithms along with the Solr search server power applications the world over, ranging from mobile devices to sites like Twitter, Apple and Wikipedia.

    Welcome to Lucene!
    fragarach_the_sword
    fragarach_the_sword 2009/11/18
    Apache全文検索エンジンLucene公式サイト
  • 全文検索システム Hyper Estraier

    概要 Hyper Estraierは全文検索システムです。たくさんの文書の中から、特定の語句を含むものを探して、該当するものの一覧を表示することができます。Webサイトを運営している方なら、自分のサイト専用の検索エンジンとして利用することができます。メールボックスやファイルサーバを対象とした検索ツールとして利用することもできます。 Hyper Estraierには、次のような特徴があります。 インデックスを使った高速な検索ができます。 大量の文書のインデックスを短時間で作成できます。 N-gram方式による漏れのない検索ができます。 形態素解析とN-gramのハイブリッド機構で検索精度を向上させます。 フレーズ検索や正規表現検索や属性検索や類似検索をサポートします。 世界各国の言語が扱えます。 対象文書の所在や形式に依存しません。 賢いWebクローラが付属しています。 ライブラリとして各種

  • 1