Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

Sennaに関するmamuchiのブックマーク (3)

  • [ThinkIT] 第5回:Ludiaの多彩な検索機能の秘密 (1/4)

    第4回では、オープンソースの全文検索システム「Ludia」の導入を行いました。今回はLudiaを実際に動かしながら、検索機能のバリエーションについてみていきます。 まず、Ludiaがどのような構成になっているかをもう一度確認します。なお、Ludiaがどのような作りになっているかといった、すこし細かい説明もありますので、そこは読み飛ばして次の「基的な検索」の説明に進んでもかまいません。 LudiaはPostgreSQLの拡張モジュールとして、全文検索インデックス機能を提供します。「第2回:データを徹底活用する全文検索機能の仕組みと製品比較」で全文検索インデックスの説明をする際に、書籍の索引を例としてとりあげましたが、書籍の索引とは「単語 → ページ番号」という対応表のことでした。データベースのインデックスでは、これが「単語 → 行のID」という対応表になります。 PostgreSQLのイン

  • SennaによるN-gramインデックスで注意すべき挙動 - グニャラくんのグニャグニャ備忘録@はてな

    追記:以下の文書について 現在リリースされているSenna 1.0.7では、 N-gramで1文字の日語を検索する場合は 直接部分一致検索を動作させるようにしました。 というわけで、以下で説明している挙動は今現在当てはまりません。 1文字の単語について uchiuchiyamaさんのブログにあった、Sennaのクエリ書式に対する質問 http://d.hatena.ne.jp/uchiuchiyama/20070317/senna_query_problem この問題ですが、 おそらくN-gramでインデックスを作成している場合に起こっていると考えられます。 SennaのN-gramインデックスはbi-gram、 すなわち2文字を1つのトークンとみなし、 インデックスへの登録を行っています。 ということは、文書の末尾を除いて、 すべてのトークンは2文字となり、 1文字のトークンで検索をし

    SennaによるN-gramインデックスで注意すべき挙動 - グニャラくんのグニャグニャ備忘録@はてな
  • ウェブリブログ:サービスは終了しました。

    「ウェブリブログ」は 2023年1月31日 をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧

    ウェブリブログ:サービスは終了しました。
  • 1