オープンソースな検索エンジン Nutch のインストールから設定まで 本家サイト+α † 本家サイトはこちら http://www.nutch.org/ 開発者向けページはこちら http://www.nutch.org/docs/en/developers.html このページの前半戦の参考ページはこちら http://www.nutch.org/docs/en/tutorial.html うちのサーバーで動いてるサンプル http://nutch.happy-camper.st/ 6時間おきに新しいページを求めてネット上を徘徊して回ります。 2004/02/18 1日1回に変更。 1回のデータ更新で、3時間ほど費やされたら、1日の半分は巡回してることになる。 結構データもたまってるみたいだしね。 韓国人のLEEさんが立ち上げている、Nutchサポートサイト http://www.nut
前回 Nutch の Lucene 形式のインデックスを Solr から覗いてみました。 中身を覗いてみることはできたものの以下の課題もでました。 host や site、contentといったデータが表示されない。 日本語で検索できない。 この辺の対応には Nutch のデータを使って、別途 Solr でインデキシングし直して新しいインデックスを作った方が良さそうです。 Nutch にはこのために solrindex という命令が用意されています。 手順としては Solr の環境を作る solrindex を実行する という手順になります。 前提条件 以下の説明の前提条件です。 Solr のマルチコアを使うことを前提としています。 マルチコアについてはこちらを参考にしてください。 [Solr] マルチコア (Multi core) ってすっげー便利で実は簡単 クロール済みの Nutch
やってみた。 Nutchはウェブスパイダーとしてのクロール機能を提供している。内部に分散ファイルシステムたるHadoopを持っていのだが、今回はこれは使わない方法(のようだ)。 - - - - 1. Nutchを<a href="http://hudson.zones.apache.org/hudson/job/Nutch-trunk/">ダウンロード</a>し、解凍する。 tar xzf apache-nutch-1.0.tar.gz 2. Solrの設定を行う Nutchの中にはschema.xmlなどSolrを連携して使うためのサンプルの設定ファイルが含まれています。 a. schema.xmlの配置 apache-nutch-1.0/conf to directory apache-solr-1.3.0/example/solr/conf b. “content”フィールドの設定変
Nutchというクローラ、インデクサ、検索を行なうオープンソースがあったので、 軽く触ってみた。 Nutch内部ではLucene、Hadoopが動作してるようなので、勉強にはちょうどいいかと思う。 早速、インストールから動作までの解説をする。 ■クローラ 1.Nutch本体ダウンロード、解凍 # tar -xvzf nutch-0.9.tar.gz # mv nutch-0.9 /usr/local/nutch 2.環境変数にパスを通す # vi /etc/bashrc export NUTCH_HOME=/usr/local/nutch export PATH=${NUTCH_HOME}/bin:${PATH} # source /etc/bashrc 3.クロール先を決める クロール先URLリストを作成する。 今回は2サイトをクロールする予定。 # cd ${NUTCH_HOME} #
「Nutch」でウェブサイトをクローリングする方法を説明します。 クローリングとは、簡単にいえば「ウェブサイトの情報を集めるてくれる仕組み」でしょうか。 (注) nutchを利用するには、unixがお勧めです。 私は、「CentOS 4」をOSとし用いました。 最初はwindowsでがんばろうと試行錯誤しましたが 多くの無駄な時間をつかってしまうという結果に終わりました(TT)。 「Nutch」利用したクローリングの方法には、 (A)ある特定のネットワーク(intranet)をクローリングする方法 (B)ウェブ全体(whole-web)をクローリングする方法 の2つがあります。 今回は、このblogサイト「http://kazuhiro.ty.land.to/blog/」を起点にして (A)の方法でクローリングする方法を紹介します。 (1)「Nutch」をインストールする 「Nutch」の
Nutchは、オープンソース・ウェブ検索エンジンを実装する初めての試みです。 ウェブ検索はインターネット・ナビゲーションのために必用な基本的機能です。ところが現在では、ウェブ検索エンジンの数は減少しています。 今日の寡占状態は、すぐに、ほとんど全てのウェブ検索を提供している一つの会社の商業利用に独占されるかもしれません。 一社の独占は、多くのインターネットのユーザーにとって良くないことです。 Nutch は、商用ウェブ検索エンジンには無い透過性(公開性)をもたらすものです。 Nutch による検索結果は、充分に偏見が無いことがわかっており、安心して検索をまかせることができます(少なくとも、Nutsh のバイアスは、公共のためのものです)。 全ての既存の主な検索エンジンは、検索エンジン所有者の実装した公式によって順位が決められます。検索結果として与えられたページの順位付けの理由が説明されるわ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く