[B! nutch] rin1024のブックマーク

Downloading and Installing Nutch

rin1024 2011/06/09

nutch

リンク

Nutch 0.9 を Eclipse で実行する方法 : nutch : 技術情報 : コラム : OpenCms（オープンソースCMS）・クロールなどの企画・開発・運用・サポートならユビキャスト

rin1024 2011/06/09

リンク

Software Error

Software Error:Wikiが存在しません。 at /var/www/wiki.cgi line 60.

rin1024 2011/06/09

日本語対応など

nutch

リンク

オープンソースな検索エンジン Nutch のインストールから設定まで本家サイト＋α † 本家サイトはこちら http://www.nutch.org/ 開発者向けページはこちら http://www.nutch.org/docs/en/developers.html このページの前半戦の参考ページはこちら http://www.nutch.org/docs/en/tutorial.html うちのサーバーで動いてるサンプル http://nutch.happy-camper.st/ ６時間おきに新しいページを求めてネット上を徘徊して回ります。 2004/02/18 １日１回に変更。１回のデータ更新で、３時間ほど費やされたら、１日の半分は巡回してることになる。結構データもたまってるみたいだしね。韓国人のLEEさんが立ち上げている、Nutchサポートサイト http://www.nut

rin1024 2011/06/09

ビルドはantを使う

java
nutch

リンク

Index of /infosystems/apache/nutch

rin1024 2011/06/09

リンク

Nutch と Solr の連携その2 〜 Nutch のインデックスを Solr で再インデックスする〜 - Solr, Python, MacBook Air in Shinagawa Seaside

前回 Nutch の Lucene 形式のインデックスを Solr から覗いてみました。中身を覗いてみることはできたものの以下の課題もでました。 host や site、contentといったデータが表示されない。日本語で検索できない。この辺の対応には Nutch のデータを使って、別途 Solr でインデキシングし直して新しいインデックスを作った方が良さそうです。 Nutch にはこのために solrindex という命令が用意されています。手順としては Solr の環境を作る solrindex を実行するという手順になります。前提条件以下の説明の前提条件です。 Solr のマルチコアを使うことを前提としています。マルチコアについてはこちらを参考にしてください。 [Solr] マルチコア (Multi core) ってすっげー便利で実は簡単クロール済みの Nutch

rin1024 2009/07/08

solr用にはコマンドがあるんだなぁ

nutch

リンク

[Solr] Nutchでサイトクロール

やってみた。 Nutchはウェブスパイダーとしてのクロール機能を提供している。内部に分散ファイルシステムたるHadoopを持っていのだが、今回はこれは使わない方法(のようだ)。 - - - - 1. Nutchを<a href="http://hudson.zones.apache.org/hudson/job/Nutch-trunk/">ダウンロード</a>し、解凍する。 tar xzf apache-nutch-1.0.tar.gz 2. Solrの設定を行う Nutchの中にはschema.xmlなどSolrを連携して使うためのサンプルの設定ファイルが含まれています。 a. schema.xmlの配置 apache-nutch-1.0/conf to directory apache-solr-1.3.0/example/solr/conf b. “content”フィールドの設定変

rin1024 2009/07/08

nutch

リンク

http://lucene.apache.org/nutch/apidocs-1.0/index.html

rin1024 2009/07/08

nutch
api

リンク

http://java.sorauta.net/nutch/search.jsp

rin1024 2009/07/08

テスト用

self
nutch

リンク

Lucene/Solr/Nutch - 入門者向けスライド | 関口宏司のLuceneブログ

一定期間更新がないため広告を表示しています

rin1024 2009/02/13

nutch

リンク

Software Error

Software Error:Wikiが存在しません。 at /var/www/wiki.cgi line 60.

rin1024 2009/02/13

nutch

リンク

RwJ:Javaオープンソース「Nutch」はクロール→インデクシング→検索までいける

Nutchというクローラ、インデクサ、検索を行なうオープンソースがあったので、軽く触ってみた。 Nutch内部ではLucene、Hadoopが動作してるようなので、勉強にはちょうどいいかと思う。早速、インストールから動作までの解説をする。 ■クローラ 1.Nutch本体ダウンロード、解凍 # tar -xvzf nutch-0.9.tar.gz # mv nutch-0.9 /usr/local/nutch 2.環境変数にパスを通す # vi /etc/bashrc export NUTCH_HOME=/usr/local/nutch export PATH=${NUTCH_HOME}/bin:${PATH} # source /etc/bashrc 3.クロール先を決めるクロール先URLリストを作成する。今回は2サイトをクロールする予定。 # cd ${NUTCH_HOME} #

rin1024 2009/02/13

nutch

リンク

Kazuhiro's Weblog: 「Nutch」ですいすい情報収集　(クローリング機能を試す)

「Nutch」でウェブサイトをクローリングする方法を説明します。クローリングとは、簡単にいえば「ウェブサイトの情報を集めるてくれる仕組み」でしょうか。 (注) nutchを利用するには、unixがお勧めです。私は、「CentOS 4」をOSとし用いました。最初はwindowsでがんばろうと試行錯誤しましたが多くの無駄な時間をつかってしまうという結果に終わりました（ＴＴ）。「Nutch」利用したクローリングの方法には、 (A)ある特定のネットワーク(intranet)をクローリングする方法 (B)ウェブ全体(whole-web)をクローリングする方法の2つがあります。今回は、このblogサイト「http://kazuhiro.ty.land.to/blog/」を起点にして (A)の方法でクローリングする方法を紹介します。 (1)「Nutch」をインストールする「Nutch」の

rin1024 2009/02/13

nutch

リンク

Nutch: Nutchについて

Nutchは、オープンソース・ウェブ検索エンジンを実装する初めての試みです。ウェブ検索はインターネット・ナビゲーションのために必用な基本的機能です。ところが現在では、ウェブ検索エンジンの数は減少しています。今日の寡占状態は、すぐに、ほとんど全てのウェブ検索を提供している一つの会社の商業利用に独占されるかもしれません。一社の独占は、多くのインターネットのユーザーにとって良くないことです。 Nutch は、商用ウェブ検索エンジンには無い透過性（公開性）をもたらすものです。 Nutch による検索結果は、充分に偏見が無いことがわかっており、安心して検索をまかせることができます（少なくとも、Nutsh のバイアスは、公共のためのものです）。全ての既存の主な検索エンジンは、検索エンジン所有者の実装した公式によって順位が決められます。検索結果として与えられたページの順位付けの理由が説明されるわ

rin1024 2009/02/13