Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

crawlerに関するtsupoのブックマーク (13)

  • 岡崎市立中央図書館のMELIL/CSは5年前でも既に駄目 | 水無月ばけらのえび日記

    公開: 2010年8月17日0時55分頃 岡崎市立中央図書館事件、いわゆるlibrahackの件ですが、岡崎市議の耳にも入ったようで……「librahack事件(岡崎市中央図書館事件) (aiailifeyanase.cocolog-nifty.com)」。 そこで、私も図書館の担当者に聞いてみました。 「中央図書館りぶらに導入した蔵書検索システムは、全国のいくつかの図書館でも使用しているもので、この5年間、特にこのようなトラブルは起こっていない。しかし、コンピュータの技術革新はたいへん早く、今回のようなWebサイトの利用形態などは5年前には想定できなかった。」 とのことでした。 それはないでしょう。「5年前には想定できなかった」などということは、あり得ないと言って良いと思います。 絨毯爆撃で有名だったdloader(NaverBot)やBaiduspiderは、2003年の時点で稼働し

    tsupo
    tsupo 2010/08/20
    「クローラーが来て落ちるということが実際に起きたため、robots.txtを置いて対応したという可能性が高い」
  • 法と技術とクローラと私 - 最速転職研究会

    こんにちは、趣味や業務で大手ポータルサイトのサービスで稼働しているいくつかのクローラの開発とメンテナンスを行っているmalaです。 さて先日、岡崎市立中央図書館Webサイトをクロールしていた人が逮捕、勾留、実名報道されるという事件がありました。 関連URL: http://librahack.jp/ 電話してみた的な話 http://www.nantoka.com/~kei/diary/?20100622S1 http://blog.rocaz.net/2010/06/945.html http://blog.rocaz.net/2010/07/951.html この件につきまして法的なことはともかくとして技術者視点での私見を書きたいと思います。法的なことは差し置いて書きますが、それは法的なことを軽んじているわけではなく、法律の制定やら運用やらは、その法律によって影響が出る全ての人々の常識

    法と技術とクローラと私 - 最速転職研究会
  • Diary - rider.withgod.jp(2008-01-26): Zipでくれ!

    tsupo
    tsupo 2008/01/28
    結局、wget を使って収集してるのか。
  • ZIPでくれ!

    tsupo
    tsupo 2008/01/28
    さすがに、[これはひどい]気がする
  • 高反発マットレスの選び方 | アフィブログに騙されない為の高反発マットレス手記

    ウレタン系高反発マットレスでよく言及されるのが密度です。それを頑張って分かりやすく説明してみます。

    tsupo
    tsupo 2007/03/19
    そういえば、「情報が載ってるページ」、作ってないなぁ。そのうち作ります
  • 【埋】「何でもRSS」の良し悪し - トラフィック・コントロールとRSS粒度

    日曜コラムです、こんばんは。 「あまとも」に 商品別RSS が加えられたのは、ちょうど2週間前のことです。 それまでは「あまとも」に登録されている商品全体に対して、 価格変動のあった商品をお知らせするRSSを1つだけ提供していたのですが、 自分の興味の無い商品の価格変動を延々と見せられても困りモノですので、 ユーザのみなさんが自分の興味のある商品の変動だけをRSSリーダに登録 できるように商品別RSSを吐き出すように変更してみたのです。 ところが、この商品別RSSを提供し始めてから、ある変化が起こりました。 サーバ負荷が急激に上がる時間帯が出始めたのです。 RSS自体は全て、価格が変動したときだけ更新される静的なxmlファイルで、 価格チェック処理ののときに合わせて、いわば「ついで」として吐き出す ようにしているもので、生成処理に特に負荷が掛かるワケでもありません。 では何がこんなに負荷と

    【埋】「何でもRSS」の良し悪し - トラフィック・コントロールとRSS粒度
    tsupo
    tsupo 2006/06/19
    あなたのサイトが10,000個のRSSを提供していれば、それは突如として2時間に10,000回のアクセス となってあなたを襲ってきます → なるほど。多種類のRSSを提供する場合にはそれなりの余裕が要るってことですね
  • drry+@-> yahooseeker-jp-mobile

    二週間ほど前から、Y!JAPAN のモバイル版クローラを目にするようになりました。UA 文字列は DoCoMo/2.0/SO502i (compatible; Mozilla 4.0; MSIE 6.0; yahooseeker-jp-mobile AT Yahoo!JAPAN) です。 で、それが何だという話ですが、お行儀が悪いというお話です。/robots.txt で除外しているクロールして欲しくないファイルを、一日数回という異様に少ない頻度でポツポツと取得しに着ます。そもそも /robots.txt を読んでいません。アドホックな対処はあまりしたくないですけど、仕方がないのでとりあえずホスト単位で弾いてます。今のところ、ホストアドレスが隣合って連続している 2 つのホストでこのクローラが動いているようです。まだ始まって間もないと思うので、ゆくゆくは改善されるはず、と期待して様子見です

    tsupo
    tsupo 2006/06/12
    DoCoMo/2.0/SO502i (compatible; Mozilla 4.0; MSIE 6.0; yahooseeker-jp-mobile AT Yahoo!JAPAN) / そもそも /robots.txt を読んでいません。
  • いしなお! - SBMをシードにした検索エンジン , Zend_Db_Tableを使った場合の、DB負荷分散への対応

    _ SBMをシードにした検索エンジン いつのまにかHyper Estraierにクローラーまで追加されて、Hyper EstraierだけでWeb検索システム一式そろうようになっていた。1470.netをリニューアルする際に、今度は検索周りをどういう風に作ろうかいろいろ考えていたんだけど、実はSBMで登録されたURLをシードにして、Hyper Estraierのクローラーに巡回させるだけで、十分面白いコンテンツになりそうな気がする。ブックマークすると、Hyper Estraierが関連情報を勝手に集めてきてくれる感じ。バックエンドはHyper Estraierに任せて、あとはUIに凝ればいい。個人(ローカル)でそういうシステムを動かしても便利だろうね。 このセクションに対するはてなブックマーク 2007年11月15日 koc_bookmark 2006年06月04日 h-sbt wktk!

    tsupo
    tsupo 2006/05/29
    Hyper Estraierにクローラーまで追加されて、Hyper EstraierだけでWeb検索システム一式そろう
  • フレッシュリーダーのクローラーオプションが無料サービスになりました : 管理人@Yoski

    インストール型のRSSリーダー:フレッシュリーダーでは、サーバー環境の問題などからcronの設定ができない場合のために、こちらのサーバーからクローラーを定期的に起動させる「クローラーオプション」というサービスを5月末まで無償という形で提供しています。 現在300台以上のサーバーに対して毎時クローラーを動作させているのですが、このまま問題なくサービスを継続できることが確認できましたので「無料サービス」という位置づけに変更させていただくことにしました。 クローラーの動作しないレンタルサーバーでも安心してフレッシュリーダーを使い続けていただければ幸いです。 なお、無料化に伴い、今後クローラーオプションを利用する場合に、購読サイトの統計情報を弊社にて利用させていただく可能性があることをお願いさせていただければと思います。 個人やフレッシュリーダーが特定されるような情報を含まない、純粋な統計情報は有

    tsupo
    tsupo 2006/04/26
    無料化に伴い、今後クローラーオプションを利用する場合に、購読サイトの統計情報を弊社にて利用させていただく可能性があることをお願いさせていただければと思います → なるほど
  • Web 2.0時代の三行広告サイト「edgeio」がサービス開始

    Windows SQL Server 2005サポート終了の4月12日が迫る、報告済み脆弱性の深刻度も高く、早急な移行を

    tsupo
    tsupo 2006/02/28
    edgeio と書いて越後屋と読みます(うそ) / RSSフィードに「listing」というタグを付けておくと、edgeioのクローラーが自動的に探し出し、自動的にedgeioのディレクトリに掲載してくれる仕組み
  • はてなブックマーク開発ブログ

    はてなブックマークのブックマーク数が多い順に記事を紹介する「はてなブックマーク数ランキング」。8月12日(月)~8月18日(日)〔2024年8月第3週〕のトップ30です*1。 順位 タイトル 1位 いつか役に立つやつ - Togetter [トゥギャッター] 2位 ブラウザの履歴を操作して「戻る」ボタンで広告を出すやつについて – コーヒーサーバは香炉である 3位 そこそこ借金して「俺が考える最強のタスク管理・時間管理サービス」作った。どうか使ってみてほしい|jMatsuzaki🔥 4位 ひとりの書店主として、伝えたいこと とうとう危惧していたことが現実になってしまった。|二村知子 隆祥館書店 5位 【速報中】岸田首相会見 自民党総裁選挙に不出馬を表明 首相退任へ | NHK | 自民党総裁選 6位 人事制度の脆弱性を衝いて給料UPする『人事制度の基』: わたしが知らないスゴは、きっ

    はてなブックマーク開発ブログ
    tsupo
    tsupo 2006/02/16
    自動巡回ロボットにも理解できる注意書き(ってそんなものあるのか?)じゃないと、効果がない気がする。人間が読んで設定を変えてくれることに期待するしかない、っての、何とかしたいけど、困難。
  • 人間になりすますウェブ巡回プログラム

    人間になりすますウェブ巡回プログラム 2006年1月19日 コメント: トラックバック (0) Quinn Norton 2006年01月19日 ワシントンDC発――ウェブサイトを閲覧する訪問者には2種類ある。一方はあちこちのサイトを覗いて、画像に目を通し、リンクを見てあれこれと考え、ゆっくりしたペースでクリックする人間の訪問者だ。これに対し、もう一方のウェブ・クローラー(ウェブ自動巡回ソフト、スパイダーとも呼ばれる)は、自動的にページを読み取るプログラムで、『Google』(グーグル)などの検索エンジンなどから送り込まれる。さらに気味の悪いことに、悪意を持った攻撃者や競合他社、さらには電子メールアドレス収集をもくろむスパム業者から、こうしたクローラーが送られてくることもある。 それでも、幸いなことにサーバーログを見ればこの2種類の訪問者の区別は簡単につくので、サイト運営者にとって望ましく

    tsupo
    tsupo 2006/01/20
    このクローラーはさまざまなインターネットアドレスを装って侵入し、いろいろなブラウザーを使っているように見せかけながら、人間並みにゆっくりしたテンポでサイトを巡回する
  • 今日の井原 - 都内某社で開催されたクローラ勉強会のスライドを公開します。

    技術書あげます えろい画像だけモザイク [読書]けなす技術 CatchPhraser(きゃっちふれいざー): スニペットとしてキャッチコピーを表示するblog検索エンジン AdWords appears everywhere! Cマガジン休刊 「オープンソースの全文検索エンジンの速度性能比較」のご紹介 日経コンピュータ誌の特集「IT関連学会の憂」を読んだ googleの新卒採用説明会に申し込んでみたよ [memo]OpenCVの顔認識機能を使う 自分自身をブックマーク Newzingo: tagをベースにGoogle Newsを閲覧するインタフェース Google Tip: "(ダブルクォーテーション)は閉じなくてもOK リンク見出し是非裁判の件 脅かされる人認証

    tsupo
    tsupo 2005/10/26
    wikipediaの「web crawler」の項目では、それらが見通し良くまとめられています。
  • 1