・説明 インターネットのホームページに存在する大量の画像データを効率よく収集するためのプログラムです。 Internet Exporerで画像を保存する場合は通常、ホームページを表示した後、目的の画像の上で、「右クリック」「名前をつけて画像を保存」を繰り返す必要がありますが、このプログラムを使用すると、ホームページのURLを登録するだけで、表示されている画像が簡単に収集可能です。 また、ページ内のリンクを追跡してリンク先のページにある画像も含めて収集することが出来ます。 作者はブロードバンドと高性能PCの能力を極限まで引き出すことをこのソフトのコンセプトにしているため、各ページからのデータ収集、受信データの解析処理がマルチスレッドで動作するのは当然のこと、受信ページの優先順位計算、ダウンロード状況の表示、サムネイルの表示まで、マルチスレッド化されています。 通常のダウンロードプログラムと比
2009/03/02 追記 waste様が GM_Lite を便利にするアドオン(?)のGmlMgr を作成されました。GmlMgr の方が、私のdown_imgs.pl よりも高機能で新しい Google Maps のバージョンへ対応も早いと思いますので、GmlMgr を使用されることをおすすめします! 概要 GoogleMapsのダウンロード制限を回避した down_imgs.pl を配布しています。 tera様の実用工房で配布されている GM_Lite-0.1.4 は GoogleMaps の地図画像をダウンロードし、ローカルで閲覧することができる素晴らしいソフトです。拙作 qgmap を作るきっかけにもなりました。 しかし、GoogleMaps では wget 等のダウンローダを使用した地図画像のダウンロードを制限する変更を行っており、デフォルトの GM_Lite ではダウンロード
さてさて、今回はGM_Lite 0.1.4の公開です。 今回の更新の目玉は、Windows環境での地図のダウンロードの高速化です。ここのところbucchiさまが大変有難いことにGM_Lite互換のZaurusネイティブアプリになりますqgmapを開発され、またHB1さまが高度なGPSとの連携機能を持つZegaにGM_Liteの地図の表示に対応して下さるというとんでもない事態になっており、ここでダウンローダが不出来なばかりにお二人にご迷惑をおかけするわけにはイカン!ということで、以前から問題になっておりました、地図のダウンロードが遅いことと環境依存でエラーが発生する問題に対処致しました。 従来版と高速版でおおまかなベンチマークを取ってみたところ、以下のようになりました。 “全世界”のダウンロードにかかる時間 従来版:17分53秒 高速版:3分50秒 “全世界”がダウンロード済みの時のスキップ
Common Crawl maintains a free, open repository of web crawl data that can be used by anyone.Common Crawl is a 501(c)(3) non–profit founded in 2007. We make wholesale extraction, transformation and analysis of open web data accessible to researchers.Overview Over 250 billion pages spanning 15 years.Free and open corpus since 2007.Cited in over 10,000 research papers.3–5 billion new pages added ea
■ 1. まず php-xml のインストール yum install php-xml ■ 2. 実際のサイトからスクレイピングを行って Xpath で要素を取得のPHPコード test.server.com から WEBページを取得してきて<div id="myid">の要素を取得します。 $url='http://test.server.com'; // file_get_contents を使うより高速、ただしメモリは食う require_once 'HTTP/Client.php'; $client =& new HTTP_Client(); $client->get($url); $response = $client->currentResponse(); $dom = @DOMDocument::loadHTML( $response['body']); $xml = sim
Web ページからデータを抽出してデータベースに突っ込むことに性的興奮を覚えるみなさん、 ScraperWiki 使うとキモチイイですよ。以上です。 そうではないみなさんには少々の説明が必要かと思いますので少々書きます。 ScraperWiki はスクレーパ(Web ページをスクレイピングするスクリプト)とスクレイピングで得られたデータを共有しようぜっという Web サービスです。Wiki と名が付いていますが Wiki っぽいページ構成になってるわけではなく、スクレーパやデータを誰でも編集できるようにして成果を共有するという理念が Wiki と共通しているのが由来みたいです。 ScraperWiki を使うとスクレーパを作るのがラクになります: Web ベースのエディタでスクレーパを書き、その場で実行できる PHP、 Python または Ruby が使える(HTML パーサなどのモジュ
やっぱ jQuery 便利ですよ(*´・ω・)(・ω・`*)ネー セレクタ使って jQuery でダカダカやってると、DOM とか正規表現でネチネチやるのがバカらしくなっちゃいます。 と日頃から思ってたりしてまして、サーバサイド JavaScript がメインストリームになって、jQuery でウェブアプリをコーディングできれば超ラクできるかもと期待しています。 で、先日サーバサイドJavaScriptとjQueryでスクレイピングという記事をうpったところ、やっぱ Rhino じゃなくて node.js がえーんよ(´・ω・`)というコメントを頂きましたので、node.js と jQuery でサーバサイド JavaScript スクレイピングしてみることにしました。 今回は node.js ですので、単にスクレイピングする(コマンドラインから実行する)スクリプトだけじゃなくて、スクレイ
Japan.internet.com Webビジネス - SEO のキホン―なぜ論理構造が必要なのか http://japan.internet.com/busnews/20070402/6.html てなことをあやしげSEO系マーケターが書いてるわけだが。 こういう神話が一人歩きしている状態がイヤだ。いくぶん極論ではあるが、これが「間違っている」ということをネット辺境のきわみであるこのページに、せめてメモっておこう。 ほとんどの場合、クローラにとってHTMLごときの論理マークアップなんてクソの役にも立たない! …だって作ってる本人が最初にタグを削除してるって言ってんだから、役に立つわけないじゃん。 フィードリーダや特殊なスパイダーでもない限り、細かい論理マークアップを見たりなんかしないよ。フィードリーダは埋め込まれているフィード情報をチェックするからしかたない。特殊なスパイダーというのは
チャットでお問い合わせ 閉じる 何かお困りですか? チャットでお気軽にご相談ください。 オペレーターがサポートいたします。 相談する Yahoo! JAPAN Yahoo!検索 ヘルプ Yahoo!検索ヘルプ キーワードから探す ヘルプ検索 よく検索されるキーワード:「履歴」「入力補助」「関連検索ワード」「削除」 カテゴリーから探す Yahoo!検索全般そのほかの検索機能こんなときは画像検索について動画検索について画像・動画検索全般リアルタイム検索についてレシピ検索についてウェブ検索について 関連リンク Yahoo!検索ガイド Yahoo!検索 カスタムサーチ Yahoo!検索 インフォセンター Yahoo!検索へのご意見・ご要望 広告に関するご意見 Yahoo! JAPANに掲載中の 広告に関するご意見 Yahoo!知恵袋 Yahoo!知恵袋は、参加者同士で知恵や知識を楽しく教え合い、分
このブログでは初めましての長野雅広(kazeburo)です。mixi開発部・運用グループでアプリケーションの運用を担当しています。 12月12日よりmixiのRSSのCrawlerが改善され、外部ブログの反映が今までと比べ格段にはやくなっているのに気付かれた方も多いかと思います。この改善されたRSS Crawlerの裏側について書きたいと思います 以前のCrawlerについて 以前のCrawlerは cronからbrokerと呼ばれるプログラムを起動 brokerはmember DBから全件、idをincrementしながら取得し、外部ブログが設定されていればcrawlerを起動(fork) crawlerはRSSを取得しDBに格納して終了 このような設計になっていました。 この設計の問題として、member DBを全件走査するという無駄な動作と、一件一件crawlerを起動するためオーバ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く