[B! crawler] lamichのブックマーク

lamich id:lamich

crawlerに関するlamichのブックマーク (13)

GitHub - datacratic/google-url: Google's URL parsing library
lamich 2014/07/18
crawler

php
リンク
ImageGeter 2.1.0
・説明インターネットのホームページに存在する大量の画像データを効率よく収集するためのプログラムです。 Internet Exporerで画像を保存する場合は通常、ホームページを表示した後、目的の画像の上で、「右クリック」「名前をつけて画像を保存」を繰り返す必要がありますが、このプログラムを使用すると、ホームページのURLを登録するだけで、表示されている画像が簡単に収集可能です。また、ページ内のリンクを追跡してリンク先のページにある画像も含めて収集することが出来ます。作者はブロードバンドと高性能ＰＣの能力を極限まで引き出すことをこのソフトのコンセプトにしているため、各ページからのデータ収集、受信データの解析処理がマルチスレッドで動作するのは当然のこと、受信ページの優先順位計算、ダウンロード状況の表示、サムネイルの表示まで、マルチスレッド化されています。通常のダウンロードプログラムと比
lamich 2012/09/14
image

downloader

crawler
リンク
GmlMgr - 産廃置き場
lamich 2012/04/01
google

map

crawler
リンク
GM_Lite改造版 – ぷちのいず
2009/03/02 追記 waste様が GM_Lite を便利にするアドオン(?)のGmlMgr を作成されました。GmlMgr の方が、私のdown_imgs.pl よりも高機能で新しい Google Maps のバージョンへ対応も早いと思いますので、GmlMgr を使用されることをおすすめします！概要 Google Mapsのダウンロード制限を回避した down_imgs.pl を配布しています。 tera様の実用工房で配布されている GM_Lite-0.1.4 は Google Maps の地図画像をダウンロードし、ローカルで閲覧することができる素晴らしいソフトです。拙作 qgmap を作るきっかけにもなりました。しかし、Google Maps では wget 等のダウンローダを使用した地図画像のダウンロードを制限する変更を行っており、デフォルトの GM_Lite ではダウンロード
lamich 2012/04/01
google

map

crawler
リンク
実用工房 » Blog Archive » GM_Lite 0.1.4公開
さてさて、今回はGM_Lite 0.1.4の公開です。今回の更新の目玉は、Windows環境での地図のダウンロードの高速化です。ここのところbucchiさまが大変有難いことにGM_Lite互換のZaurusネイティブアプリになりますqgmapを開発され、またHB1さまが高度なGPSとの連携機能を持つZegaにGM_Liteの地図の表示に対応して下さるというとんでもない事態になっており、ここでダウンローダが不出来なばかりにお二人にご迷惑をおかけするわけにはイカン！ということで、以前から問題になっておりました、地図のダウンロードが遅いことと環境依存でエラーが発生する問題に対処致しました。従来版と高速版でおおまかなベンチマークを取ってみたところ、以下のようになりました。 “全世界”のダウンロードにかかる時間従来版：17分53秒高速版：3分50秒 “全世界”がダウンロード済みの時のスキップ
lamich 2012/04/01
google

map

crawler
リンク
Common Crawl - Open Repository of Web Crawl Data
Common Crawl maintains a free, open repository of web crawl data that can be used by anyone.Common Crawl is a 501(c)(3) non–profit founded in 2007. ‍ We make wholesale extraction, transf ormation and analysis of open web data accessible to researchers.Overview Over 250 billion pages spanning 15 years.Free and open corpus since 2007.Cited in over 10,000 research papers.3–5 billion new pages added ea
lamich 2012/03/12
オープンなWebのクローラ #fb

crawler

google

commoncrawl

open
リンク
phpでxpathを使ってスクレイピング（WEBページの取得）とXpathの書式例｜プログラムメモ
■ 1. まず　php-xml　のインストール yum install php-xml ■ 2. 実際のサイトからスクレイピングを行って Xpath で要素を取得のPHPコード test.server.com から WEBページを取得してきて＜div id="myid"＞の要素を取得します。 $url='http://test.server.com'; // file_get_contents を使うより高速、ただしメモリは食う require_once 'HTTP/Client.php'; $client =& new HTTP_Client(); $client->get($url); $response = $client->currentResponse(); $dom = @DOMDocument::loadHTML( $response['body']); $xml = sim
lamich 2011/11/04
php

xpath

crawler
リンク
スクレイピングするなら ScraperWiki 使うといいよ - ヤルキデナイズドだった
Web ページからデータを抽出してデータベースに突っ込むことに性的興奮を覚えるみなさん、 ScraperWiki 使うとキモチイイですよ。以上です。そうではないみなさんには少々の説明が必要かと思いますので少々書きます。 ScraperWiki はスクレーパ（Web ページをスクレイピングするスクリプト）とスクレイピングで得られたデータを共有しようぜっという Web サービスです。Wiki と名が付いていますが Wiki っぽいページ構成になってるわけではなく、スクレーパやデータを誰でも編集できるようにして成果を共有するという理念が Wiki と共通しているのが由来みたいです。 ScraperWiki を使うとスクレーパを作るのがラクになります： Web ベースのエディタでスクレーパを書き、その場で実行できる PHP、 Python または Ruby が使える（HTML パーサなどのモジュ
lamich 2011/06/06
scrape

crawler

ScraperWiki
リンク
node.jsとjQueryでスクレイピングするウェブアプリの作り方
やっぱ jQuery 便利ですよ(*´・ω・)(・ω・｀*)ﾈｰセレクタ使って jQuery でダカダカやってると、DOM とか正規表現でネチネチやるのがバカらしくなっちゃいます。と日頃から思ってたりしてまして、サーバサイド JavaScript がメインストリームになって、jQuery でウェブアプリをコーディングできれば超ラクできるかもと期待しています。で、先日サーバサイドJavaScriptとjQueryでスクレイピングという記事をうpったところ、やっぱ Rhino じゃなくて node.js がえーんよ(´･ω･｀)というコメントを頂きましたので、node.js と jQuery でサーバサイド JavaScript スクレイピングしてみることにしました。今回は node.js ですので、単にスクレイピングする（コマンドラインから実行する）スクリプトだけじゃなくて、スクレイ
lamich 2011/05/30
node.js

scraping

crawler

bot

jquery
リンク
ほとんどの「論理マークアップ」はクローラにとってはクソの役にも立たない : ひろ式めもちょう
Japan.internet.com Webビジネス - SEO のキホン―なぜ論理構造が必要なのか http://japan.internet.com/busnews/20070402/6.html てなことをあやしげSEO系マーケターが書いてるわけだが。こういう神話が一人歩きしている状態がイヤだ。いくぶん極論ではあるが、これが「間違っている」ということをネット辺境のきわみであるこのページに、せめてメモっておこう。ほとんどの場合、クローラにとってHTMLごときの論理マークアップなんてクソの役にも立たない！ …だって作ってる本人が最初にタグを削除してるって言ってんだから、役に立つわけないじゃん。フィードリーダや特殊なスパイダーでもない限り、細かい論理マークアップを見たりなんかしないよ。フィードリーダは埋め込まれているフィード情報をチェックするからしかたない。特殊なスパイダーというのは
lamich 2009/03/02
seo

markup

html

crawler

bot
リンク
Yahoo!検索ヘルプ - モバイル版Yahoo!検索の検索エンジン（クローラー）について
チャットでお問い合わせ閉じる何かお困りですか？チャットでお気軽にご相談ください。オペレーターがサポートいたします。相談する Yahoo! JAPAN Yahoo!検索ヘルプ Yahoo!検索ヘルプキーワードから探すヘルプ検索よく検索されるキーワード：「履歴」「入力補助」「関連検索ワード」「削除」カテゴリーから探す Yahoo!検索全般そのほかの検索機能こんなときは画像検索について動画検索について画像・動画検索全般リアルタイム検索についてレシピ検索についてウェブ検索について関連リンク Yahoo!検索ガイド Yahoo!検索カスタムサーチ Yahoo!検索インフォセンター Yahoo!検索へのご意見・ご要望広告に関するご意見 Yahoo! JAPANに掲載中の広告に関するご意見 Yahoo!知恵袋 Yahoo!知恵袋は、参加者同士で知恵や知識を楽しく教え合い、分
lamich 2008/09/24
yahoo

mobile

official

help

crawler

yahoo slurp
リンク
mixi Engineers’ Blog » 新RSS Crawlerの裏側
このブログでは初めましての長野雅広(kazeburo)です。mixi開発部・運用グループでアプリケーションの運用を担当しています。 12月12日よりmixiのRSSのCrawlerが改善され、外部ブログの反映が今までと比べ格段にはやくなっているのに気付かれた方も多いかと思います。この改善されたRSS Crawlerの裏側について書きたいと思います以前のCrawlerについて以前のCrawlerは cronからbrokerと呼ばれるプログラムを起動 brokerはmember DBから全件、idをincrementしながら取得し、外部ブログが設定されていればcrawlerを起動(fork) crawlerはRSSを取得しDBに格納して終了このような設計になっていました。この設計の問題として、member DBを全件走査するという無駄な動作と、一件一件crawlerを起動するためオーバ
lamich 2007/12/22
crawler

mixi

rss
リンク
メッセージ
ウェブ魚拓は、ウェブページを引用するためのツールです。ブログや掲示板に、記録した魚拓のURLを貼って利用できます。
lamich 2007/09/03
python

tool

web

ソフトウェア

本文抽出

crawler
リンク
1