[B! scraping] lizyのブックマーク

lizy id:lizy

scrapingに関するlizyのブックマーク (33)

AWS FargateとLambdaでサーバーレスなクローラー運用 - orangain flavor
これはWebスクレイピング Advent Calendar 2017の7日目の記事です。こんな感じでAWS FargateとAWS Lambdaを使ってサーバーレス（EC2レス）なクローラーを作ります。この記事はFargateでのクローリング処理にフォーカスしており、クロールしたHTMLをS3に保存するところまでを主に解説します。Lambdaの方はおまけ程度の扱いで、スクレイピングしたデータの扱い（データベースへの格納など）はスコープ外です。長くなったので目次です。背景 AWS Fargateの登場クローラーの構成やってみる 1. ScrapyのプロジェクトでSpiderを作る 2. Scrapy S3 Pipelineをインストールする 3. Scrapy S3 Pipelineをプロジェクトに追加する 4. ScrapyのプロジェクトをDockerizeする 5. Amazo
lizy 2017/12/07
aws

aws fargate

docker

scraping
リンク
AWS Lambdaを使ってサーバレスにWebサイトを監視してSlackに通知する - drilldripper’s blog
Webサイトの状況を監視するためのスクリプトを動かしたいというシチュエーションが発生することがあります。典型的な例としてECサイトの在庫監視などがあると思います。この文章を読んでいる人の中には、Nintendo Switchの在庫状況を監視して通知するスクリプトを動かしている人もいるもいるのではないでしょうか。*1 在庫確認のようなシチュエーションでは常時起動しているPC、すなわちサーバに相当するものを用意しなければなりません。VPSを借りる人も多いと思いますが、スクリプトを動かすだけに使用するには少々オーバースペックです。そこで今回はAWS Lamdaを使って安価にサーバレスでサイトの在庫状況を監視するシステムを構築します。例としてNintendo Switchの在庫状況を通知するシステムを作ります。おそらく無料枠内で収まると思いますが、無料枠を超えたとしてもAWS Lambda自体
lizy 2017/07/09
aws

aws lambda

python

scraping
リンク
AWS Lambda+Node.jsのモジュールcheerio-httpcliでWebスクレピングをする - プログラマでありたい
先日の『Node.jsでスクレイピングするならば』の続きを書きました。全10回くらいのシリーズになる予定で、今回は一番シンプルな静的サイト／JavaScript不要なページに関するスクレイピングの説明です。cheerio-httpcliをAWS Lambdaで動かすところで、cheerio-httpcliの説明というよりlambdaでの動かし方がメインになっています。ちなみにcheerio-httpcliは、cheerioの拡張で、最近活発に開発されています。なお、AWS Lambdaとはなんぞやとと言う人に簡単に説明すると、Lambdaはサーバ不要のコンピュートエンジンです。ユーザーはプログラムをアップロードするだけで実行可能で、サーバのメンテナンスはAWS側が全てやってくれるという夢のようなインフラです。普通にサーバーを立ち上げるより安く便利なことが多いので、是非知っておくべきサービ
lizy 2016/04/19
node.js

aws lambda

scraping
リンク
goqueryが便利 - razokulover publog
GIFMAGAZINEのバックエンドの一部でGoを使いたいなと思って、最近Goを書きはじめた。そこでとりあえずスクレイピングしてみるかと思って調べたら、goqueryなるライブラリを発見。 PuerkitoBio/goquery これを使えばgoでjqueryライクにセレクタを指定して、DOMノードを操作できる。 Rubyだとnokogiriを使っていたんだけど、それよりも個人的には直感的に使える感じがした。以下はサンプル。 package main import ( "fmt" "github.com/PuerkitoBio/goquery" ) func main() { doc, _ := goquery.NewDocument("http://matome.naver.jp/topic/1LuxN") doc.Find(".mdMTMTtlList02It em").Each(f
lizy 2014/07/15
golang

scraping

programming
リンク
Nokogiriを使ったRubyスクレイピング [初心者向けチュートリアル]
プログラム初心者な方向けに始めたRailsチュートリアルシリーズです。今回はRubyでスクレイピングをしたいという人向けに『Nokogiri』というライブラリを使ったスクレイピングのチュートリアルを作ってみました！ (05-02 08:10) 補足： Windowsではじめての人向けの記事を追加 🏈 目次(1) Webスクレイピングとは？ (2) Nokogiriとは？ (3) 最初に読んでおくと捗りそうな記事 (4) Gem Nokogiriのインストール (5) Yahoo!Japanのトップページからtitleを取得 (6) NaverまとめTechページの注目一覧のタイトル・画像を取得 (7) 実際にコードを書くときに参考になるサイト (8) Railsへの組み込み 🐝 (1) Webスクレイピングとは？WebスクレイピングとはWebサイトのHTMLデータを収集して、特定のデー
lizy 2014/02/15
ruby

programming

scraping
リンク
PythonとかScrapyとか使ってクローリングやスクレイピングするノウハウを公開してみる！ - orangain flavor
2016-12-09追記「Pythonクローリング&スクレイピング」という本を書きました！ Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド- 作者: 加藤耕太出版社/メーカー: 技術評論社発売日: 2016/12/16メディア: 大型本この商品を含むブログを見る 2015年6月21日追記：この記事のクローラーは動かなくなっているので、Scrapy 1.0について書いた新しい記事を参照してください。 2014年1月5日 16:10更新：デメリットを修正しました。以下の記事が話題になっていたので、乗っかってPythonの話を書いてみたいと思います。 Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる！ - 病みつきエンジニアブログ複数並行可能なRubyのクローラー、「cosmicrawler」を試してみた - プログラマにな
lizy 2014/01/05
python

programming

crawler

scraping
リンク
node.jsを使ってjQueryチックにWebサイトをクローリングする方法 | 株式会社LIG(リグ)｜DX支援・システム開発・Web制作
どうも僕です。今日は、サーバサイドJavaScript（node.js）でjQueryチックにDOMを操作して、Webサイトをクローリングする方法についてまとめようと思うよ！要は、既存のWebサイトから必要な情報を収集してきて、データベースに突っ込もうということ。これができると何がうれしいかって、簡単にまとめサイトが作れるんだよね。クローリングする方法は数々あれど、なにゆえサーバサイドJavaScriptのnode.jsを使ってこれをするかというと、「クローリング対象の部分をjQueryのセレクタで指定できる」のが大きいわけです。みんな、好きだよね！jQuery！とっても便利だよね！jQuery！好みにもよるかと思うが、JavaScriptのようなふにゃふにゃした言語をあえて使う理由は、クライアントサイドプログラミングを組むか、JQueryの恩恵を受けるためといっても過言ではあ
lizy 2013/02/05
node.js

scraping

jquery

javascript

programming
リンク
node.jsでHTMLスクレイピングをjQuery記法でやるライブラリみっつの比較 - たごもりすメモ
某イベントのためのコードを書くのにHTMLのスクレイピングをやりたいなー、nodeで書くかなー、去年は jsdom で書いたけど今はどうなんだろね、とか調べてたら、どうもこういうあたりのがあるらしい。 jsdom たぶん一番有名で高機能、だけど重い。 node-jquery jQuery読むだけならコレ！みたいな感じ、だけどあんまりアップデートされてないかも。使いかたはいちばんシンプル。依存関係がちゃんと書かれてなくて、追加で手で xmlhttprequest をインストールしておかないと動かなかった。 cheerio お前ら重い！俺がjQuery記法を再実装してやる！という男らしいライブラリ。 zombie ブラウザの挙動をシミュレートする的なライブラリ、Mechanizeみたいなやつかな。いまの用途では前段でHTTPレイヤをいじる必要があるので今回は用途に合わない。 sqrape
lizy 2013/02/05
node.js

performance

scraping

benchmark

javascript

jquery
リンク
WebスクレイピングライブラリGoutteで遊んでみる - hnwの日記
新年あけましておめでとうございます。今年もボチボチやっていきます。本稿ではPHP製のWebスクレイピングライブラリGoutteを紹介します。 Goutte（グット）とは Goutteは必要十分な機能を持ったWebスクレイピングライブラリです。そもそもWebスクレイピングというのは、外部Webページから必要なデータを取ってくるくらいの意味です。つまり、GoutteはWebスクレイピングを簡単に行う道具だと考えればいいでしょう。具体的には、GoutteはWebクローラとHTMLパーサを組み合わせたようなものです。Cookieやフォームの扱いなどWebブラウザとしての機能は一通り揃っていますし、CSS風の要素指定もできるなど、機能面では他のライブラリと遜色ないように感じます。さらに僕個人がGoutteに期待している点は、安定性とロングサポートです。Goutteは主要機能をSymfony2お
lizy 2012/01/16
php

library

scraping
リンク
はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28
lizy 2011/12/04
python

scraping

beautifulsoup

programming
リンク
Titanium Mobileでスクレイピング - Magical Diary
Titanium Mobile でウェブサイトをスクレイピングする方法を考えてみた。ターゲットとなるサイトは (XMLではない) 普通のHTML、エンコードは Shift_JIS。 Titanium.Network.HTTPClient + Titanium.XML.DOMDocument → 整形式なXMLかつUTF-8じゃないとダメ。多分。 NSXMLDocument を呼び出すモジュールを作成する → Macでプロトタイプを作ってXCodeに持っていったらエラー。iPhoneではNSXMLParser (SAX) しかサポートしないようだ。orz モジュール作成の勉強になったからよしとする。 libxml2 → iPhoneのアプリではよく使われているようなので、多分問題無い。JavaScript, Objective C, C のコードが混在するのが気持ち悪い。(cf. Using
lizy 2011/08/19
titanium

scraping

javascript

programming
リンク
スクレイピングするなら ScraperWiki 使うといいよ - ヤルキデナイズドだった
Web ページからデータを抽出してデータベースに突っ込むことに性的興奮を覚えるみなさん、 ScraperWiki 使うとキモチイイですよ。以上です。そうではないみなさんには少々の説明が必要かと思いますので少々書きます。 ScraperWiki はスクレーパ（Web ページをスクレイピングするスクリプト）とスクレイピングで得られたデータを共有しようぜっという Web サービスです。Wiki と名が付いていますが Wiki っぽいページ構成になってるわけではなく、スクレーパやデータを誰でも編集できるようにして成果を共有するという理念が Wiki と共通しているのが由来みたいです。 ScraperWiki を使うとスクレーパを作るのがラクになります： Web ベースのエディタでスクレーパを書き、その場で実行できる PHP、 Python または Ruby が使える（HTML パーサなどのモジュ
lizy 2011/06/06
webサービス

ruby

python

scraping
リンク
サーバサイドJavaScriptとjQueryでスクレイピング
jQuery でスクレイピングできたらセレクタ使えるし便利かなーと思ったりしたんですが、Rhino と env-js を使うと超簡単にできたのでレポートしてみます。 Rhino と env-js って何ぞい？ Rhino ってのは Java で書かれた JavaScript エンジンです。Rhino を使うとコマンドラインから JavaScript を実行できます。 Rhino には DOM が無いので単体では jQuery を実行することはできませんが、env-js という DOM ライブラリを使用するとこの辺はクリアできます。 env-js の中に jQuery を使ったサンプルがいくつか入ってますので、Java とか JavaScript とか詳しい方はそちらを見てもらった方が早いと思います。使ってみるまず env-js をビルドしないといけないのでその辺の手順から説明します。
lizy 2011/01/08
java

javascript

scraping

jquery

rhino
リンク
たった＊行のコードでHTML取得＆解析をしたい場合はWeb::Scraperが便利 - 酒日記はてな支店
なんか無茶振りされたので。簡単！たった１３行のコードでHTML取得＆解析をするPerlスクリプトを Web::Scraper というモジュールを使って書き直すと、こんな感じになります。 use strict; use Web::Scraper; use LWP::UserAgent; use Encode; my $scraper = scraper { process "#topic sfb li" => "topics[]" => "TEXT"; }; $scraper->user_agent( LWP::UserAgent->new( agent => "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)" ) ); my $result = $scraper->scrape( URI->new("http
lizy 2010/06/07
perl

scraping
リンク
HTML::TreeBuilder のメソッドを覚えるには人生はみじかすぎる件について - tokuhirom's blog
HTML::TreeBuilder のメソッドを覚えるには人生はみじかすぎる件について HTML::TreeBuilder の ->lookup だの ->find だのを覚えるのは、学習の効率がよくない。つぶしがきかないので、もっと一般的な CSS Selector や XPath などを覚えて、それをつかった方がお得であるといえる。 HTML::TreeBuilder で XPath を利用するには、HTML::TreeBuilder::XPath をインストールすればよく、これは pure perl なので容易に利用できる。 my $tree = HTML::TreeBuilder::XPath->new; $tree->parse($content); my @it ems = $tree->findnodes(q{//*[@id='topic sfb']//li}); print $
lizy 2010/06/07
perl

xpath

scraping
リンク
簡単！たった１３行のコードでHTML取得＆解析をするPerlスクリプト - DQNEO起業日記
１３行のコードで、Yahoo!Japanのトピックス一覧を取得する！ PerlでHTML取得・解析したいときはLWP::UserAgentとHTML::TreeBuilderというのを使うと簡単にできます。 LWP::UserAgentを使うと、Webページの取得ができます。 HTML::TreeBuilderを使うと、HTMLのDOM解析ができます。この２つのモジュールを使って、Yahoo!Japanのトピックス一覧を取得してみましょう。コメント行と空行を除くとたったの１３行です。 use strict; use warnings; use LWP::UserAgent; use HTML::TreeBuilder; # urlを指定する my $url = 'http://www.yahoo.co.jp'; # IE8のフリをする my $user_agent = "Mozilla
lizy 2010/06/06
perl

html

scraping
リンク
IBM Developer
IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.
lizy 2010/01/11
python

scraping
リンク
O'Reilly Media - Technology and Business Training
Introducing the AI Academy Help your entire org put GenAI to work Every employee today needs to know how to prompt GenAI, use it to enhance critical thinking and productivity, and more. With the AI Academy they can. For less. Get in on the AI-generated conversation We’ve turned five O’Reilly titles into AI-generated podcasts, designed to make learning even more engaging. Here’s how we did it.
lizy 2008/12/03
iphone

appstore

perl

scraping
リンク
第3回スクレイピングにチャレンジ！
これまで，Pythonによる初めてのコーディングと，RDB（リレーショナル・データベース）をオブジェクトとして扱うデータベース・プログラミングについて簡単に紹介しました。今回は，Pythonを使ってWebの情報を自動取得するスクレイピング・プログラム（WebサイトのHTMLを抽出・解析して情報を取得）の作成にチャレンジしてみましょう。ところで前回までは，WindowsからLinux（Ubuntu）にリモートログインして開発をおこなっていました。今回からは一歩踏み込んで，クライアントにMacを採用して本格的な開発の環境を用意してみることにします。 Macを利用する意義開発環境をMacにするメリットは以下の通りです。 Mac OS XはUNIXであり，UNIX/Linux環境はスクリプト言語の開発に適している最新のPythonがはじめからインストールされている EmacsやVimなど強力
lizy 2008/04/15
python

scraping
リンク
てきとうにクリックしたらてきとうにWeb::Scraperのコードを作ってくれるWebScraper IDE - bits and bytes
まえに作ったWeb::Scraperのjavascriptバージョンwebscraper.jsとXPathをてきとうに作ってくれる機能を追加したwebscraperp.jsにHTMLのドキュメントから繰り返し部分をみつけてSITEINFOをつくるAutoPagerize Iteration Detectorみたいなみためをくっつけて、取り出したい部分をクリックしたらてきとうにXPathを生成してWeb::Scraperのコードにして出してくれるFirefoxのextensionを作りました。Firefox3専用です。ごめんなさい。ダウンロード WebScraper IDE (for Firefox3) 使い方今回もいつもお世話になっているスターバックスさんの店舗検索結果(住所・店名・条件から探す)を例に使い方をご紹介します。 WebScraper IDEをインストールするとツールメニュ
lizy 2008/03/12
firefox

extension

scraping

scraper
リンク
1 2 次のページ