[B! scraping] ko-ya-maのブックマーク

ko-ya-ma id:ko-ya-ma

scrapingに関するko-ya-maのブックマーク (21)

Apify: Full-stack web scraping and data extraction platform
Your full‑stack platform for web scraping Apify is the largest ecosystem where developers build, deploy, and publish data extraction and web automation tools. We call them Actors.
ko-ya-ma 2022/01/27
好きなサイトをスクレイピングさせて、APIでデータを取り出せるようにするサービス。npmにpackageあり

web

scraping

api

webservice

rpa

tool
リンク
GitHub - mgdm/htmlq: Like jq, but for HTML.
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
ko-ya-ma 2021/09/08
jq感覚でHTMLを食す

html

scraping

cli

rust
リンク
「ひっ迫した状況が一目瞭然」新型コロナ病床数まとめサイト、大反響に「バグを疑った」と開発者仰天　“医療現場の声”励みにスピード公開
「ひっ迫した状況が一目瞭然」新型コロナ病床数まとめサイト、大反響に「バグを疑った」と開発者仰天　“医療現場の声”励みにスピード公開新型コロナウイルス感染症の患者数や、感染者用の病床数などを都道府県ごとに表示した「新型コロナウイルス対策ダッシュボード」が、ネットで話題を呼んでいる。Twitterでは「病床の使用率が一目瞭然」「都市部の病床数がギリギリなのが分かる」と好評だ。Facebook上のシェア数は4000近くあり、開発者の福野泰介さんは「バグを疑ったくらいです」と驚く。福野さんは、福井県鯖江市のソフトウェアメーカー「jig.jp」の会長を務める傍ら、東京都が開設した「東京都新型コロナウイルス感染症対策サイト」や、無償で提供されているオンライン教材やテレワーク用のサービスをまとめた「VS COVID-19 #民間支援情報ナビ」の作成にも携わっている。病床数に特化したサイトを作成した経
ko-ya-ma 2020/03/26
dev

pdf

scraping

medical
リンク
使いやすさを重視したHTMLスクレイピングライブラリを作った - 純粋関数型雑記帳
TL:DR レポジトリ https://github.com/tanakh/easy-scraper ドキュメント背景このところ訳あってRustでHTMLからデータを抽出するコードを書いていたのですが、既存のスクレイピングライブラリが（個人的には）どれもいまいち使いやすくないなあと思っていました。 HTMLから望みのデータを取り出すのはいろいろやり方があるかと思いますが、ツリーを自力でトラバースするのはさすがにあまりにも面倒です。近頃人気のライブラリを見てみますと、CSSセレクターで目的のノードを選択して、その周辺のノードをたどるコードを書いて、欲しい情報を取り出すという感じのものが多いようです。 RustにもHTMLのDOMツリーをCSSセレクターで検索して見つかったノードをイテレーターで返してくれたりする、 scraperというライブラリがあります。例えば、<li>要素
ko-ya-ma 2020/02/13
dev

html

rust

scraping
リンク
ヘッドレスブラウザ(Chrome)を使ってSPAをスクレイピングする - Qiita
一般的なスクレイピング手法とその問題点スクレイピングというと、HTTPクライアントライブラリを用いてHTML取得し、HTML/XMLパーサーで解析するというのが一般的だと思います。この手法の場合、以下の場合にうまく処理できません。ターゲットのページがJavaScriptにより動的にDOMを操作する場合 HTML/XMLパーサーが取得したHTMLを正しく解釈できない場合(正しくないHTMLでもブラウザはなんとか処理するが、パーサーライブラリは正確なHTMLでないと処理できないことがある) 特に問題になるのは前者でしょう。最近のWebサイトではJavaScriptでDOMを操作することは珍しくなくなってきています。SPAであればなおさら難しく、もはやこういった手法によるスクレイピングは不可能でしょう。ヘッドレスブラウザによるスクレイピング動的なDOMやパーサーがうまく解釈できないとい
ko-ya-ma 2017/07/03
Chrome

javascript

scraping

dev
リンク
PythonでWebスクレイピングする時の知見をまとめておく - Stimulator
- はじめに - 最近はWebスクレイピングにお熱である。趣味の機械学習のデータセット集めに利用したり、自身のカードの情報や各アカウントの支払い状況をスクレイピングしてスプレッドシートで管理したりしている。最近この手の記事は多くあるものの「～してみた」から抜けた記事が見当たらないので、大規模に処理する場合も含めた大きめの記事として知見をまとめておく。追記 2018/03/05：大きな内容なのでここに追記します。 github.com phantomJSについての記載が記事内でありますが、phantomJSのメンテナが止めたニュースが記憶に新しいですが、上記issueにて正式にこれ以上バージョンアップされないとの通達。記事内でも推奨していますがheadless Chrome等を使う方が良さそうです。 - アジェンダ - 主に以下のような話をします。 - はじめに - - アジェンダ
ko-ya-ma 2017/06/26
crawler

Python

scraping

dev

tips
リンク
くだらないAPIなんていらないよ – 2016年のウェブスクレイピング事情 | POSTD
ソーシャルメディアのAPIとそのレート制限は、あまり気分のよいものではありません。特にInstagram。あんな制限つきAPIを欲しがる人がいったいどこにいるんでしょうね？最近のサイトは、スクレイピングやデータマイニングの試みを阻止するのがうまくなってきました。AngelListはPhantomJSすら検出してしまいます（今のところ、他のサイトでそこまでの例は見ていません）。でも、ブラウザ経由での正確なアクションを自動化できたとしたら、サイト側はそれをブロックできるでしょうか？並行性を考えたり、さんざん苦労して用意した結果として得られるものを考えたりすると、Seleniumなんて最悪です。あれは、私たちが「スクレイピング」と聞いて思い浮かべるようなことをするためには作られていません。しかし、賢く作り込まれた今どきのサイトを相手にして、インターネットからデータを掘り当てるための信頼できる
ko-ya-ma 2016/12/03
javascript

scraping

dev

crawler

code
リンク
Full-Stack Web Scraping API & Data Extraction Services | Zyte
Transf orm referrals into revenue: Join Zyte's affiliate program and earn 50% commission on every referral.
ko-ya-ma 2016/02/24
データ保持にこだらわず、ちょっと調べるくらいなら無料

scraping

webservice
リンク
コード不要でWebスクレイピング可能な「Kimono」で、動画キュレーションプレイヤーを作ってみた！ -
どうも、まさとらん（@0310lan）です。最近は、暇な時間を見つけると、ついつい「YouTube動画」をボーッと見てしまうのですが、同じような方はいらっしゃいますか？私の場合、YouTubeに時間を費やしてるうちに…、「もっと効率よく、興味のある動画だけを見たい！」という欲求が湧いてきたのでいろいろ模索した結果、簡単にWebスクレイピングができる「Kimono」で動画キュレーションプレイヤーを作る！…という結論に至りました。そこで今回は、作り方をゼロから順を追ってご紹介しようと思いますので、快適な動画ライフを送りたい方はぜひ参考にしてみてください！ ■「Kimono」とは？「Kimono」を簡単に説明すると、任意のWebページのHTMLソースを定期的に取得し、必要な箇所だけを抽出して再利用できるようにしてくれるサービスと言えるでしょう。例えば今回の事例だと、定期的にYouT
ko-ya-ma 2016/01/27
javascript

scraping

chrome

dev

tutorial
リンク
SpreadSheetでスクレイピング。Importxml他、便利な関数9+1 - Qiita
はじめに Livesense Advent Calendar 2015(その2) 、13日目を担当します、ktmgです。ふだんはSEOなどやっております。さて、Advent Calendar 2015。「なんかエンジニアさんたちが楽しそうなことやってるなー」とハタから眺めていたのが昨年。今年は職種不問にしたからなんか書け、という @masahixixi さんの指令を受け、はじめて投稿させていただきました。本記事では「非エンジニアでもできる簡単スクレイピング」というテーマにからめて、 Google SpreadSheetの便利な関数：9 Chromeの便利な機能：1（Copy XPath）をご紹介します。素材・完成形 http://qiita.com/advent-calendar/2014/livesense 昨年の Advent Calendar を素材に、投稿記事一覧の
ko-ya-ma 2015/12/13
scraping

spreadsheet
リンク
JavaScriptレンダリングサーバーSplashでスクレイピング - orangain flavor
これはクローラー／Webスクレイピング Advent Calendar 2015の9日目の記事です。本記事では、Scrapinghub社*1が開発しているSplashというオープンソースソフトウェアを紹介します。 github.com JavaScriptを使ったページからスクレイピングする方法としては、PhantomJSとSelenium/CasperJSなどの組み合わせが一般的ですが、これらとは少し違う手段として使えるかもしれないソフトウェアです。私自身Splashを最近知ったばかりで、軽く探した限りでは日本語の情報もないので、調査しつつSplashの使いドコロを探ってみたいと思います。 Splashとは READMEには以下のように書かれています。 Splash is a javascript rendering service with an HTTP API. It's a
ko-ya-ma 2015/12/10
ページ内のJavaScriptを解釈して、レンダリングまでやるので、あとはHTMLやイメージを取得して利用

javascript

scraping

dev

docker
リンク
続Pythonによるwebスクレイピング入門
2. 自己紹介 • 関根裕紀（せきねひろのり） • アライドアーキテクツ株式会社 • ソフトウェア・エンジニア • マーケティングを支援するサービスの開発 • 新卒メンバー、若手メンバーの教育支援 • Twitter: @checkpoint 3. Pythonとの関わり • PyCon JP スタッフ (2014, 2015) • Python エンジニア養成読本（Web開発） • スピーカー • AWDD • LLDiver • PyCon JP 2014 • Phone Symposium Tokyo 2015
ko-ya-ma 2015/10/21
python

scraping

spider

crawler

dev

tips
リンク
URLを入力するだけ！コンテンツをスクレイピングしてデータ化してくれる無料ツール「import.io」
import.ioとは import.ioは、データ化したいページのURLを入力するだけで、自動でデータ箇所を判断して情報を集めてくれるスクレイピングサービスです。無料で利用することができ、セットアップも、データ収集用のトレーニングなども必要ありません。 URLを入力して、ボタンを押すだけという簡単さから、誰にでも利用できるデータ収集ツールだと思います。以下では、その簡単な使い方や、利用例などを紹介したいと思います。定期的なサイトへのスクレイピングは相手サイトの負荷になるので、一日に何度も何度も同一サイトに使用するのはやめましょう。加えて、取得したデータを、そのまま何かに利用すると著作権違反になる恐れもあります。基本的な使い方import.ioの最大の特徴は、使い方の簡単さです。以下では、その使い方の例として、IKEAのソファー検索結果ページのデータを取得してみたいと思います。
ko-ya-ma 2015/08/20
Dashのチートシート作りに役立ちそう

scraping

webservice

app

data
リンク
Webシステムの双方向連携で知らないと損するスクレイピングライブラリ／ツール8選＆主な使い方
Webシステムの双方向連携で知らないと損するスクレイピングライブラリ／ツール8選＆主な使い方：Webスクレイピングで始める業務システムのモバイル化（3）既存Webシステムをモバイル化するに当たっての課題を明確にし、それらを解決するためには何が必要なのかを考えていく本連載。今回は、実際にスクレイピング技術を用いて既存Webシステムからデータを抽出する実例をツールを題材にしながら説明します。連載目次前回の「モバイル化におけるWebスクレイピング技術活用の利点と注意点」では、Webスクレイピング技術を用いた際のメリット・デメリットと、使用時の注意点について説明しました。今回は、実際にWebスクレイピング技術を用いて既存Webシステムからデータを抽出する実例をいくつかのツールを題材にしながら説明します。ユーザーオペレーション再現のために必要な双方向連携既存WebシステムをWebスクレイ
ko-ya-ma 2015/06/17
dev

tips

scraping

crawler
リンク
PythonとかScrapyとか使ってクローリングやスクレイピングするノウハウを公開してみる！ - orangain flavor
2016-12-09追記「Pythonクローリング&スクレイピング」という本を書きました！ Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド- 作者: 加藤耕太出版社/メーカー: 技術評論社発売日: 2016/12/16メディア: 大型本この商品を含むブログを見る 2015年6月21日追記：この記事のクローラーは動かなくなっているので、Scrapy 1.0について書いた新しい記事を参照してください。 2014年1月5日 16:10更新：デメリットを修正しました。以下の記事が話題になっていたので、乗っかってPythonの話を書いてみたいと思います。 Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる！ - 病みつきエンジニアブログ複数並行可能なRubyのクローラー、「cosmicrawler」を試してみた - プログラマにな
ko-ya-ma 2014/01/05
python

scraping

web
リンク
PHPでのスクレイピングやDOM操作をjQueryっぽく超簡単便利にできる「phpQuery」:phpspot開発日誌
phpmaster | Server-Side HTML Handling Using phpQuery PHPでのスクレイピングやDOM操作をjQueryっぽく超簡単便利にできる「phpQuery」。紹介記事を読んで使ってみました。 phpQuery はjQueryのPHP版でDOMの操作をjQueryっぽくできるライブラリです。 HTMLのスクレイピングはもちろん、HTMLを追加したり要素に属性を追加等のDOMを操作も簡単に行えます。 jQueryの便利さがPHP上でも十分に使えますので知っておくと確実に面倒な処理を楽に書けるようになるでしょう。スクレイピング HTMLのスクレイピングをする場合には超簡単かつ、jQueryを使ったことがある方なら抵抗なくすぐに習得できます。ちょっとコードを書いて実験してみました。と書くと <div id="two"></div>の中身である t
ko-ya-ma 2012/06/18
PHPでDOMの操作をjQueryっぽくできるライブラリ

php

DOM

jquery

library

dev

scraping
リンク
WebスクレイピングライブラリGoutteで遊んでみる - hnwの日記
新年あけましておめでとうございます。今年もボチボチやっていきます。本稿ではPHP製のWebスクレイピングライブラリGoutteを紹介します。 Goutte（グット）とは Goutteは必要十分な機能を持ったWebスクレイピングライブラリです。そもそもWebスクレイピングというのは、外部Webページから必要なデータを取ってくるくらいの意味です。つまり、GoutteはWebスクレイピングを簡単に行う道具だと考えればいいでしょう。具体的には、GoutteはWebクローラとHTMLパーサを組み合わせたようなものです。Cookieやフォームの扱いなどWebブラウザとしての機能は一通り揃っていますし、CSS風の要素指定もできるなど、機能面では他のライブラリと遜色ないように感じます。さらに僕個人がGoutteに期待している点は、安定性とロングサポートです。Goutteは主要機能をSymfony2お
ko-ya-ma 2012/01/16
コンパクトながら、CSSのセレクタで指定もできちゃう。

php

library

scraping

web

symfony

crawler
リンク
htmlSQLよりアツい!?jQueryみたいにセレクタでHTMLをparse(解析)する「PHP Simple HTML DOM Parser」
html SQLよりアツい!?jQueryみたいにセレクタでHTMLをparse(解析)する「PHP Simple HTML DOM Parser」今週はてブでも大人気を博した記事「真面目にエロサイトを作ってみた【プログラマ編】｜ASTRODEO」や、IDEA*IDEAさんでも紹介されていた、PHPでHTMLをparseするライブラリ「html SQL」ですが、解析するHTMLを指定するにはSQLちっくな書き方をするので、SQL自体に触れる機会の少ない方には手を出しにくいシロモノです。 SQLわかんないです＞＜もっとカンタンにparseしたいぉ☆ってゆー方に全力でゴリ押ししたいのが、今回紹介するMITライセンスのPHPライブラリ「PHP Simple HTML DOM Parser」です！ PHP5で書かれたこの「PHP Simple HTML DOM Parser」の最大の特徴は、解析し
ko-ya-ma 2011/09/22
これは便利そう。

php

DOM

parser

jQuery

html

web

dev

scraping

library
リンク
PHPでのスクレイピングに役立つライブラリ - (DxD)∞
APIが提供されていないサービスから欲しい情報だけを取得するには、HTMLなどから自前でスクレイピングを行うしかありません。PHPでのスクレイピングに役立つライブラリなどをまとめてみました。 PerlやRubyには色々と便利そうなものが見つかるのですが、PHPにはなかなかこれといったものがないですね。 Webスクレイピングライブラリ HTML Scraping HTMLをXML化してDOMやXPathで操作できるクラス。主にHTTP_Request+HTMLParser(XML_HTMLSax3を含む)/Tidy+Cache_Liteという構成で、スクレイピングに必要なものが一通り揃っている。ライセンスはLGPL他。 WebScraper シンプルな汎用スクレイピングクラス。HTTP_Client+HTMLParser(XML_HTMLSax3を含む)という構成で、XPathで要素を抽出でき
ko-ya-ma 2011/09/22
php

まとめ

library

web

dev

scraping

spider
リンク
Diggin » Spidering PHP Components
web-sraping component, inspired by Perl’s Web::Scraper. It provides a DSL-ish interface for traversing HTML documents and returning a neatly arranged PHP ‘s multidimensional array …
ko-ya-ma 2011/09/22
スパイダリング・スクレイピングの総合ライブラリー

scraping

spider

dev

php
リンク
1 2 次のページ