Create RSS feed for any webpage you need. All you need is to make several mouse button clicks.
フィード非対応のサイトで、RSSフィードを受信できるようにカスタマイズできるサービスです。 まず本サービスのアカウントを作成します。作成後、受信したいサイトURLを入力します。サイトのプレビューが表示されるので、タイトル、メタディスクリプション(説明欄)、画像(有料版のみ)を、マウスでクリックします。自動的に、RSSフィードを受信できる形に処理してくれます。 本サービスを利用するには、無料のアカウントを作成する必要があります。未会員でフィードを作成しても、14日間までしか有効にならず、それ以降は受信できなくなります。アカウントを作成することで、継続してフィードを受信してくれます。 無料プラン、有料プランがあり、無料プランだと更新間隔が1時間で、画像の読み込みには非対応です。月額・あるいは年間払いの有料プランに加入することで、最短10分の更新間隔、隠しIP(プロキシ)、スクリプトの読み込み、
はじめに Web ページから特定の情報を抽出する技術の総称 Web スクレイピングは、様々な方法で実現されます。手動で必要な部分をコピーする方法や、正規表現を使う方法、HTML と CSS の内容を元に独自のルールで意味的なまとまりを推定する方法 VIPS: A VIsion based Page Segmentation Algorithm など、一研究分野になるほど本当に様々です。 この記事では、そんな様々な方法の中から XPath (XML Path Language) を取り上げます。XPath は、その名の通り XML から必要な箇所を探索・抽出する為に用いられる言語ですが、HTML にも利用することができます。自分が普段 Web スクレイピングする時は、Python の lxml で XPath を使用しています。 Web スクレイピングで実際に想定される状況を例示しながら、X
You can get/extract data from a URL via Google Apps Script, Just pass the XPath and URL to monitor. I have setup a Script that continuously monitors YCombinator's Top post, When it changes I get a Mail with the link. function getDataFromXpath(path, url) { var data = UrlFetchApp.fetch(url); var text = data.getContentText(); var xmlDoc = Xml.parse(text, true); // Replacing tbody tag because app scri
今回は、id:fits:20100525 で実施したパース処理を Haskell で書いてみました。 環境は以下の通りで、XML の処理のために HaXml というライブラリをインストールしました。 GHC 6.12.1 HaXml 1.20.2 Haskell での XPath HaXml では、xmlParse で XML をパース、xtract で XPath を処理し、tagTextContent で要素内のテキストを取得できます。 tagTextContent の代わりに Text.XML.HaXml.Pretty の content を使えば要素全体を取得できます。 なお、xtract の型宣言が xtract :: (String -> String) -> String -> Content i -> [Content i] となっているため、(String -> Stri
はじめに こんにちは、Go界の大杉漣です。いま、辻堂で合宿をしています。 xmlpathパッケージ GoでHTMLをパースしてごにょごにょしたいというときはgoqueryを使うことが多いですが、個人的にはあのコールバック書きまくるスタイルが好きではなく「そこまでjQueryの真似しなくてもいいだろ」と思っていました。 goquery - GoDoc またPythonで割とlxmlを使っていたこともあって、XPathを使うのが好きだったのでGoにも同様のXPathを扱えるパッケージがないかと探してみたらCanonical製のxmlpathというパッケージがありました。 xmlpath - GoDoc 使い方 めちゃくちゃ楽。ドキュメントにあるサンプルだとちょっと実用性がないので、もう少し実用性のある例。 resp, _ := http.Get("http://sample.com/conte
はじめに Livesense Advent Calendar 2015(その2) 、13日目を担当します、ktmgです。 ふだんはSEOなどやっております。 さて、Advent Calendar 2015。 「なんかエンジニアさんたちが楽しそうなことやってるなー」とハタから眺めていたのが昨年。 今年は職種不問にしたからなんか書け、という @masahixixi さんの指令を受け、はじめて投稿させていただきました。 本記事では「非エンジニアでもできる簡単スクレイピング 」というテーマにからめて、 Google SpreadSheetの便利な関数:9 Chromeの便利な機能:1(Copy XPath) をご紹介します。 素材・完成形 http://qiita.com/advent-calendar/2014/livesense 昨年の Advent Calendar を素材に、投稿記事一覧の
1. アドオン Firebug と FirePath をインストールする Firefox で XPath により要素を指定したい。 XML Path Language – Wikipedia とは、 XML Path Language (XPath; XMLパス言語) は、マークアップ言語 XML に準拠した文書の特定の部分を指定する言語構文である。 予め Firefox に、以下2つのアドオンをインストールしておく。 Firebug FirePath 2. Firebug で対象要素を指定する 例えば、 Yahoo!モバゲーの日記一覧 において、記事タイトルのアンカー要素を XPath で指定する。 マウスポインタを、対象要素の上に置き、 右クリック > Firebug で要素を調査 を選択する。 より効率的に対象を選択するには、 マウスポインタを対象要素の上に置き、 Ctrl + Sh
回帰テストツール「Selenium」の中級 Tips。 初級の使い方については 今から3分で selenium の使い方を身に付ける (回帰テスト自動化) http://language-and-engineering.hatenablog.jp/entry/20081016/1224080409 selenium 主なコマンド一覧 http://language-and-engineering.hatenablog.jp/entry/20081016/1224123118 で入門のこと。 Seleniumのより便利な使い方として,下記で (1)変数の使い方 (2)XPathの使い方 (3)テストケース中へのjavascriptの埋め込み (4)Ajaxアプリのテスト方法 を学ぶ。 まず,まとめを掲載。そのあとで,実際のテストでどう役立つのか詳しく解説する。 まとめ 要素の指定方法まとめ
Web::Query - jQuery風にスクレイピング http://frepan.org/~TOKUHIROM/Web-Query-0.01/README.pod Web::Query というスクレイピングフレームワークをかきました。一言でいうと「うごく pQuery」です。pQuery は jQuery とおなじ動きにするためかどうかしりませんが、わりと自前で実装していて、結果まともにうごいていません。うごくようになるのをまってようかなとおもっていたら2年経過していたので、自分でつくってみました(パッチをおくってもいいのだけど、別個の実装をつくったほうがはやい気がしたので)。HTML::TreeBuilder::XPath + HTML::Selector::XPath + LWP::UserAgent という構成です。 使用例は以下のとおり。 use Web::Query; wq(
ここギコ!: Xpathでページの好きなところにリンクするGreasemonkeyスクリプトのアイディアが気になったので、自作の実験版を書いてみました。今回は実験なので、http://*でunsafeWindowを使っています。安全ではないので、その点はご了承ください。 と、その前に、元記事にツッコミをしておこう。user.jsの場合、対象はFirefoxであると思うので、JavaScript-XPath は不要です。IE以外の主要ブラウザ(Firefox, Safari, Opera)は XPath を実装しています。JavaScript-XPathはIEとSafari2でXPathを使うためのライブラリです。 XPointerというそのものずばりな仕様があるらしい。後で調べる。 http://gist.github.com/17904 #TEXT=文字列とすると、その文字列が最初に含ま
June 07, 201010:49 カテゴリwork 簡単!たった8行のコードで HTML取得&解析をするPythonスクリプト 簡単!たった13行のコードで HTML取得&解析をするPerlスクリプト を見てPythonならもっと簡単だなーと思ったので書いてみる。 import urllib2 from lxml import etree url = 'http://www.yahoo.co.jp' opener = urllib2.build_opener() opener.addheaders = [('User-agent','Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)')] tree = etree.parse(opener.open(url),parser=etree.HTMLParser()
飽きる前にそれなりに形になったのでリリースしておきます Python 2.5*とBeautifulSoup 3.0.7* or 3.1.0*の環境でとりあえず動くXPathEvaluatorです。 アーカイブファイル(ZIP):BSXPath.py: XPathEvaluator Extension for BeautifulSoup 上記ファイル(BSXPath.py)を使ったサンプルはこちら 【2009/04/05追記】 BSXPath.pyを使ったサービスを公開しました。 任意のサイトのフィードパターンを作成・共用できるサービス 使い方 from BSXPath import BSXPathEvaluator,XPathResult #*** 準備 document = BSXPathEvaluator(<html>) # html: HTMLテキスト # ※BSXPathEvalu
Greasemonkey - Mozilla Firefox まとめサイト で、Dive Into Greasemonkey の日本語訳 (PDF)が公開されてます。 これは凄く良い仕事。いやマジで。超感謝。 で、それの28頁以下で、Firefox に組み込まれた XPath のサポートの使い方が説明されてまして、これで /getElements?By.+/ 地獄からおさらば出来るわけですが、 XPath を解釈するのに使う document.evaluate は引数がたくさんあって、生で使うのは面倒いです。 でも使う引数はクエリ部分以外は普通は決まってるので、30頁以下で、XPathを楽に使うために以下の関数を定義すると良いよね、とあります。
pip install scrapy cat > myspider.py <<EOF import scrapy class BlogSpider(scrapy.Spider): name = 'blogspider' start_urls = ['https://www.zyte.com/blog/'] def parse(self, response): for title in response.css('.oxy-post-title'): yield {'title': title.css('::text').get()} for next_page in response.css('a.next'): yield response.follow(next_page, self.parse)EOF scrapy runspider myspider.py
CompleteX で文脈依存のヘルプを表示するために、各種ライブラリ (たとえば 田楽 DLL) のドキュメントを INI ファイル形式に変換したい。ただし、できるだけロバストな記述で*1。具体的には 素の Windows + IE 環境で (不特定多数の一般ユーザーのマシンで*2 ) 必ずしも well-formed でない HTML 文書を対象として XPath を使って内容をスクレイピングしたい という、一見ありがちな要求。なんだけど……これが全く一筋縄では行かないどころか五筋縄以上かいくぐる羽目になりましたことよ。 結論 現在のところ Windows + IE だけでは不可能。サードパーティの XPath 実装を使えば可能。 0 筋縄: 方針の確認 まず、対象が純粋な XML なら簡単にできることを確認。 var dom = WScript.CreateObject("MSXML
JavaScript、Ajax、HTML5(API)、Ruby…Web及び関連技術の実験&情報公開&制作物紹介。 Prototype.js で XPath を手軽に扱うためのプラグイン XPath for Prototype というものが公開されています。 作者の amachang さんのブログ の、プラグイン公開を紹介する記事に、「他のライブラリのプラグインに関して」という見出しでこんなことが……。 もし 誰か書いてくれる人がいればとてもありがたいなあ。。。とか思っています。 いませんよねいませんよね><? 面白そうなので、書いちゃいました(^-^) XPath for Prototype の MooTools 版、名付けて「XPath for MooTools」(まんま)。 【※2008/06/12 ver.0.2 にバージョンアップ】
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く