nshashのブックマーク / 2007年4月22日

nshash id:nshash

2007年4月22日のブックマーク (3件)

HTMLをスクレイピングして解析(パース)する - まるさんかくしかく Tech学習と入門ログ
Twitter Facebook B! Bookmark LINE Pocket Feedly HTMLをスクレイピング(scraping)してあれこれとするとき、僕はずっと正規表現に頼っていたのですが、ページの構造が変化するとすぐに使えなくなってしまうし、時間がかかる割りに退屈な作業なので何とかならないかなと思っていました。 PHPで探していたのですが、XML(とかRSS)をパースする関数やライブラリは、良く目にするものの、HTMLを処理できるものはなかなか見つかりませんでした。以下は、PHP(とかRuby、Perl)でHTMLをスクレイピングしたりパースするための方法。 PHPでスクレイピング＆パース HTMLを整形式のXML文書に修正するPHPクラス HTMLを、整形式のXMLに変換してくれるライブラリ。PEARのXML_HTMLSax3が同梱されているので、これだけでちゃんと動
nshash 2007/04/22
phpでウェブスクレイピング

webdevelopment

php
リンク
2log.net
This domain may be for sale!
nshash 2007/04/22
HTML->RSS化サービスのまとめ

webservice
リンク
印刷用CSSをもっとよくするための4つのTips。 - TRANS [hatena]
約2ヶ月くらい前に、Printing the Web: Solutions and Techniques | Smashing Magazineというエントリーを読みました。10個以上の海外のサイトのいろんな印刷向けCSSやJavaScriptのTipsが紹介されていて、「印刷用CSSをまとめてみた。」を書いた自分としては何とか分解してやりたいなと思っていました。で、本日ようやく分解が一通り終わりましたので、その中で得たTipsを紹介します。印刷用デザインも1つのWebデザインプロセスとして考えておく。今回、このエントリーが最も自分にとっては衝撃的でした。印刷用CSSの機能面だけを追い求めて、「まあ、印刷されるときに、最低限読めればいいんでしょ？」くらいにしか思っていなかった自分が、ちょいと情けない。元ネタは、Five Simple Steps to Typesetting on th
nshash 2007/04/22
正直、見にくいのでbefore/after疑似要素でリンク先URIを展開する必要はないと思う。それよりも文頭に文書自体のURIを印刷しておいて、そのURIの恒久性を保障して参照してもらう方がより妥当かなと思います。

webdesign

css
リンク
- 2007年4月24日
- 2007年4月22日
- 2007年4月21日