タグ

htmlとdatabaseに関するtsupoのブックマーク (2)

  • 進化する“Webスクレイピング”技術の世界 ― @IT

    2007/02/20 WebサービスAPIRSSフィードを使って複数サイトのサービスや情報をマッシュアップ――。これはWeb2.0が包含するいくつかの概念のうち、最も重要なものの1つだ。Amazon.comやGoogleYahoo!楽天といった大手Webサイトは、RESTやSOAPを用いたAPIを公開しており、さまざまなサービス提供者や個人がAPIを通して各種サービスを利用している。その一方、世の中のWebサイトの大多数はWeb1.0的なHTMLCGIフォームしか提供していないのが現実だ。こうした背景からWeb1.0サイトから構造化されたデータを引っ張り出す“Webスクレイピング技術が急速に発展してきているようだ。 HTMLをXML化し、XPathで関連データだけを抽出 例えば価格情報サイトでは製品名から価格が簡単に調べられるが、Webサーバから提供されるのは、製品名や価格にレ

    tsupo
    tsupo 2007/02/20
    Webの世界全体がそうした“フレンドリーな世界”になるのは、楽観的に見てもWeb88.0になるころではないか // HTree で整形式のXHTMLにして Hpricot で抜き出す
  • 〈 SL 〉: もう XML 言語を開発するな

    Wednesday, January 11, 2006 もう XML 言語を開発するな Don’t Invent XML Languages by Tim Bray (Updated: 2006/01/09) XML の X は「拡張可能(Extensible)」という意味だ。自分の問題に応じて自分の XML 言語を開発できることをウリにしている。でも、僕は過去 2 、3 年の経験から、そうすべきではないことを悟った。当に必要な時以外はね。今からそれを説明する。そして、もし当に必要な時がくれば、関連文書のOn XML Language Design を読んで欲しい。 僕は最近ある XML 言語の開発を手伝っていたのだけれど、どうか話半分で聞いて欲しい。僕は言語デザインをメインでやっているわけではないし、僕がもし専門技術でなにか言えることがあるとすれば、それは主としてたくさんの異なる X

  • 1