Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

nekohtmlに関するimai78のブックマーク (3)

  • nekohtml と xpath | mono-blog

    公開されいてるHTMLは整形されたものばかりではないので、クロールして解析するには整形する必要があります。 Javaではnekohtmlというライブラリがありますので、そちらを使ってみました。→ダウンロードはこちら なお、これをつかうにはxerces2のライブラリも必要です。→ダウンロードはこちら HTMLソースからアンカーだけ取得するサンプルを作りました。 public static void main(String[] args) throws Exception{ DOMParser parser = new DOMParser(); parser.parse(args[0]); Node node = parser.getDocument(); NodeList list = XPathAPI.selectNodeList(node, "//A"); for(int

  • Java Program Examples -- Transform HTML (JAXP 1.1 + NekoHTML)

    Java Program Examples -- Transform HTML (JAXP 1.1 + NekoHTML) JavaによるXMLプログラミングがJAXPのおかげでだいぶ楽になってきました。 ここにある"CyberNeko HTML Parser"を使うと、 HTML文書をまるでXML文書のように扱うことができます。 HTML文書にありがちな不備も修正しながらparseしてくれるそうです。 これを使うと、HTML文書を扱うプログラムでも、JAXPを利用することができます。 以下は、上記ページから"Usage"をたどると載っていたサンプルを元に、 得られたDOMのDocumentを指定したスタイルシートで変換してXML文書として保存するサンプルプログラムです。 import org.cyberneko.html.parsers.DOMParser; import

  • 私とNekoHTML 最新2件

    先日取り上げたexblogのひどいHTMLを、HTML向けSAXパーサに読ませるとどうなるかの実験。startElement()やendElement()がどうコールされるかによって、パーサごとの性格が現れる。 コールバックメソッド levelはネストの深さを表すインスタンス変数。 public void startElement(String uri, String localName, String qName, Attributes attrs){ for(int i = 0; i < level; i++) System.out.print(" "); System.out.print("<"+localName); for(int i = 0; i < attrs.getLength(); i++) System.out.print(" "+attrs.getQNa

  • 1