[B! nekohtml] imai78のブックマーク

imai78 id:imai78

nekohtmlに関するimai78のブックマーク (3)

nekohtml と xpath | mono-blog
公開されいてるHTMLは整形されたものばかりではないので、クロールして解析するには整形する必要があります。 Javaではnekohtmlというライブラリがありますので、そちらを使ってみました。→ダウンロードはこちらなお、これをつかうにはxerces2のライブラリも必要です。→ダウンロードはこちら HTMLソースからアンカーだけ取得するサンプルを作りました。 public static void main(String[] args) throws Exception{ DOMParser parser = new DOMParser(); parser.parse(args[0]); Node node = parser.getDocument(); NodeList list = XPath API.selectNodeList(node, "//A"); for(int
imai78 2011/01/12
nekohtml

xpath

xml

java
リンク
Java Program Examples -- Transform HTML (JAXP 1.1 + NekoHTML)
Java Program Examples -- Transf orm HTML (JAXP 1.1 + NekoHTML) JavaによるXMLプログラミングがJAXPのおかげでだいぶ楽になってきました。ここにある"CyberNeko HTML Parser"を使うと、 HTML文書をまるでXML文書のように扱うことができます。 HTML文書にありがちな不備も修正しながらparseしてくれるそうです。これを使うと、HTML文書を扱うプログラムでも、JAXPを利用することができます。以下は、上記ページから"Usage"をたどると載っていたサンプルを元に、得られたDOMのDocumentを指定したスタイルシートで変換してXML文書として保存するサンプルプログラムです。 import org.cyberneko.html.parsers.DOMParser; import
imai78 2008/10/12
html

java

nekohtml
リンク
私とNekoHTML 最新2件
先日取り上げたexblogのひどいHTMLを、HTML向けSAXパーサに読ませるとどうなるかの実験。startElement()やendElement()がどうコールされるかによって、パーサごとの性格が現れる。コールバックメソッド levelはネストの深さを表すインスタンス変数。 public void startElement(String uri, String localName, String qName, Attributes attrs){ for(int i = 0; i < level; i++) System.out.print(" "); System.out.print("<"+localName); for(int i = 0; i < attrs.getLength(); i++) System.out.print(" "+attrs.getQNa
imai78 2008/10/12
html

parser

java

nekohtml
リンク
1

お知らせ

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx

はてなブックマーク

タグ

関連タグで絞り込む (5)

nekohtmlに関するimai78のブックマーク (3)

お知らせ

今週のはてなブックマーク数ランキング（2025年1月第4週）

【完了】はてなブックマークの計画メンテナンスのお知らせ（2025年1月31日(金) 深夜1:30〜3:00）

ブックマークしたエントリーのタイトル変更機能の提供を一時的に停止します

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (5)

nekohtmlに関するimai78のブックマーク (3)

nekohtml と xpath | mono-blog

Java Program Examples -- Transform HTML (JAXP 1.1 + NekoHTML)

私とNekoHTML 最新2件

お知らせ

今週のはてなブックマーク数ランキング（2025年1月第4週）

【完了】はてなブックマークの計画メンテナンスのお知らせ（2025年1月31日(金) 深夜1:30〜3:00）

ブックマークしたエントリーのタイトル変更機能の提供を一時的に停止します

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス