公開されいてるHTMLは整形されたものばかりではないので、クロールして解析するには整形する必要があります。 Javaではnekohtmlというライブラリがありますので、そちらを使ってみました。→ダウンロードはこちら なお、これをつかうにはxerces2のライブラリも必要です。→ダウンロードはこちら HTMLソースからアンカーだけ取得するサンプルを作りました。 public static void main(String[] args) throws Exception{ DOMParser parser = new DOMParser(); parser.parse(args[0]); Node node = parser.getDocument(); NodeList list = XPathAPI.selectNodeList(node, "//A"); for(int