この記事の公開後に noromanba 様から「DOMのテキスト変換はXMLSerializerを使えば一撃でいけるよ!」的なご指摘を頂いたので追記しました。 本当にありがとうございます。 スクレイピングネタです。 クローリング+スクレイピングするにあたってパスワード認証の掛かったページから情報を取得するのはなかなかに厄介な課題ですよね。 スクレイピングのフレームワークによっては認証のための機能が備わっていたりしますが、それが無い場合には自分でHTTPのレスポンスをフックしてCookie食わせたりなんだりともう大変。 しかも、100ページ超のページを対象にスクレイピングしたいならばいざ知らず、5, 6ページとかそこいらのページから情報取りたいだけで、パスワード認証のための下準備をするなんて発狂しそうになりませんか? そんなときに新しいソリューション、パスワード認証の突破はあなたの手とあなた