URLからページ一覧を取得するプログラムを開発しました
現状あるサイトのページ一覧を取得したいとき、どのようにしていますか?手元にファイルがある場合はコマンドなどで取得可能ですが、CMSなど動的なコンテンツが組み込まれている場合、どうすればよいでしょうか。wget や W3C Link Checker などさまざまなソフトがありますが、ページ一覧だけが欲しいという時に限ってはいまいち使い勝手がよくありません。
そこで、URLを入力するとそのページの同ドメイン以下のリンク一覧を取得するプログラムを開発しましたのでシェアします。たとえば、URLに「http://shinobu.tumblr.com/」と入力して、「Get」ボタンを押してみてください。
http://tshinobu.com/lab/get-page-link/
Depthに1以上を設定すると、同ドメイン以下のリンクをたどって更にリンク一覧を取得します。これを繰り返すことによって、同ドメイン以下のページを網羅することができます。リンク切れなどがあれば、エラー表示されます。
いくつかのサイトでテストしてみましたが、概ね機能しているのではないかと思います(href属性に記述のない、JavaScriptで開くリンクは取得できませんが…)。Webサイトリニューアルのドキュメントづくりや、ページの一括チェックなどに、ぜひ使ってみてください。