Internalshttps://github.com/tokuhirom/jsref コードはこちらにあるので、ご利用ください。データの生成部分(crawler.js)データの生成はすべて node.js でやっています。スクレイピング処理は当初 wget でやっていたのですが、wget で処理すると、ディレクトリの処理が微妙なので、手でscraping することにしました。取得したデータは gdbm に保存しています。HTMLデータの変換(convert.js)取得したHTML をそのまま利用するのはむずかしいので script タグの除去などをおこない、HTML を整形します。libxmlext というライブラリを利用して処理をしています。当初は jsdom を利用していたのですが、速度面にだいぶ難があったのでのりかえました( see http://d.hatena.ne.jp/to