タグ: [perl] [自然言語処理] 公開日:2011-07-05 PHPで都道府県、市区町村、町域名以降の住所分割を高速に行う方法 - 理想未来はどうなった?を参考に ただし、辞書の生成のところのスクリプトをうまく動かすことができなかったのでPerlで書いて無理やり対応。 それに合わせて処理全体が手作業っぽくなってしまった 作成手順 日本郵政の郵便番号一覧を取得する http://www.post.japanpost.jp/zipcode/download.html $ wget http://www.post.japanpost.jp/zipcode/dl/kogaki/lzh/ken_all.lzh 上記で取得した圧縮ファイルを手動で解凍+UTF8へ変換 辞書用CSVを生成する $ perl conv.pl ken_all.csv ken_dic.csv ※ conv.plの中