wikipediaは同義語の単語(「ASIA」と「アジア」とか)は、代表的な単語にリダイレクトするようになっています。つまりリダイレクト関係にある単語は、大抵は同じ意味であることが期待されます。そこでこのリダイレクト関係を使って、同義語を抽出してみようと思います。 実際に作成したスクリプトは以下の通りです。 #!/usr/bin/perl # # wikipediaのリダイレクトを使って同義語を抽出 # # Usage: # % bzcat jawiki-latest-pages-articles.xml.bz2 | ./redirect_words.pl > result.tsv # # 参考ページ: # [を] Wikipediaのキーワードリンクを使って関連語データを作ってみた # http://chalow.net/2007-06-09-3.html # use strict; u