Google refineのクラスタリング機能は便利ですが、ファセット(facet)でバリエーションが多い場合は”too many to display”となってしまい実行出来ません。現バージョンでは制限を変えられるようになっていますが、それでもブラウザベースである程度大きなデータに対して処理を行うとブラウザが長時間にわたり重くなるという問題があります。 その一方でソースコードは公開されているので、それを利用することで、上記の問題を回避したクラスタリングが可能になります。 Key collision kNN Key collision については、Clusteringから個々のソースを取得して適宜生成します。 kNN については、下記の要領でダウンロードします。 svn checkout http://simile-vicino.googlecode.com/svn/trunk/ simi