概要 大量のタイトルの類似度を測って、似ているタイトルのアイテムを列挙したい。 その場合、タイトルの類似度を図るために、(N*N)/2個のタイトルを比較しなければならない。 タイトルが増えていくと、一つのCPUだと辛くなるので、分散処理環境で並列に処理しようとおもい、pysparkで分散環境で出来ないか調査してみた。 コードはgistにあげている。 利用したソース spark 2.2.1 hadoop 2.7 試したCSV 結果 cid_1 title_1 cid_2 title_2 simularity