ishideoのブックマーク - はてなブックマーク

ishideo id:ishideo

ブックマーク / qiita.com/shibacow (1)

pysparkでタイトル類似度を計測する - Qiita
概要大量のタイトルの類似度を測って、似ているタイトルのアイテムを列挙したい。その場合、タイトルの類似度を図るために、(N*N)/2個のタイトルを比較しなければならない。タイトルが増えていくと、一つのCPUだと辛くなるので、分散処理環境で並列に処理しようとおもい、pysparkで分散環境で出来ないか調査してみた。コードはgistにあげている。利用したソース spark 2.2.1 hadoop 2.7 試したCSV 結果 cid_1 title_1 cid_2 title_2 simularity
ishideo 2019/04/14
pyspark

apachespark

spark

qiita

similarity

levenshtein

distance
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx