clavierのブックマーク - はてなブックマーク

clavier id:clavier

ブックマーク / qiita.com/daimonji-bucket (1)

レコード間の名寄せ(Entity Recognition/Deduplication)を省力化・自動化できるかもしれない入門~ - Qiita
レコード間の名寄せ(Entity Recognition/Deduplication)を省力化・自動化できるかもしれない入門~自然言語処理機械学習名寄せデータクレンジング Introduction 皆様、"Enit ity Matching""Deduplication"したことありますか? おそらく多くのエンジニアの方は、なんじゃいって感じになるかと思います。しかし簡単に言えば、テーブル内・テーブル間のレコードの名寄せです。多くの人が経験したことがあるでしょう。一言に言うと、表記ゆれとかあっても"fuzzyにjoin/distinct"する事です。 SQLのJOINで扱えるレベルなら、簡単です。しかし表記ゆれや誤りを考慮に入れた途端、厄介になります。今回はそんな名寄せについて自動化・省力化するために、まずその概要をまとめました。 Notice 概要です。各論は個別記事を追加
clavier 2019/06/07
あとで読む

ETL
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx