レコード間の名寄せ(Entity Recognition/Deduplication)を省力化・自動化できるかもしれない入門~自然言語処理機械学習名寄せデータクレンジング Introduction 皆様、"Enitity Matching""Deduplication"したことありますか? おそらく多くのエンジニアの方は、 なんじゃいって感じになるかと思います。 しかし簡単に言えば、テーブル内・テーブル間のレコードの名寄せです。 多くの人が経験したことがあるでしょう。 一言に言うと、表記ゆれとかあっても"fuzzyにjoin/distinct"する事です。 SQLのJOINで扱えるレベルなら、簡単です。 しかし表記ゆれや誤りを考慮に入れた途端、厄介になります。 今回はそんな名寄せについて自動化・省力化するために、 まずその概要をまとめました。 Notice 概要です。各論は個別記事を追加
