[B! cluster][NLP] s-fengのブックマーク

s-feng id:s-feng

clusterとNLPに関するs-fengのブックマーク (3)

GitHub - ddangelov/Top2Vec: Top2Vec learns jointly embedded topic, document and word vectors.
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
s-feng 2023/01/06
textMining

python

NLP

cluster
リンク
Pythonで単語分散表現のクラスタリング - Ahogrammer
最近の自然言語処理では、単語の分散表現は当たり前のように使われています。単語分散表現では、各単語が高次元ベクトル空間に配置され、加減乗除等の演算を行えるようになります。これらのベクトルは、意味の近い単語に対しては同じようなベクトルになることがわかっています。本記事では、単語分散表現のベクトルをクラスタリングし、意味が近い単語のクラスタを作ってみたいと思います。これらのクラスタは、眺めて楽しむだけでなく、機械学習の素性として使うこともできます。イメージ的には、以下のような感じで単語をクラスタにまとめます。では、単語分散表現をクラスタリングして、単語のクラスタを作ってみましょう。準備まずは、作業用のディレクトリを作成しておきましょう。また、必要に応じて Python の仮想環境も用意します。以下のコマンドを実行することで、ディレクトリを用意します。 $ mkdir work
s-feng 2017/11/01
NLP

tutorial

cluster

python

analysis

visualization

data

datamining
リンク
Latent Dirichlet Allocation(LDA)を用いたニュース記事の分類 - SmartNews Engineering Blog
ハイパーパラメータは自由に設定する値です。確率分布 $ \theta_{ik} $ などをまとめて$ {bf \Theta} $などと書くと、ハイパーパラメータを$ {\bf \alpha}$, ${\bf \beta}$と設定したとき、トピック混合率が$ {\bf \Theta} $で、単語生成率が$ {\bf \Phi} $で、各単語の背景トピックが$ {\bf Z} $であるような文章群$ {\bf W} $が得られる確率$P({\bf \Theta}, {\bf \Phi}, {\bf Z},{\bf W} |\alpha,\beta)$は以下のような図(グラフィカルモデル)によって表現され、実体は、 $$ P({\bf \Theta}, {\bf \Phi}, {\bf Z},{\bf W} |\alpha,\beta) = \left( \frac{prod_{k}\G
s-feng 2017/10/19
NLP

LDA

cluster

datamining

data

analysis

tutorial
リンク
1