Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
PRODUCTS

朝日新聞単語ベクトル

朝日新聞単語ベクトル

朝日新聞単語ベクトル」は約800万記事(延べ23億単語)をもちいて学習した単語ベクトルです。word2vecのSkip-gram・CBOW、GloVeを用いて学習させています。さらに「Retrofitting」と呼ばれる、単語ベクトルのfine-tuning手法を用いて最適化したものも提供します。

概要

「朝日新聞単語ベクトル」は、朝日新聞社が保有する1984年8月から2017年8月までに掲載された記事のうち、約800万記事(延べ23億単語)をもちいて学習した単語ベクトルです。

単語分割には MeCabを使用し、辞書はIPADIC-2.7.0を用いています。単語ベクトルのモデルは、Skip-gramとCBOWを word2vecの ツールで学習したほか、GloVeによって学習したモデルを提供します。

さらに、Skip-gram、CBOW、GloVeに対して「Retrofitting」と呼ばれる、単語ベクトルのfine-tuning手法を用いて最適化したものも用意しました[1]。合計6モデルを提供します。

本データは、株式会社レトリバとの共同研究の一環として作成されたものです。共同研究についてはこちらをご覧ください。また、本件に関するプレスリリースはこちらをご覧ください。

word2vecおよびGloVeの訓練パラメータは下記の通りです。

Skip-gram or CBOW -cbow {0, 1}
次元数 -size 300
文脈長 -window 8
負例サンプリング -negative 5
階層化ソフトマックス -hs 0
最低頻度閾値 -sample 1e-5
単語最低出現回数 -min-count 3
反復回数 -iter 15

word2vecの訓練オプション

次元数 VECTOR_SIZE 300
文脈長 WINDOW_SIZE 8
単語最低出現回数 VOCAB MIN COUNT 3
反復回数 MAX_ITER 15

GloVeの訓練オプション

使用方法

単語ベクトルは、全てword2vecのフォーマットで統一されています。

ファイルの1行目に語彙数とベクトルの次元数が記載され、2行目以降は単語とベクトルが記載されています。

下記では、Pythonでgensimを用いたサンプルコードは下記の通りです。


      >>> from gensim.models import KeyedVectors
      >>> # ある単語に似た単語(上位5個)を探す
      >>> vec = KeyedVectors.load_word2vec_format("./cbow.txt")
      >>> vec.most_similar("暗い", topn=5)
      [('暗く', 0.7123910188674927),
       ('明るい', 0.6702773571014404),
       ('暗かっ', 0.5876639485359192),
       ('薄暗い', 0.58516526222229),
       ('真っ暗', 0.5563079118728638)]
     >>> # Retrofittingを適用したベクトルで似た単語を探す
     >>> retro_vec = KeyedVectors.load_word2vec_format("./cbow-retrofitting.txt")
     >>> retro_vec.most_similar("暗い", topn=5)
     [('薄ぐらい', 0.8090516328811646),
      ('グルーミー', 0.7773782014846802),
      ('もの淋しい', 0.7517762780189514),
      ('陰気臭い', 0.7295931577682495),
      ('暗く', 0.7175554037094116
     >>> # 「王」という単語から「男」を引いて「女」を足すと
     >>> retro_vec.most_similar(positive=['女', '王'], negative=['男'], topn=5)
    [('女帝', 0.6063517332077026),
     ('女王', 0.6007771492004395),
     ('君王', 0.5941751003265381),
     ('クィーン', 0.583606481552124),
     ('后', 0.5781991481781006)]
    

データの入手

データの入手は、下記の利用規約を読み同意された方のみ入手が可能です。

利用規約に同意される方は、

  • お名前
  • 所属
  • 利用目的
  • 「利用規約に同意します」という一文

を明記の上、

research-pr(アットマーク)retrieva.jp

までお問い合わせください。

3営業日以内に頂いた内容を確認させていただき、利用目的が利用規約に準じている方にはメールの返信にてデータのURLをお送りします。

こちらのQRコードからメールを送信いただくと便利です。

脚注

[1]. 参考文献1に記載されているRetrofitting(自動)がこれに該当します。

参考文献

  1. 田口雄哉, 田森秀明, 人見雄太, 西鳥羽二郎, 菊田洸. 同義語を考慮した日本語単語分散表現の学習. 情報処理学会第233回自然言語処理研究会, Vol.2017-NL-233, No.17, pp.1-5. October 2017[pdf]
  2. Tomas Mikolov and Kai Chen and Greg Corrado and Jeffrey Dean. "Efficient Estimation of Word Representations in Vector Space." arXiv, 2013. [pdf]
  3. Jeffrey Pennington, Richard Socher and Christopher D. Manning. "GloVe: Global vectors for word representation." EMNLP2014. [pdf]
  4. Manaal Faruqui, Jesse Dodge, Sujay Jauhar, Chris Dyer, Eduard Hovy, and Noah Smith . "Retrofitting Word Vectors to Semantic Lexicons" NAACL2015. [pdf]