PRODUCTS

ææ¥æ°èåèªãã¯ãã«

ææ¥æ°èåèªãã¯ãã«ãã¯ç´800ä¸è¨äº(å»¶ã¹23ååèª)ããã¡ãã¦å¦ç¿ããåèªãã¯ãã«ã§ããword2vecã®Skip-gramã»CBOWãGloVeãç¨ãã¦å¦ç¿ããã¦ãã¾ããããã«ãRetrofittingãã¨å¼ã°ãããåèªãã¯ãã«ã®fine-tuningææ³ãç¨ãã¦æé©åãããã®ãæä¾ãã¾ãã

æ¦è¦

åèªåå²ã«ã¯ MeCabãä½¿ç¨ããè¾æ¸ã¯IPADIC-2.7.0ãç¨ãã¦ãã¾ããåèªãã¯ãã«ã®ã¢ãã«ã¯ãSkip-gramã¨CBOWã word2vecã® ãã¼ã«ã§å¦ç¿ããã»ããGloVeã«ãã£ã¦å¦ç¿ããã¢ãã«ãæä¾ãã¾ãã

ããã«ãSkip-gramãCBOWãGloVeã«å¯¾ãã¦ãRetrofittingãã¨å¼ã°ãããåèªãã¯ãã«ã®fine-tuningææ³ãç¨ãã¦æé©åãããã®ãç¨æãã¾ãã[1]ãåè¨6ã¢ãã«ãæä¾ãã¾ãã

word2vecããã³GloVeã®è¨ç·´ãã©ã¡ã¼ã¿ã¯ä¸è¨ã®éãã§ãã

word2vecã®è¨ç·´ãªãã·ã§ã³
Skip-gram or CBOW	`-cbow`	`{0, 1}`
æ¬¡åæ°	`-size`	`300`
æèé·	`-window`	`8`
è² ä¾ãµã³ããªã³ã°	`-negative`	`5`
éå±¤åã½ããããã¯ã¹	`-hs`	`0`
æä½é »åº¦é¾å¤	`-sample`	`1e-5`
åèªæä½åºç¾åæ°	`-min-count`	`3`
åå¾©åæ°	`-iter`	`15`

GloVeã®è¨ç·´ãªãã·ã§ã³
æ¬¡åæ°	`VECTOR_SIZE`	`300`
æèé·	`WINDOW_SIZE`	`8`
åèªæä½åºç¾åæ°	`VOCAB MIN COUNT`	`3`
åå¾©åæ°	`MAX_ITER`	`15`

ä½¿ç¨æ¹æ³


      >>> from gensim.models import KeyedVectors
      >>> # ããåèªã«ä¼¼ãåèª(ä¸ä½5å)ãæ¢ã
      >>> vec = KeyedVectors.load_word2vec_format("./cbow.txt")
      >>> vec.most_similar("æã", topn=5)
      [('æã', 0.7123910188674927),
       ('æãã', 0.6702773571014404),
       ('æãã£', 0.5876639485359192),
       ('èæã', 0.58516526222229),
       ('çã£æ', 0.5563079118728638)]
     >>> # Retrofittingãé©ç¨ãããã¯ãã«ã§ä¼¼ãåèªãæ¢ã
     >>> retro_vec = KeyedVectors.load_word2vec_format("./cbow-retrofitting.txt")
     >>> retro_vec.most_similar("æã", topn=5)
     [('èããã', 0.8090516328811646),
      ('ã°ã«ã¼ãã¼', 0.7773782014846802),
      ('ãã®æ·ãã', 0.7517762780189514),
      ('é°æ°èã', 0.7295931577682495),
      ('æã', 0.7175554037094116
     >>> # ãçãã¨ããåèªãããç·ããå¼ãã¦ãå¥³ããè¶³ãã¨
     >>> retro_vec.most_similar(positive=['å¥³', 'ç'], negative=['ç·'], topn=5)
    [('å¥³å¸', 0.6063517332077026),
     ('å¥³ç', 0.6007771492004395),
     ('åç', 0.5941751003265381),
     ('ã¯ã£ã¼ã³', 0.583606481552124),
     ('å', 0.5781991481781006)]

ãã¼ã¿ã®å¥æ

å©ç¨è¦ç´

å©ç¨è¦ç´ã«åæãããæ¹ã¯ã

ãåå
æå±
å©ç¨ç®ç
ãå©ç¨è¦ç´ã«åæãã¾ããã¨ããä¸æ

ãæè¨ã®ä¸ã

research-prï¼ã¢ãããã¼ã¯ï¼retrieva.jp

ã¾ã§ãåãåãããã ããã

èæ³¨

åèæç®

ç°å£éå, ç°æ£®ç§æ, äººè¦éå¤ª, è¥¿é³¥ç¾½äºé, èç°æ´¸. åç¾©èªãèæ®ããæ¥æ¬èªåèªåæ£è¡¨ç¾ã®å¦ç¿. æå ±å¦çå¦ä¼ç¬¬233åèªç¶è¨èªå¦çç ç©¶ä¼, Vol.2017-NL-233, No.17, pp.1-5. October 2017[pdf]
Tomas Mikolov and Kai Chen and Greg Corrado and Jeffrey Dean. "Efficient Estimation of Word Representations in Vector Space." arXiv, 2013. [pdf]
Jeffrey Pennington, Richard Socher and Christopher D. Manning. "GloVe: Global vectors for word representation." EMNLP2014. [pdf]
Manaal Faruqui, Jesse Dodge, Sujay Jauhar, Chris Dyer, Eduard Hovy, and Noah Smith . "Retrofitting Word Vectors to Semantic Lexicons" NAACL2015. [pdf]

ææ¥æ°èåèªãã¯ãã«

æ¦è¦

word2vecã®è¨ç·´ãªãã·ã§ã³

GloVeã®è¨ç·´ãªãã·ã§ã³

ä½¿ç¨æ¹æ³

ãã¼ã¿ã®å ¥æ

èæ³¨

åèæç®