23. 22
RNNによる機械翻訳のモデル化
A B C D X Y Z
A B C D <eos> X Y Z
<eos>X Y Z
機械翻訳
Sutskever et al., “Sequence to Sequence Learning with Neural Networks”, Arxiv, 2014
24. 23
アテンションに基づくRNN
A B C D <eos> X Y Z
<eos>X Y Z
どこに「注意」して翻訳するかを学習する
機械翻訳
Bahdanau et al., “Neural Machine Translation by Jointly Learning to Align and Translate”, ICLR,
2015
25. 24
アテンションに基づくRNN
A B C D <eos> X Y Z
<eos>X Y Z
どこに「注意」して翻訳するかを学習する
機械翻訳
Bahdanau et al., “Neural Machine Translation by Jointly Learning to Align and Translate”, ICLR,
2015
26. 25
アテンションに基づくRNN
A B C D <eos> X Y Z
<eos>X Y Z
どこに「注意」して翻訳するかを学習する
機械翻訳
Bahdanau et al., “Neural Machine Translation by Jointly Learning to Align and Translate”, ICLR,
2015
27. 26
アテンションに基づくRNN
A B C D <eos> X Y Z
<eos>X Y Z
どこに「注意」して翻訳するかを学習する
機械翻訳
Bahdanau et al., “Neural Machine Translation by Jointly Learning to Align and Translate”, ICLR,
2015
29. 自動要約
28
アテンション型RNNに基づく要約
Rush et al., “A Neural Attention Model for Sentence Summarization”, EMNLP, 2015
russian defense minister ivanov called sunday for the
creation of a joint front for combating global terrorism
russia calls for joint front against terrorism
入力(原文)
出力(要約)
• 概ね機械翻訳と同じ.
• ビーム探索によって最適な要約を生成している.
33. Softmax問題(Vincentらの手法)
32
Vincent et al., “Efficient Exact Gradient Update for training Deep Networks with Very Large
Sparse Targets”, Arxiv, 2014
Wを明示的に管理しない
WD
d
D: 語彙数
42. 構文解析(依存構造)
41
Chen and Manning, “A Fast and Accurate Dependency Parser using Neural Networks”, ACL, 2014
フィードフォーワードネットワークによるShift-reduce解析
• Shift-reduce解析の各アクションに対するスコア計算をNNで行
う.
• 解析アルゴリズムは従来と同じだが,組み合わせ特徴量の設
計が不要になる.
43. 構文解析(依存構造)
42
Pei et al., “An Effective Neural Network Model for Graph-based Dependency Parsing”, ACL, 2015
動的計画法に基づく解析(Eisnerアルゴリズム)
• Eisnerアルゴリズム(次スラ
イド)のスコア計算をNNで
行う.
• SHift-reduceのときと同様
に,アルゴリズムは従来と
同じだが,組み合わせ特徴
量の設計が不要となる.
84. 83
in getting their money back
... ... ... ...
g e t t i n gi n b a c k
... ...
... ... ... ...
文字レベル
CNN
特徴ベクトル
単語レベル
CNN
CNN based POS-Tagging [Santos+ 14]
85. g e t t i n g
10 dim.
<s> <e>
CNN based POS-Tagging [Santos+ 14]
86. g e t t i g
... ... ... ...
max-pooling
10 dim.
max
n<s> <e>
文字列から重要な
特徴を抽出
CNN based POS-Tagging [Santos+ 14]