12. キャプションの実例(validationから)
最初が大文字、ピリオド A woman standing in a kitchen preparing tea.
全部小文字(理想的) a woman wearing a hat holding onto an umbrella
全部大文字 A MAN OPENING A DOOR TO AN OVEN IN A
RESTAURANT KITCHEN
最初にスペース A man riding his bike with his dog in the side kick seat
どうしようもないケース a corner of a bathroom shows part of a vanity and the
commode sits of the other side of the wa]]
キャプションを前処理なく使うのは自殺行為
最初が大文字、小文字、ピリオドがあるない、全て大文字、など表記ゆれが
結構ひどい
最後のは wall がwa]] となっていて笑う
悪いことは言わない、前処理に
coco-caption API のPTBTorknizer in Stanford CoreNLPを使おう
However…
14. Caption Evaluation
coco-caption APIには
BLEU, METEOR, ROUGE-L, CIDErによる自動評価尺度が
用意されている
必要なもの・・・生成したキャプションと対応する画像idの組
(データセット内の任意の数)をdumpしたjsonファイル
[{“image_id”: 404464, “caption”: “black
and white photo of a man standing in
front of a building”}, {“image_id”:
380932, “caption”: “group of people are
on the side of a snowy field”},
{“image_id”: 565778, “caption”: “train
traveling down a train station”}, … ]
(coco-caption/results/captions_val2014_fakecap_results.json)
http://arxiv.org/abs/1504.00325
16. BLEU
仮説(生成した文)とリファレンスのN-gramの一致率による評価尺度
N-gram : 局所的な単語の塊、Nは塊あたりの単語数
例: I have a pen .
N N-gram 語彙数
1 I have a pen . 5
2 I have a pen . 4
3 I have a pen . 3
4 I have a pen . 2
I, have, a, pen, .
の5つ
I have, have a, a pen, pen .
の4つ
I have a, have a pen, a pen .
の3つ
I have a pen, have a pen .
の2つ
N-gramの一致率が高いほど良い仮説を生成しているだろうという仮定がある
(高いほど良い)
20. ROUGE
(亜種)𝑅𝑂𝑈𝐺𝐸𝑠 : based on the skip bi-grams
skip bi-gram : 飛び越しありのbi-gram
例: I have a pen . bi-gram
I have
have a
a pen
pen .
skip bi-gramで追加される語彙
I a, I pen, I .
have pen, have .
a .
Iとの組み合わせ
語彙数(文中の単語数をWとする)
bi-gram : W-1
skip bi-gram : 𝑊∁2
あとは𝑅𝑂𝑈𝐺𝐸 𝑁と似た方法でrecallとprecisionから算出
(ただし、計算量が増えるのでAPIでは飛
び越しは3つまでに制限されている)