9. twitter言語判定は難しい? (2)
• ノイズが多い
– 正書法から外れた表現が頻出
– 省略語、短縮語、繰り返し (Cooooolll など)
• 通常の言語モデルでは尤度が小さくなる
OMG Oh My God u you
LOL Laughing Out Loud ur your イタリア語は
k を使わない
LMAO Laughing My Ass Out 4 for
F4F Follow for Follow i0u I love you
MDR Mort de Rire (仏) k che (伊)
TKT Ne t‘Inquiète Pas(仏) anke anche(伊)
極大部分文字列を使った twitter 言語判定 (NLP2012)
26. 作成したコーパス
言語 訓練 テスト
ca カタルーニャ語 9,089 5,082
cs チェコ語 9,082 7,682
da デンマーク語 7,388 5,524
de ドイツ語 44,448 10,065
en 英語 44,520 10,168
es スペイン語 44,118 10,265
fi フィンランド語 8,087 7,050
fr フランス語 44,339 10,098
hu ハンガリー語 10,030 4,904
id インドネシア語 44,722 10,181
it イタリア語 43,366 10,152
nl オランダ語 44,682 10,007 • 訓練データは他言語ノイズの少
no ノルウェー語 10,124 8,496 ないものを選ぶ
pl ポーランド語 16,771 10,152
pt ポルトガル語 44,215 10,208 • テストデータは3語以上のツ
ro ルーマニア語 10,021 5,911 イートから選ぶ(ノイズは許容)
sv スウェーデン語 44,054 10,032 • カタルーニャ語コーパス作成で
tr トルコ語 44,703 10,308
は、Raúl Velaz 氏と真鍋宏史氏
vi ベトナム語 15,030 10,488
計 538,789 166,773 に協力をいただいています
極大部分文字列を使った twitter 言語判定 (NLP2012)
27. データ形式
• 訓練データ・テストデータ共通
– [正解ラベル]¥t[メタデータ]¥t[テキスト]
en u should just enjoy ur vacation sadly
en :D i'm online but you arent RT that much
en im gettin attacked for a tweet LOOOOOOOOOOOOOOOOL
ca [ステータスID] [日時] [ユーザID] [UIの言語] @xxx xDDD no
m'extranya... Tal volta haguera segut millor per a la humanitat
que no l'haguera vist... you know.. xDD
極大部分文字列を使った twitter 言語判定 (NLP2012)