タグ

IMEと統計に関するwackyのブックマーク (1)

  • ChaIME

    ブラウザから使える IME としては AjaxIME が有名ですが、AjaxIME よりは仮名漢字変換モデルをがんばっているので、多少精度がよいようです。 ATOK 2007 はたまたま失敗する事例ばかり集めているので悪く見えますが、 普段はもっとよいですね。言語モデルを Web コーパスから作り、仮名漢字 変換モデルを新聞記事から作っているので、上記4つの硬い文は ChaIME でも正しく変換できることは予測可能ですが、下記4つは難しいです。 このような文体で書かれたコーパス(ブログデータ?)から仮名漢字変換モデル を学習するとうまく行くかもしれません。 統計的仮名漢字変換 統計的仮名漢字変換について ページを分けました。 既知の問題点(優先度順) unigram によるバックオフ(辞書引き回数が減る) 仮名漢字モデルの Google語 N グラムからの推定 現在2GBの辞書サイズ

    wacky
    wacky 2009/02/23
    Webブラウザ上で動作する日本語入力・かな漢字変換システム。統計的自然言語処理の手法を利用。大規模コーパス(Googleの日本語n-gramデータ)から推定した統計を用いて仮名漢字変換。
  • 1