Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

nlpとn-gramに関するsomemoのブックマーク (4)

  • 【たのしい自然言語処理シリーズ】サザエさんにじゃんけんで50%勝つ方法 - EchizenBlog-Zwei

    最近サザエさんとキュアピースのじゃんけん対決が話題になっている。 じゃんけんポンで日曜日 またこれに関連して「サザエさん ジャンケン学」というサイトが注目を集めている様子。 サザエさん ジャンケン学 このサイトによるこれまでの予測的中率は44.7%とのこと。 さて自然言語処理という技術の分野ではNgramモデルというものがある。これは簡単に言うと「まことに」という言葉の後には「残念ですが」という言葉がつながりやすいとか、「ちょっと」の後には「いいですか」がつながりやすいというように「どういう言葉の後にどういう言葉がつながるか」ということを表現するモデルのこと。 これをじゃんけんに応用することで「この人はグー、グーときたら次はチョキを出す」というような傾向を予測することができる。 このNgramモデルを使うことでサザエさんに50%くらいの確率で勝てることがわかったので以下にまとめる。 Ngr

    【たのしい自然言語処理シリーズ】サザエさんにじゃんけんで50%勝つ方法 - EchizenBlog-Zwei
  • 第5回 N-gramのしくみ | gihyo.jp

    前回は形態素解析を使う検索エンジンのしくみについて説明しました。今回は、FINDSPOTで使用しているN-gramという検索エンジンのしくみについて説明します。 N-gramによる見出し語の切り出し 前回は、形態素解析による検索エンジンでは、検索可能な最小単位が分かち書きの切り分け単位となる点を説明しました。 一方、N-gramを使った検索エンジンでは、単純に文字の並びを見出し語としてインデックスを作成します。1文字を元にインデックスを作成する方法をユニグラム、2文字の並びを元にインデックスを作成する方法をバイグラム、3文字の並びを元にインデックスを作成する方法をトリグラムと呼んでいます。 1文字:ユニグラム 2文字:バイグラム 3文字:トリグラム N-gramによる見出し語の切り出しは、形態素解析のための文法解析を伴わないため、特定の自然言語に依存しないという特徴があります。 FINDS

    第5回 N-gramのしくみ | gihyo.jp
  • http://www.phontron.com/slides/nlp-programming-ja-02-bigramlm.pdf

  • N-gramってなんだ

    ぴいこは研究で、類似度を求める機能をシステムに組み込んでいます。そこで、どうしたら人間の思う「似ている」に機械が近づけるかな?と思って試行錯誤しているのですが、似ているといえばコサイン類似度以外にもN-gram(えぬぐらむ)というやり方があるということにたどり着きました。 今回は、こちらのページを大いに参考にしています!研究のソースでも、ベースにこちらのプログラムを利用させてもらって、カスタマイズして組み込んでいます。やりたいことから技術を得るのにわかりやすいページでした NEO INSPIRATION – Ngramを利用したページ類似度チェッカー+Ngram計算のphpクラス N-gramのNには、1(ユニグラム)とか2(バイグラム)とか3(トリグラム)とか、Nは好きな数字にできますが、一般的には1~3が有効です。私のシステムには2-gramを取り入れています。今回はそのN-gramに

  • 1