Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

iirに関するyokochieのブックマーク (4)

  • Introduction to Information Retrieval #18 の復習資料 - naoyaのはてなダイアリー

    Introduction to Information Retrieval 輪読会 18章の復習資料を以下にアップロードしました。 http://bloghackers.net/~naoya/iir/ppt/iir_18.ppt 18章のテーマは "Matrix decompositions and latent semantic indexing" で、行列の特異値分解と Latent semantic indexing (LSI, 潜在的意味インデキシング) でした。ベクトル空間モデルの核である単語文書行列を特異値分解を用いて低階数近似し、計算量を下げながらも*1適合度を向上させるという LSI についての解説の章です。LSI に関しては http://d.hatena.ne.jp/naoya/20090212/latent_semantic_indexing にて先日少し言及しました

    Introduction to Information Retrieval #18 の復習資料 - naoyaのはてなダイアリー
  • Introduction to Information Retrieval #6 の復習資料 - naoyaのはてなダイアリー

    Introduction to Information Retrieval の6章の復習資料を以下にアップロードしました。 http://bloghackers.net/~naoya/iir/ppt/iir_06.ppt 6章はスコアリング(重み付け)がテーマです。スコアリングの基として、文章の属性毎に重みを与えてスコアを計算する Weighted zone scoring が最初に紹介されています。次に、文書に含まれる単語に重みを与える方法として tf-idf が話題に挙がります。tf-idf などで各単語に数値を与えられたドキュメントは、各単語の重みを成分とする M 次元 (M は辞書の単語数) のベクトルとみなすことができます。このドキュメントベクトルをM次元空間に展開しベクトル計算でドキュメント間の相関(類似性)を算出する手法として Vector space model の解説が

    Introduction to Information Retrieval #6 の復習資料 - naoyaのはてなダイアリー
  • 「Introduction to Information Retrieval」輪講第七回

    「Introduction to Information Retrieval」輪講第七回 2008-05-17-1 [IIR] 「Introduction to Information Retrieval」の輪講の第七回です。 - Introduction to Information Retrieval http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html 今回は六木ヒルズ20Fの百度 (Baidu, http://www.baidu.jp/) の会議室を使わせて頂きました。ありがとうございました。 今回は第6章 「Scoring, term weighting & the vector space model」でした。 内容は、簡単な重み学習ロジック、TF-IDF などの指標、 そしてベクタースペー

    「Introduction to Information Retrieval」輪講第七回
    yokochie
    yokochie 2008/05/21
  • Introduction to Information Retrieval #5 の復習資料 - naoyaのはてなダイアリー

    Introduction to Information Retrieval の5章の復習資料を以下にアップロードしました。 http://bloghackers.net/~naoya/iir/ppt/iir_05.ppt 5章はインデックス圧縮がテーマです。辞書の圧縮と postings files の圧縮に対するそれぞれのアプローチについての解説が主です。転置インデックスの振る舞いに特化した圧縮手法などが紹介されていて、とても面白い章でした。数値表現をビット単位で最適化する γ coding などは目から鱗です。 次回の輪読会は 6/8 予定です。次章の内容は、検索結果のスコアリングについて。tf-idf や Vector space model についての話が中心になります。 過去の章のアーカイブは同 URL のディレクトリ (http://bloghackers.net/~naoya

    Introduction to Information Retrieval #5 の復習資料 - naoyaのはてなダイアリー
    yokochie
    yokochie 2008/05/21
  • 1