Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

ブックマーク / www.madin.jp (2)

  • 日本語文書の文字・単語出現頻度解析ツールとデータ

    さて、この方法で、単語単位での解析結果から前述のような「板同士の類似度」を計算してみたところ、今度は感覚的に「精度が低い」結果が出ました。機械的に漢字のみを数え上げたものよりも高精度が出せると思っていたところだったのですが、内容の関連性のあまり見えない板が、「『総合』スレッドが多い」などといった関係で浮かび上がってくるのです。さらに、独特の用語や新しい固有名詞の使われているサンプルには、KAKASIの辞書をそのまま使うのは不適切であったという部分もあります。しかし、文字のみよりも形態素単位のほうが、解釈としては「質的」に文章の「内容」に近づくという考え方は捨てきれません。何らかの補正をかけて、高精度を出すことは可能かもしれません。 個人レベルで利用できるツール ここまでは、自作ツールを用い、「2ちゃんねる」をサンプルとした解析結果 を紹介しましたが、次は、個人レベルで利用できる解析ツール

    Pink
    Pink 2006/03/22
    頻度分析
  • [錐] tDiary専用 高橋メソッドプラグイン「bigpresen.rb」

    ごうだまりぽです。作ったモノとか拾った知識とかひねり出した知恵とかをさらしてます。読むと価値観が360度変わること請け合い! << 2006/02/ 1 2 3 4 5 6 1. Googleインデックスに復活 7 1. tDiary専用 高橋メソッドプラグイン「bigpresen.rb」 8 1. 高橋メソッド風プレゼンジェネレータCGI 9 1. 建築とプレゼンテーション 10 1. 高橋メソッドプラグイン「bigpresen.rb」改造 11 12 13 1. 高橋メソッドプラグイン「bigpresen.rb」改造(2/13) 14 15 16 1. EUCで「接種」と書き、SJISとして読むと「タワシ」 17 18 19 20 21 22 23 24 25 26 1. 「ゴリラ」と「ゲリラ」は英語では同音である 27 28 >> ■ [blog]tDiary専用 高

    Pink
    Pink 2006/02/11
  • 1