タグ

nlpに関するrin1024のブックマーク (65)

  • 言語処理100本ノック - 東北大学 乾研究室 / Inui Lab, Tohoku University

    FrontPage / 言語処理100ノック 3 秒後に NLP 100 Drill Exercises に移動します。 (移動しない場合は、上のリンクをクリックしてください。) © Inui Laboratory 2010-2018 All rights reserved. 研究室紹介/About Us 過去に在籍したメンバー Members 研究室環境 Lab Facilities ↑研究会/Research Meetings 概要 Overview 総合研究会 Research Seminar 意味研究会 SIG Semantics 談話研究会 SIG Discourse 知識獲得研究会 SIG Knowledge Acquisition Embedding研究会 SIG Embedding KIAI Knowledge-Intensive Artificial Intellige

  • 単語重要度入門 〜テキストをダイエットさせよう〜

    第3回のさくさくテキストマイニング勉強会で発表を行った資料です。 TF*IDFについての解説です。 http://atnd.org/events/15873Lire moins

    単語重要度入門 〜テキストをダイエットさせよう〜
    rin1024
    rin1024 2011/06/07
  • 統計的機械学習入門

    統計的機械学習入門(under construction) 機械学習歴史ppt pdf 歴史以前 人工知能の時代 実用化の時代 導入ppt pdf 情報の変換過程のモデル化 ベイズ統計の意義 識別モデルと生成モデル 次元の呪い 損失関数, bias, variance, noise データの性質 数学のおさらいppt pdf 線形代数学で役立つ公式 確率分布 情報理論の諸概念 (KL-divergenceなど) 線形回帰と識別ppt pdf 線形回帰 正規方程式 正規化項の導入 線形識別 パーセプトロン カーネル法ppt pdf 線形識別の一般化 カーネルの構築法 最大マージン分類器 ソフトマージンの分類器 SVMによる回帰モデル SVM実装上の工夫 クラスタリングppt pdf 距離の定義 階層型クラスタリング K-means モデル推定ppt pdf 潜在変数のあるモデル EMアル

  • 決定木を用いた単語抽出 - nokunoの日記

    決定木を使って辞書なしで単語を抽出する手法に関する論文を読みました。Automatic Corpus-Based Thai Word Extraction with the C4.5 Learning Algorithm はじめに日語と同じく、単語の分かち書きがされない言語にタイ語があります。従来は人手による辞書の整備が行われていましたが、網羅性に限界があるのとコストがかかるので自動化したいというニーズがあります。 アプローチ日語の形態素解析では系列ラベリングとして定式化されることが多いですが、この論文ではコーパス中の全部分文字列を考え、ある部分文字列が単語か非単語かを二値分類するというアプローチをとっています。このことは、前後の文脈によって単語区切りが異なることがないという前提が置かれていることになります。実際に使うときは抽出した単語を辞書として最長一致するのかな。 決定木単語と非単

    rin1024
    rin1024 2011/03/01
  • NLP関係のリソースまとめ - nokunoの日記

    先日オープンソースのtrieライブラリについてまとめましたが、それ以外にも家での開発に使えるリソースが増えてきました。 コーパス WikipediaコーパスTwitterコーパスBaiduコーパスWebコーパスWikipedia対訳コーパスオープンソース対訳コーパスMS-IMEコーパス 辞書 WikipediaタイトルはてなキーワードIPAdicUnidicalt-cannadicSKK評判辞書

    rin1024
    rin1024 2011/01/10
  • オープンソースのTrieライブラリまとめ - nokunoの日記

    最近、趣味で開発しているStaKKのためにTrieライブラリを書いているのですが、参考にするためオープンソースのTrieライブラリについて調べました。簡潔データ構造を用いたものが中心です。 @hillbig氏によるもの tx LOUDSによる圧縮でメモリ使用量を削減したTrieライブラリ。 関連記事:Tx: Succinct Trie Data Structure Engineering the LOUDS Succinct Tree Representation - 射撃しつつ前転ux txの改良版。tailの圧縮によりtxの1/2くらいのサイズになるらしい。要チェック。 関連記事:ux... - ny23の日記id:s-yata 氏によるもの taiju LOUDSを含む簡潔データ構造を用いた大規模Trieライブラリ。sumire-triesインメモリの簡潔データ構造を実装した大規模T

  • 日本語評価極性辞書

    2. 日語評価極性辞書(名詞編) 評価極性を持つ(複合)名詞,約8千5百表現に対して評価極性情報を付与した,人手によるチェック済みのデータ.名詞の評価極性は概ね以下の基準に従う(東山, 2008). 〜である・になる(評価・感情)主観 「○○が〜である・〜になる」ことは,○○をP/Nと評価しているか? ポジティブ:誠実,安寧,親切,中立,名手,英雄,第一人者,幸せ ネガティブ:弱気, 〜である・になる(状態)客観 「〜(という状態)になる」ことは良いことか悪いことか? ポジティブ: ネガティブ:ガン 〜い(評価・感情)主観 「〜い」は良いか悪いか? ポジティブ:美しさ ネガティブ:弱さ 〜する(感情)主観 「〜する」は良い感情か,悪い感情か? ポジティブ:感嘆 ネガティブ:失望 〜する(出来事) 「〜する」ことは嬉しいことか嫌なことか? ポジティブ:

  • PFI seminar 2010/05/27 統計的機械翻訳

    8. 統計的機械翻訳(SMT: Statistical Machine translation)パラレルコーパスを用いて翻訳ルールを獲得c.f. ロゼッタストーン言語の専門家がいなくてもよい(国家的な理由も)高品質・大量のパラレルコーパスは国連・EUの国際会議の議事録などで大量に入手可LDC, Acquis, OPUS, Communautaire, …例:Europarlの場合 11言語毎に4000万単語言語のスケーラビリティが高いコーパスさえあれば良い c.f .Google 50言語間 9. 統計的機械翻訳の歴史 (1/2)~1980 用例ベース機械翻訳1989 IBMResearchによる著名な論文NLP業界での引用数第2位 (約1000件)翻訳システムのパラメータをパラレルコーパスから自動推定する簡単な手法から順に IBMモデル1 - 5がある提案者自身らは金融業界へと去っていっ

    PFI seminar 2010/05/27 統計的機械翻訳
  • 情報検索ことはじめ(3): 情報検索 (IR) 分野の国際会議と論文誌 - シリコンの谷のゾンビ

    どの会議や雑誌に投稿すべきかの情報を共有するのは素晴らしい - 発声練習を読んで,そういやIR系のカンファレンスまとめを見たことがないなぁ,と思ったのでIR系の研究を取り扱っているまとめてみることにしました.とはいうものの,自分が通ったことないので,偉そうに語っている部分は全て又聞き情報と妄想によるです. 長らく書いていなかったので,「情報検索ことはじめ」シリーズにしてみました.今回が第3弾です. 過去の情報検索ことはじめシリーズ 情報検索ことはじめ〜研究者編〜 - 睡眠不足?! 情報検索ことはじめ〜教科書編〜 - 睡眠不足?! 何が情報検索 (IR; information retrieval) なの? と言われると明確な定義を説明することができません.愛するIIRから引用します. Information retrieval (IR) is finding material (usual

    情報検索ことはじめ(3): 情報検索 (IR) 分野の国際会議と論文誌 - シリコンの谷のゾンビ
  • 自然言語処理のトップカンファレンス - 武蔵野日記

    NAACL HLT 2010 の accepted papers のリストが今日出た。 知っている名前があるかなと思ったが、日人ひとりもいないようだ。 (訂正) 松研先輩の tetsu-na さんが通っているようだ。@cacahoさん情報どうもありがとうございます! MSR 時代のインターン同期とかたくさんいる。やはりカリフォルニア開催だと気合い入れて出してくるからだろうか……。他にも出していると聞いた人が通っていないのを見ると、かなり厳しかった模様。以前 masayu-a さんが日記で(現在はてなダイアリーに引っ越したようだが) NAACL > ACL >> (越えられない壁) >> CoNLL > EMNLP >> (越えられない壁) >> COLING-ACL = ACL-IJCNLP > COLING(ICCL) = >> (越えられない壁) >> EACL > IJCNLP

    自然言語処理のトップカンファレンス - 武蔵野日記
  • 人工知能学会学会誌2008年5月号:「国際会議に通すための英語論文執筆」特集 - 発声練習

    熱い企画だった。編集委員のみなさまに失礼なことながら人工知能学会に属して5年。久方ぶりに熱心に特集を読んだ。この特集は人工知能学会のWebページでぜひ公開してほしいなぁ。 私は計算機科学・情報工学系の状況しかしらなかったので当たり前だと思っていたのだけど、分野によっては国際会議というものの位置づけがすごく低いらしい。鷲尾さんの「一流国際会議発表のための研究戦略とは?」から該当部分を引用。 情報科学における一流国際会議とは、世界的に質の高い投稿論文を集め、それらを3名程度の一流研究者によってジャーナル論文並みに厳格に査読し、とりわけ高品質の論文を厳選して採択する会議を指すことがほとんどである。しかし、情報科学以外で活躍する研究者と話をしていて、情報科学の一流国際会議に漸く採択された話をすると、決まって怪訝な顔をされる。情報科学以外のほとんどの分野では、NatureやScienceに代表される

    人工知能学会学会誌2008年5月号:「国際会議に通すための英語論文執筆」特集 - 発声練習
  • 形態素解析辞書UniDicを使おう - 次世代3Dコンテントパイプライン開発室

    形態素解析辞書として広く使われているIPA辞書ですが、いわゆる口語(話し言葉)を解析対象とするなら、UniDicがお勧めです。いきなり実例ですが、以下の感想文。 ここのケーキは、けた外れに美味しかったヽ(´ー`)ノ IPA辞書ではこうなっちゃうのが↓ * 0 1D 0/1 1.380119 ここ 名詞,代名詞,一般,*,*,*,ここ,ココ,ココ O の 助詞,連体化,*,*,*,*,の,ノ,ノ O * 1 4D 0/1 0.000000 ケーキ 名詞,一般,*,*,*,*,ケーキ,ケーキ,ケーキ O は 助詞,係助詞,*,*,*,*,は,ハ,ワ O 、 記号,読点,*,*,*,*,、,、,、 O * 2 3D 1/2 1.538769 けた 名詞,接尾,助数詞,*,*,*,けた,ケタ,ケタ O 外れ 名詞,一般,*,*,*,*,外れ,ハズレ,ハズレ O に 助詞,格助詞,一般,*,*,*,

    形態素解析辞書UniDicを使おう - 次世代3Dコンテントパイプライン開発室
    rin1024
    rin1024 2010/03/23
  • 言語処理学会第16回年次大会(NLP2010)

    概要 言語処理学会第16回年次大会は,東京大学郷キャンパスで開催します. ○情報処理学会創立50周年記念全国大会との共催について 年次大会は,情報処理学会との共催となり,言語処理学会のアクティビティを専門外の方々に知らしめるチャンスであります. ただ,結果として例年より非会員による発表申し込みが増加することがあり得ます. 例年よりは多めの発表が可能になるよう,会場等を手配しておりますが,極端な場合にはすべての発表申し込みに発表時間を割り当てることができなくなる可能性があります. そうした場合,申し込みが遅い発表は,ご希望の発表形式以外で発表していただく,あるいは,発表ができなくなることもあり得ますが,ご了承ください. ○大会発表募集 例年通り,自然言語に関する理論から応用まで幅広い研究発表を募集します. とくに,言語学教育学,心理学など,日頃「言語処理」とは縁が薄いと感じておられる人

    rin1024
    rin1024 2010/01/20
  • Latent Dirichlet Allocation in C

    Latent Dirichlet allocation This is a C implementation of variational EM for latent Dirichlet allocation (LDA), a topic model for text or other discrete data. LDA allows you to analyze of corpus, and extract the topics that combined to form its documents. For example, click here to see the topics estimated from a small corpus of Associated Press documents. LDA is fully described in Blei et al. (2

  • 情報爆発プロジェクト 検索エンジン基盤 TSUBAKI

    TSUBAKI利用時の良かった点、問題点などご意見を頂けると幸いです。 ご意見は tsubaki あっと nlp.kuee.kyoto-u.ac.jp までお願い致します。

  • MeCabのコマンドライン引数一覧とその実行例 | mwSoft

    -r --rcfile 使用するリソースファイルを指定する リソースファイルとは、辞書ディレクトリに入っている「dicrc」ファイルを指します。 試しにシステム辞書の「dicrc」ファイルをコピーして、「dicrc2」というファイルを作り、その中の「; simple」の「EOS」を「eos」に書き換えます。するとこんな風になります。 // リソースを指定せずに実行 $ echo テスト | mecab -O simple テスト 名詞-サ変接続 EOS // リソースを改変したdic2に指定して実行 $ echo テスト | mecab -r dicrc2 -O simple -d /usr/local/lib/mecab/dic/naist-jdic テスト 名詞-サ変接続 eos 我が家の環境では、システム辞書ディレクトリをカレントディレクトリとした状態にするか、「-d」でシステム辞書

  • Natural Language Processing with Python – Analyzing Text with the Natural Language Toolkit

    Natural Language Processing with Python – Analyzing Text with the Natural Language Toolkit Steven Bird, Ewan Klein, and Edward Loper This version of the NLTK book is updated for Python 3 and NLTK 3. The first edition of the book, published by O'Reilly, is available at http://nltk.org/book_1ed/. (There are currently no plans for a second edition of the book.) 0. Preface 1. Language Processing and P

  • LIBLINEAR -- A Library for Large Linear Classification

    Machine Learning Group at National Taiwan University Contributors Version 2.47 released on July 9, 2023. We fix some minor bugs. Version 2.43 released on February 25, 2021. Installing the Python interface through PyPI is supported > pip install -U liblinear-official The python directory is re-organized so >>> from liblinear.liblinearutil import * instead of >>> from liblinearutil import * should b

  • 最大エントロピーモデル - DO++

    自分の復習も含め、最大エントロピーモデルについて勉強会で発表しました。発表資料 [ppt] [pdf] 今年のACLやICMLなどでの発表などを解説してます。論文中になかった式導出とかもしてみてます。 発表中では結構口頭で補足した部分があって、この資料だけでは不十分だと思います。適宜引用先などを参照してください。 最大エントロピーモデルは高次元の確率分布推定に適していて自然言語処理や、最近だと動植物がどのように分布しているかなどの推定等、広い分野で使われている確率モデルです。 #修正+質問・回答スライドを追加しました

    最大エントロピーモデル - DO++
  • 0.1 0.1.1 Latent Semantic Indexing Latent Semantic Indexing :LSI の次元まとめて次元を下げるという作業を行 なうわけである。 さて、次元を下げるということは当然情報 の損失を伴うわけだが、この損�

    0.1 0.1.1 Latent Semantic Indexing Latent Semantic Indexing :LSI の次元まとめて次元を下げるという作業を行 なうわけである。 さて、次元を下げるということは当然情報 の損失を伴うわけだが、この損失を最小限に くいとめるために最小二乗誤差 という考え方 で望む。 2 とは ベクトル空間モデルではタームの生起が独 立であることを仮定して、各タームを一つの 次元に対応させるベクトル空間を作った。し かし、実際にはターム間の独立性は保証され ない。例えば、情報検索の分野では「ベクト ル」と「空間」は高い相関を持つことは容易 に予想できる。この問題への対策としては以 下の 2 点が重要である。 0.1.2 特異値分解 LSI で 用 い る 数 学 的 し か け は 特 異 値 分 解 (Singular Value D