[B! nlp] odzのブックマーク

odz id:odz

nlpに関するodzのブックマーク (37)

新形態素解析器JUMAN++を触ってみたけど思ったより高精度でMeCabから乗り換えようかと思った話
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
odz 2016/10/13
nlp
リンク
グーグル、オープンソースの自然言語フレームワーク「SyntaxNet」をリリース
Boaty McBoatface、こちらが「Parsey McParseface」だ。 Boaty McBoatfaceは結局、英政府の新しい極地調査船の名称にはならなかったが、それでも技術大手Googleは、それをもじった独自の名称を新たにオープンソース化された同社の英語構文解析器に採用することにした。より正確に言うと、Googleは米国時間5月12日、「TensorFlow」で実装されたオープンソースの同社自然言語フレームワーク「SyntaxNet」をリリースした。12日にリリースされたのは、新しいSyntaxNetモデルのトレーニングに必要なすべてのコードと、基本的にSyntaxNet用の英語プラグインであるParsey McParsefaceである。 Googleによると、SyntaxNetは、「Google Now」の音声認識機能など、同社の自然言語理解（Natural Lan
odz 2016/05/13
google

あとで読む

tensorflow

machinelearning

nlp
リンク
DO++: 機械学習による自然言語処理チュートリアル
自然言語処理のときに使う機械学習手法のテクニックをざーっと２時間程度で紹介してほしいとのことだったので今日話してきました。基本的に、そんなに頑張らなくても効果が大きいものを中心に説明（特にパーセプトロンとか）を説明してます。紹介した手法はパーセプトロン、最大エントロピー、正則化、多クラス分類、系列分類（CRF, Structured Perceptron）などなどです。どれも一かじりする感じで網羅的に見る方を優先してます。個々の詳しい話はそれぞれの文献や実装などを当たってみてください。スライド [ppt] [pdf] ここで話しているのは線形識別モデルの教師有り学習が中心で教師無し学習（クラスタリングなど）など他の自然言語処理を支える技術は省いてます。こういうのを使って（使わなくてもいいけど）どんどんアプリケーション作らないといかんね。 Tarot is not used to ma
odz 2008/11/01
nlp
リンク
連載：検索エンジンを作る｜gihyo.jp … 技術評論社
運営元のロゴ Copyright © 2007-2024 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。
odz 2008/05/06
NLP

algorithms
リンク
DO++ : 線形識別器チュートリアル
ワークショップ中の夕食で話したのですが、今のところ日本で（素性関数ベース＆線形識別器）機械学習のいろいろな手法をまとめて体系的に教えてる資料などがあまりないなぁという話をしていました。で、探すと、このあたりの大部分をまとめて説明しているいいチュートリアル（英語）がありました。夏の学校資料[pdf] その他のコードやリンクちょっとだけ解説現在自然言語処理の多くで使われている学習器は線形識別器です。入力x（例：単語、文、文書）から出力y（例：品詞、品詞列、文書のトピック）を予測したいという場合は、(x,y)のペアからいろいろな値を取り出し（x,yのペアから値を取り出す関数を素性関数と呼ぶ）、その値を並べたベクトルを素性ベクトルと呼び、f(x,y)とかきます。そして、その素性ベクトルf(x,y)と同じ次元数を持つ重みベクトルwとの内積を測って、その値が正か負か、または大きいか小さいかを
odz 2008/03/19
NLP
リンク
きまぐれ日記: TinySegmenter: Javascriptだけで分かち書き
最近新幹線に乗る機会が多々あったので、暇つぶしに Javascriptだけで(Ajax等は使わずに) 分かち書きが出来るソフトウェアを作ってみました。実用性は謎です。 http://chasen.org/~taku/software/TinySegmenter/ たった 25kbyte ですが、新聞記事でしたら、95%程度の精度で分かち書きができます。辞書は全く持たず、文字単位で分割するか分割しないかを当てる機械学習器を作って分割しています。　モデルをコンパクトにするために、L1ノルム正則化のトリックを使っているのですが、想像以上にコンパクトになって、しかもそこそこうまくいっていて、刺激的です。
odz 2008/03/19
JavaScript

NLP
リンク
ChaIME: Term-based Yet Another Input Method Editor
ブラウザから使える IME としては AjaxIME が有名ですが、AjaxIME よりは仮名漢字変換モデルをがんばっているので、多少精度がよいようです。 ATOK 2007 はたまたま失敗する事例ばかり集めているので悪く見えますが、普段はもっとよいですね。言語モデルを Web コーパスから作り、仮名漢字変換モデルを新聞記事から作っているので、上記4つの硬い文は ChaIME でも正しく変換できることは予測可能ですが、下記4つは難しいです。このような文体で書かれたコーパス(ブログデータ?)から仮名漢字変換モデルを学習するとうまく行くかもしれません。統計的仮名漢字変換統計的仮名漢字変換についてページを分けました。既知の問題点(優先度順) unigram によるバックオフ(辞書引き回数が減る) 仮名漢字モデルの Google 日本語 N グラムからの推定現在2GBの辞書サイズ
odz 2008/03/14
nlp
リンク
SourceForge.JP: Project Info - NAIST Japanese Dictionary
最終更新: 2018-04-05 19:45 概要プロジェクト概要開発ダッシュボード Webページ開発メンバー画像ギャラリー公開フィード一覧活動統計情報活動履歴ダウンロードリリース一覧統計ソースコードコードリポジトリリスト Subversion リポジトリ閲覧チケットチケット一覧マイルストーン一覧チケットの種類一覧コンポーネント一覧よく使われるチケット一覧のリスト/RSS 新規チケット登録文書 Wiki FrontPageの表示ページ一覧最近の更新文書マネージャ文書一覧コミュニケーションフォーラムフォーラム一覧ヘルプ (1) 公開討議 (1) メーリングリスト MLの一覧ニュース
odz 2008/02/20
ipadic の後継ってことかな

NLP
リンク
Introduction to Information Retrieval
This is the companion website for the following book. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. You can order this book at CUP, at your local bookstore or on the internet. The best search term to use is the ISBN: 0521865719. The book aims to provide a modern approach to information retrieval from a co
odz 2007/12/03
nlp
リンク
Google Japan Blog: 大規模日本語 n-gram データの公開
突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか？実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」と「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル
odz 2007/11/02
google

nlp
リンク
Web MOCHI:ことばとコンピュータのページ
odz 2007/09/03
NLP
リンク
生きあたりまったりブログ
休学中の過ごし方…うつ状態で何してた？就活やバイトは？大学休学中おすすめの過ごし方、やめたほうがいいことを経験者が解説。
odz 2007/09/02
nlp
リンク
Pythonでのキーワード抽出実装
初出: 2007/6/27 更新: 2007/7/1 文章からキーワードを抽出するスクリプトをPythonモジュールとして実装しました。分かち書きした上に、適切に複合語をつくり、さらに重要そうなものかどうかのスコアをつけます。アルゴリズムは、以下のサイトを参考にしました。 http://gensen.dl.itc.u-tokyo.ac.jp/ ここで紹介されている論文 * 中川裕志、森辰則、湯本紘彰: "出現頻度と連接頻度に基づく専門用語抽出",自然言語処理、Vol.10 No.1, pp. 27 - 45, 2003年1月 http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/academic-res/jnlp10-1.pdf に掲載されているFLR法のみを実装しています。実行結果サンプルたとえば、こんなページの本文をテキストフ
odz 2007/07/03
NLP

python
リンク
きまぐれ日記: L1-regularized CRFを実装してみた
hillbigさんのブログで紹介されていた　"Scala ble Training of L1-regularized Log-linear Models",　G. Andrew and J. Gao., ICML 2007. をCRF++上に実装してみました。現在の CRF++ の実装、そしてオリジナルも含めた多くの実装は L2-regularized log-linear model です。hillbig さんのプレゼンにもありますが、L2は若干高性能だけど、全パラメータが非0になって、最終的なモデルがデカくなってしまうのですが、L1だと不必要･冗長なパラメータを完全に0にする効果があり、モデルをコンパクトにします。 3年前のmecabに関する論文では、L2 と L1 の CRF を比較して、L2のほうが若干高性能ということを確認していました。 L1-regularized の場合
odz 2007/06/21
algorithm

nlp
リンク
answerbus
odz 2007/05/27
english

nlp
リンク
形態素解析辞書 UniDic
人気デベロッパー Play’N Go は、2017年にユニークなスロットを発売しましたムーンプリンセス. オンラインスロットゲームムーンプリンセスこのゲームは、そのユニークなオプション、シンプルな操作性、アニメをモチーフにしたカラフルなグラフィックにより、瞬く間にプレイヤーから人気を集めました。スロットマシンのムーンプリンセスは、漫画『美少女戦士セーラームーン』のテーマを明らかにする。第1巻は1992年に発売され、現在も人気があります。を可能にします MoonPrincess は、長年にわたり最高のスロットのリストをリードし、プレイヤーに寛大な配当だけを提供し、ゲームプレイへの関心を保証します。すべてのシンボルが雰囲気を強調するオンラインスロットゲームムーンプリンセス, 心地よいサウンドトラックがゲームプレイを引き立て、音楽をパーソナライズできるため、ユーザーはスロッ
odz 2007/04/30
Chasen 用の辞書

NLP
リンク
文字符号化検出と言語検出 - Cafe Babe
ちょうどW3Cのwww-international MLで，character encoding detectionとlanguage detectionの話が出ていた．たとえば，WebのHTMLファイルを処理しようとしても，必ずしもどのような文字符号化なのか，どのような言語なのかが明示されているわけではなく，しかもデフォルトがISO-8859-1であることから，間違って指定されている場合すらある．このために，対象とするドキュメントの文字符号化を判定してUnicodeに変換し，また書かれている言語を検出して，言語依存の処理をおこなったり，分類に用いるわけである．たとえば，Googleの検索結果を特定の言語に絞り込むことができるのは，language detectionを用いているからである．ちょうど，Frank Yung-fong Tangが投稿していたので，要旨をまとめてみる．彼は
odz 2007/03/22
Language and Encoding Detection について

NLP
リンク
大規模日本語データ - unnonouno
http://www.google.co.jp/events/anlp2007.html でましたね。英語版 5-gram データをこないだ研究室で買ったので、一昨日見ていたんですが、5 ってすごいですね。 I like a ... でも 5 単語です。この日本語データ、詳細が書いてないけどやはり N-gram かなぁ。文字 N-gram かな？ところでこのデータ、あったら簡単に使えるかというとそうもうまくいかない。英語版 5-gram が圧縮して DVD 6 枚組。ふつうに使おうとするだけで 10GB 単位のメモリを消費する寸法。オンメモリの DB を使った N-gram サーバーを立てますかねぇ。1台でメモリ足りるんかな。
odz 2007/03/19
そこで darts ですよ

NLP
リンク
Support Vector Machine
最近よく巷で耳にするモノ． SVM， Support Vector Machine，さぽーとべくたーましん．これっていったい，どんなもんなんでしょう．なにやら便利そうなモノらしいので，ちょいと調べて要点をまとめてみようかな，なんて．でも，ただまとめただけだとそのへんの記事を読むのとなんにも変わらないので，コーディングするために必要な知識を中心にまとめてみることにします．
odz 2007/03/14
SVM について

NLP

algorithm
リンク
Googleが大規模日本語データを公開するという話
Googleが大規模日本語データを公開するという話 2007-03-13-1 [NLP] 3月に滋賀で行われる言語処理学会全国大会で、グーグルが特別セッションをやるそうです。大規模日本語データについて。 Google: 大規模日本語データ公開に関する特別セッション http://www.google.co.jp/events/anlp2007.html グーグル株式会社では、日本語の言語処理研究推進のため大規模日本語データの公開を検討しています。つきましては仕様を決定するにあたり、実際にデータを御利用頂く研究者 / 技術者の皆様の「生の声」を是非お伺いしたく存じます。今回、言語処理学会様の御好意により、下記のとおりデータ仕様に関する特別セッションを設けて頂ける事になりました。日時: 2007年3月20日（火） 18:30 〜 19:00 会場: 龍谷大学瀬田学舎言語処理学会
odz 2007/03/14
なんだってー

corpus

google

nlp
リンク
1 2 次のページ