[B! nlp] YaMasaのブックマーク

YaMasa id:YaMasa

nlpに関するYaMasaのブックマーク (37)

Web:Mochi
This page was last updated Sep. 26, 2023. 研究室について 2023/09/21: 言語文化学部超域コース計算言語学(望月)ゼミ配属希望の学生は，必ず事前にコンタクトを取ってください．詳しくは，ゼミ紹介のページを参照してください．
YaMasa 2008/02/28
nlp

corpus
リンク
おすすめコーパスサイト
イギリスのコーパス British National Corpus 略してＢＮＣ。1億語の徹底したサンプル・コーパス（バランスよく様々な領域からサンプリングして構築したコーパス）。かつてはその中に含まれていたデータの著作権者の一人が，どういうわけかＥＵ以外での販売の禁止を主張したため，わが国でも入手が不可能となり，研究の進展を妨げていた。しかし，ＢＮＣは世界からの要望に答え，この「問題の」データをはずしたため，現在誰でも購入できるようになった。契約書(End User Licence)を２枚送って申し込めば，ＣＤ－ＲＯＭ２枚が送られてくる（SARAというコンコーダンサが付いている）。シングルユーザーで￡50。クレジットカードでの申し込みが可能。今後コーパスを本格的に使おうという人は買って損はしない。ただ，なにぶん１億語なので解凍するときに，パソコンがフリーズしたかと思うほど時間がかかるので
YaMasa 2008/02/28
nlp

corpus
リンク
言語処理学会　The Association for Natural Language Processing Home Page
会員専用ページ (※ 会員情報の登録ならびに会費の納入については株式会社プロアクティブのシステムを使用しています。) 最新のニュースレター Vol.15 No.2 (2008年8月8日発行) 入会案内雑誌「自然言語処理」の原稿執筆案内 (「3. 原稿の送付」について変更がありますのでご注意ください) 雑誌「自然言語処理」のバックナンバー雑誌「自然言語処理」の論文査読倫理綱領雑誌「自然言語処理」の広告掲載についてニュースレター年次大会会則・諸規定(会則，学会員向けメーリングリスト投稿規定など) 日英対訳用語集について日英対訳用語集(csvファイル) 学会動向調査以下の内容は、研究者の便宜のためつけておりますが、言語処理学会として責任を取るものではありません。御了承下さい。言語データ情報ＪＥＩＴＡ言語処理技術専門委員会による言語イニシャティブのリストその他関連
YaMasa 2007/12/29
nlp

学会
リンク
漢字を類似度検索可能にする (polog)
アイデアとしては単純で、画像情報に落としたあとで全漢字pairに対して全pixelの一致数をカウントするだけ。これの時にはリアルに全漢字でやろうとしてたんだけど、2万字=>4億ペアなので断念した。常用漢字1945文字を対象とする。 ActiveRecordやら何やら使いたかったけど、普通にやると結構面倒だったのでrailsでプロジェクト作ってscript/runnerした。ファイル rake db:migrateで create_table :chars do |t| t.column :char, :string t.column :byte, :integer end add_index :chars, :char add_index :chars, :byteこんなのと create_table :similarities do |t| t.column :c
YaMasa 2007/12/22
nlp
リンク
SourceForge.JP: Project Info - NAIST Japanese Dictionary
最終更新: 2018-04-05 19:45 概要プロジェクト概要開発ダッシュボード Webページ開発メンバー画像ギャラリー公開フィード一覧活動統計情報活動履歴ダウンロードリリース一覧統計ソースコードコードリポジトリリスト Subversion リポジトリ閲覧チケットチケット一覧マイルストーン一覧チケットの種類一覧コンポーネント一覧よく使われるチケット一覧のリスト/RSS 新規チケット登録文書 Wiki FrontPageの表示ページ一覧最近の更新文書マネージャ文書一覧コミュニケーションフォーラムフォーラム一覧ヘルプ (1) 公開討議 (1) メーリングリスト MLの一覧ニュース
YaMasa 2007/12/22
nlp

corpus

dictionary
リンク
http://chasen.aist-nara.ac.jp/chasen/faq.html.ja
YaMasa 2007/12/13
nlp

faq

chasen
リンク
日本の言語資源・ツールのカタログ
毎日新聞CD-ROM (1991年) Type Text Type.linguistics annotation/corpus Description 1991年の毎日新聞の記事を収録したCD-ROM。約10,000記事。 Annotation.document keyword Creator 毎日新聞社 Contact person 日外アソシエーツ (data-saleあっとnichigai.co.jp) Price 126,000円 Subject.language 日本語 Date 1991 Format 1 CD-ROM. Format.encoding Shift_JIS Relation IsPartOf 毎日新聞CD-ROM URI http://www.nichigai.co.jp/sales/mainichi/mai
YaMasa 2007/12/07
nlp

corpus

dictionary
リンク
Google Japan Blog: 大規模日本語 n-gram データの公開
突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか？実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」と「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル
YaMasa 2007/11/02
nlp

google

corpus

research
リンク
HugeDomains.com
Captcha security check fieldmining.com is for sale Please prove you're not a robot View Price Processing
YaMasa 2007/10/26
nlp

software
リンク
[を] Webとコーパス第五回「リーズ大学の多言語コーパス検索サイト」
Webとコーパス第五回「リーズ大学の多言語コーパス検索サイト」 2007-10-15-3 [WebAndCorpus] Web上のテキストデータをコーパスとして見る、というテーマでブログ記事を書いていて、今回で5回目になります。今回はリーズ大学の多言語コーパス検索サイトの話。こういう活動は頭が下がります。なお、この記事は「三省堂辞書サイトのブログ」へも転載という形で提供していますので、そちらでもお楽しみ下さい。 - ウェブコーパス徹底活用　第五回「リーズ大学の多言語コーパス検索サイト」 - Sanseido Word-Wise Web ［三省堂辞書サイト］ http://dictionary.sanseido-publ.co.jp/wp/ § ■ウェブコーパス徹底活用　第五回「リーズ大学の多言語コーパス検索サイト」この連載の第二回[2007-09-03-1]で紹介した拙作「
YaMasa 2007/10/20
corpus

nlp

webservice
リンク
コーパスツール - FrontPage
YaMasa 2007/09/29
コーパス検索・編集ツール茶器(Chaki)の最新ver

nlp

corpus

tool
リンク
英文校正サイト [NativeChecker]
キットが販売されているのでチャレンジしやすい近頃では、ホームセンターに電気機器を製作するための道具がそろっています。そのため、DIY感覚で電気製品の自作を始めるのは難しくありません。「回路図や図面が読めなければ電気製品なんて作れない」と思う人もいるでしょう。たしかに、電気製品にはさまざまな部品が使わ…
YaMasa 2007/09/27
Web文書をコーパスとして英文を校正。類義語検索機能あり

english

webservice

nlp

corpus

search
リンク
gr.jp
This domain may be for sale!
YaMasa 2007/09/25
corpus

nlp

search

webservice
リンク
カイ二乗値で単語間の関連の強さを調べる
カイ二乗値で単語間の関連の強さを調べる 2007-09-19-1 [Algorithm][Programming] カイ２乗値を使って単語間の関連度を調べる方法。つまり、関連語を探すときに、χ二乗値を関連度として使う。 perl によるサンプルコード (chiword.pl)。昔、勉強がてら作ったコード。 #!/usr/bin/perl use strict; use warnings; my %cnt; my $pair_num; while (<>) { chomp; next if /^\s*$/; my @list = sort split(/,/, $_); for (my $i = 0; $i < @list; $i++) { for (my $j = $i + 1; $j < @list; $j++) { next if $list[$i] eq $list[$j]; $c
YaMasa 2007/09/20
nlp

perl

algorithm
リンク
ChaKi's Wiki - ChaKi web site
「茶器」とはタグ付きコーパスを管理・検索するためのツールです「茶器」の配布 ChaKi-2.1.13 (2008.09.08 updated) 「茶器」に関するドキュメントインストールマニュアル使用者説明書(version 2.1)(2007.11.20) FAQ 2007年度自然言語処理技術講習会資料(2007.9.3-5) 2006年度自然言語処理技術講習会資料(2006.9.4-6) ワークショップ「コーパスツール「茶器」を利用した言語研究(2006.2.12) 2005年度自然言語処理技術講習会資料(2005.8.29-31) 問い合わせ先メイリングリスト
YaMasa 2007/09/20
コーパスを検索・修正する管理ツール茶器

corpus

nlp

tool
リンク
KURA: a Japanese lexical and structural paraphrasing engine
YaMasa 2007/07/25
tool

nlp
リンク
Automatically Constructed Case Frames
Webから自動構築した大規模格フレーム βバージョン Webテキストから自動構築した大規模格フレームを公開いたします。格フレームとは、用言とそれに関係する名詞を用言の各用法ごとに整理したものです。この格フレームは、Web上の約5億文の日本語テキストから自動的に構築しており、約5万用言からなるものです。以下のアドレスから格フレームを検索することができます。格フレーム検索注意点：今回公開するのはβ版のため、検索条件によってはアクセス速度が非常に遅くなる場合があります。近日中にシステムを更新し正式公開する予定です。また、格フレームをダウンロードして利用したい方は別途ご連絡ください。この格フレームに関するご意見、ご質問は nl-resource あっと nlp.kuee.kyoto-u.ac.jp 宛にお願いいたします。参考文献 Daisuke Kawahara and Sadao Kur
YaMasa 2007/07/24
Web文書から構築した格フレーム辞書を検索できる

nlp

dictionary

corpus

search
リンク
IREX Home Page
Information Retrieval and Extraction Exercise http://nlp.cs.nyu.edu/irex/ http://www.csl.sony.co.jp/person/sekine/IREX/ 最終更新日時 1999年7月26日 English homepage ワークショップ１９９９年９月１日に学術情報センターのNTCIRと合同ワークショップ、９月２ー３日には、IREXプロジェクトの報告を目的とした独自のワークショップ（参加自由、無料）を開催します。なお、８月３０ー３１日には、NTCIRのワークショップも行なわれます。この参加者は評価参加者に限られています。すべてのワークショップは同じ場所（KKRホテル）で行なわれます。 IREX Workshop Information in English IREX Workshop Info
YaMasa 2007/07/24
「固有表現」の分類と定義

nlp
リンク
言語理論と言語資料
リンクは自由! 『日本語学』第22巻(2003)4月臨時増刊号「コーパス言語学」, pp.6-15 掲載言語理論と言語資料　―コーパスとコーパス以外のデータ後藤　斉１. コーパスとは何か言語の研究に関して「コーパス」ということを目にすることが増えているが、その概念の理解は必ずしも十分に広まっているとはいえない。まずそれを整理しておくことが必要であろう。「コーパス」という語は英語のcorpusに由来し、これはさらにラテン語 corpus「体」(発音はコルプス)に発する。この語は文字通りの意味から転じて、比較的早くから『ローマ法大全』Corpus Iuris Civilisのように「資料の総体」を意味して使われ、この用法でヨーロッパ各国語に取り入れられた。特定のテキスト (音声言語を転写した資料を含む)のみに依拠して研究が行われるような場合には、それをその研究におけるコーパ
YaMasa 2007/07/23
corpus

nlp
リンク
形態素解析辞書 UniDic
人気デベロッパー Play’N Go は、2017年にユニークなスロットを発売しましたムーンプリンセス. オンラインスロットゲームムーンプリンセスこのゲームは、そのユニークなオプション、シンプルな操作性、アニメをモチーフにしたカラフルなグラフィックにより、瞬く間にプレイヤーから人気を集めました。スロットマシンのムーンプリンセスは、漫画『美少女戦士セーラームーン』のテーマを明らかにする。第1巻は1992年に発売され、現在も人気があります。を可能にします MoonPrincess は、長年にわたり最高のスロットのリストをリードし、プレイヤーに寛大な配当だけを提供し、ゲームプレイへの関心を保証します。すべてのシンボルが雰囲気を強調するオンラインスロットゲームムーンプリンセス, 心地よいサウンドトラックがゲームプレイを引き立て、音楽をパーソナライズできるため、ユーザーはスロッ
YaMasa 2007/07/22
search

nlp

dictionary
リンク
1 2 次のページ