日本語 WordNet 概要 * 詳細 * 画像 * 参考文献 * 関連プロジェクト * English ダウンロード 日本語 WordNet (1.0.) 最新版 56,741 概念 (synsets); 92,241 語; 157,398 語義 (synsetと単語のペア) 135,692 定義; 48,276 事例 (NEW!) License: For Japanese data: License (Like Princeton WordNet: similar to BSD) For English data: License Japanese Wordnet and English WordNet in an sqlite3 database Includes links to images (OCAL) and ontology (SUMO) Japanese Wordnet
MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日本語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。 その課題に対処するために、日本全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia 日本語版やはてなキーワードなどです。 困ったことに、新語辞書を生成
辞書オブジェクトの作成 辞書オブジェクトは「{ キー : 値, … }」の形で作成します。 # 例 dic = {'name':'Taro', 'age': 26] # 空の辞書 dic = {} 値の取得 値を取得するには「辞書オブジェクト[キー]」を使います。 キーが存在しない場合はKeyErrorの例外が送出されます。 >>> dic = {'name':'Taro', 'age':26} >>> dic['name'] 'Taro' >>> dic['sex'] Traceback (most recent call last): File "<stdin>", line 1, in <module> KeyError: 'sex' 「辞書オブジェクト.get(キー, 値)」は、キーが登録されている場合は「辞書オブジェクト[キー]」を返します。 キーが登録されていない場合は、値を返
WindowsでMeCab Pythonを使う(2010/11/21)のつづきです。形態素解析を使ってると単語が変なところで切れていたり、未知語が多かったりと不満点が出てきます。また、応用によっては、形態素ではなく、複合語単位で抽出したいということもしばしばあります。たとえば、 人工知能は、コンピュータに人間と同様の知能を実現させようという試み、あるいはそのための一連の基礎技術をさす。 人工知能という名前は1956年にダートマス会議でジョン・マッカーシーにより命名された。 現在では、機械学習、自然言語処理、パターン認識などの研究分野がある。(Wikipedia『人工知能』を改変)という文章をMeCabで形態素解析して名詞のみ取り出すと、 人工 知能 コンピュータ 人間 同様 知能 実現 試み ため 一連 基礎 技術 人工 知能 名前 1956 年 ダート マス 会議 ジョン マッカーシー
英和辞書を組み込む コンピューター関係の文書は、ほとんどが英語で書かれていますので英和辞書が欠かせません。 そこで、簡単な辞書閲覧用のメジャーモードを作成してみました。 特長 ダウンロード インストール 使い方 Reference Manual リンク集 特長 SDIC は、Emacs 上で英和/和英辞書を閲覧するための簡潔( simple )で、小さく( small )て、軽く( speedy )て、小粋( smart )なプログラムです。以下のような特長があります。 派生語を自動的に検索します。 英語には relation や lexicographic のように -tion/-ic などの語尾のついた派生語が頻繁に現れますが、 これら単語が辞書中に見つからなかった場合、自動的に元々の語を検索します。 動詞や形容詞の規則変化や名詞の複数形を自動的に取り扱います。 例えば、studies
MeCabの辞書を充実させて、名詞、特に人名が途中でぶった切られる事態を回避したいという話。 MeCabの辞書にはてなキーワードを追加しようを参考に、はてなキーワードの登録単語ライブラリをパクってきてMeCabユーザー辞書に入れる。 データはHatena Developer Centerから入手できる。 やることは上記リンクを参照するが、引っかかったところが デフォルト辞書の選択 sudo vi /usr/local/etc/mecabrc viコマンド r か R で編集モードに入って、編集終わったら ESC して :wq で保存して終了。 辞書の更新 createDict.py というスクリプトを使っているが、これが csv ファイルを作るときに、単語の中にカンマが入っているものがあるようで、これのせいで出来上がった csv ファイルの列数が乱れているので、 context_id.cp
(インストールの仕方などはほかの人がいっぱい説明してくれているので割愛) どうやら標準の辞書だけだと限界があるようので、以下の記事などを参考に 「wikipediaとhatenaキーワードをユーザ辞書として利用する」 ということをやってみました。 http://d.hatena.ne.jp/code46/20090531/p1 http://www.mwsoft.jp/programming/munou/mecab_hatena.html http://deepneko.dyndns.org/kokotech/2009/06/mecabwikipedia.html 作ったのは以下の2つのスクリプト。 webからデータを取ってきて、csv作成コマンド、辞書作成コマンドを呼び出すshell (convWebWordsToDic.sh) #!/bin/sh CSV=../data/words.c
ニコニコラム‐ニコニコ大百科の言葉をPCに覚えさせるとこうなる このコラムと動画を見てこれは便利になると思ったので作ってみた。やはりものすごい便利。ニコニコ動画関係のみならず、アイマス・東方・VOCALOID・その他エンターテイメント関係のブログ等を書いている人なら、もっと便利に使えると思う。 ダウンロード nicoime.zip (最新更新時間確認) 使い方 nicoime.zipを解凍すると以下のテキストファイルが入っています。 nicoime_atok.txt (ATOK用) nicoime_msime.txt (MS-IME・Google日本語入力用) お使いのIMEに対応するファイルを読み込ませて下さい。 おことわり zipの解凍方法および、テキストファイルをIMEに登録する方法については、そのIMEのヘルプを見るなりググるなりして調べて下さい。 登録の際弾かれてしまう単語がどう
MeCabは形態素解析のためのソフトウェアです。日本語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日本語や、正しく書かれた日本語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術は形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解
本日、キーワード名とふりがなが対になっている、はてなダイアリーキーワードふりがなリストを公開しました。ユーザー様が独自に作成されている辞書などで、名詞の読み仮名などでご活用いただくと便利かと思います。 以下のURLを右クリックでファイルに保存してご覧ください。 http://d.hatena.ne.jp/images/keyword/keywordlist_furigana.csv http://d.hatena.ne.jp/images/keyword/keywordlist_furigana_with_kid.csv (キーワードID つき) ※タブ区切りの csv 形式、文字エンコードは EUC で改行コードは LF となっております。 ※ファイルサイズが本日現在 4M 強ほどあります。ブラウザで開く際はご注意下さい。 このリストをは定期的に最新情報に更新しています。どうぞご利用下さ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く