タグ

辞書に関するkazutan711のブックマーク (2)

  • [O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました

    MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。 その課題に対処するために、日全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia語版やはてなキーワードなどです。 困ったことに、新語辞書を生成

  • 辞書を編む | 配電盤

    小型辞典にもいろいろ個性があることは、「学校では教えてくれない! 国語辞典の遊び方」を紹介したときに述べたとおりだが、『辞書の世界』収録の倉島節尚「辞書編集を巡る二、三の覚え書き」によれば、規範重視型の代表は『岩波国語辞典』で、現実重視型の代表は『三省堂国語辞典』だという(どちらもアプリあり)。 その『三省堂国語辞典』(三国)の編纂者である筆者が、2013年末完成予定の三国第7版の編纂プロセスを紹介しつつ、国語辞典のこれからについての思いを綴ったのが、飯間浩明『辞書を編む』(光文社新書, 2103)である。(参考文献リストなし。索引あり。) 書に記した作業の後には、筆耕・構成・印刷用のデータ作成・用紙や資材の選定・装丁・印刷・製などの工程が続きます。(p.262) 国語辞典のこれからについて考えるとき、キーワードは2つある。電子辞書とウィクショナリーだ。 電子辞書において、三国のような

    辞書を編む | 配電盤
  • 1