[B! natural-language-processing] [8ページ] nabinnoのブックマーク

nabinno id:nabinno

natural-language-processingに関するnabinnoのブックマーク (566)

elasticsearch no MeCab in java.library.pat error
nabinno 2018/08/27
stack-overflow

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
PDIでKuromojiを使って形態素解析をする - Qiita
#経緯など Pentaho Data Integartion(PDI)上で形態素解析する必要があったので調査とメモ。 PDIがJavaで実装されているため呼び出しやすいようにJavaの形態素解析器を調べたところ、Kuromojiがあったので、そちらを利用させていただくことにしました。ただ、Javaで書いてPDIで呼ぶのも面倒だったので、結局Jython経由で利用しています。 #使用環境 PDI 7.1 Java Version 8 Update 131 Kuromoji 0.7.7 Jython 2.7.0 #設定手順 PDIはこちらからダウンロードしてきたZIPファイルを適当な場所に解凍しておくだけでよい ※解凍すると"data-integration"というディレクトリができるがこの辺りは割愛 ※あとJavaが必要なので事前にインストールしておく KuromojiをGitHubからZ
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
MeCab: "ImportError: DLL load failed: The specified module could not be found."
nabinno 2018/08/27
stack-overflow

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
elyzer -> NameError: name 'unicode' is not defined - Qiita
$ pip show elyzer Name: elyzer Version: 1.1.0 Summary: Step-by-Step Debug Elasticsearch Analyzers Home-page: https://github.com/o19s/elyzer Author: Doug Turnbull Author-em ail: dturnbull@o19s.com License: Apache Location: /usr/lib/python3.4/site-packages $ elyzer --es http://host:9200 --index esindex --analyzer my_analyzer 'スモモ' Requires: elasticsearch Traceback (most recent call last): File "/usr/
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
mysql mecab plugin not working on myisam engine
nabinno 2018/08/27
stack-overflow

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
install ipadic on Ubuntu 16.04 for mecab Japanese tokenizer
nabinno 2018/08/27
stack-overflow

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
Kibanaを用いたSlackの統計情報の可視化と全文検索 - Qiita
本記事はSlack Advent Calendar 2017の1日目の記事です。概要 Kibanaを用いてSlackの過去ログから統計情報の可視化と全文検索を行う方法を紹介します。 Slackの過去ログをELKのような全文検索エンジンに入れることで、以下のメリットが得られます。 Slackの提供していない統計情報の可視化無料版Slackのメッセージ数制限を超えて全ての過去ログから全文検索本記事では、簡単のためDockerでELKスタックを立ち上げ、自作したスクリプトでSlackの過去ログを流し込み、Kibanaから可視化と全文検索を行う方法を解説します。 Slackの過去ログのexport 過去ログのexportは、workspaceのadminのみが行えます Slackの過去ログは https://my.slack.com/services/export からzip形式でダウンロー
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
Error when make docker image for gem-mecab on rbenv environment
nabinno 2018/08/27
stack-overflow

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
自作カナ変換プラグインでElasticsearchの日本語検索をいい感じにする - Qiita
はじめに Elasticsearch には日本語を形態素解析してくれる公式プラグインが存在します。長い日本語の文章からキーワードをいい感じに抜き出してくれてとても便利なのですが、単語だけのデータとか短い日本語は苦手なようで、うまくいかないことがあります。たとえば、「サイトウ」さんみたいに漢字が「斉藤」とか「斎藤」とか「齋藤」とか何種類かある場合は全然マッチしてくれません。 kuromoji_readingform token filter で全部カナに変換しておくことである程度吸収できるのですが、これを使うときはあらかじめ kuromoji_tokenizer でトークンごとに分けておく必要があります。検索ボックスに何をを入力するか考えてみてほしいのですが、こういう検索をするのは珍しいと思います。私ならこうします。検索ワードの切れ目は自分で決めたい人が多いのではないのでしょう
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
Tokenizing Japanese text in R: Only first line of the specified column is tokenized
nabinno 2018/08/27
stack-overflow

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
stoptags一覧 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
PHP で JUMAN を叩く - Qiita
形態素解析に用いられるJUMANですが、扱える言語がPerlやPythonです。Rubyで扱っている記事も見つけますが、PHPで書かれたものはなかったので、メモしておきます。（2015/9/4：　@mpywさんからを受けたので追記をしました） proc_open を使った方法 <?php function juman($text) { $descriptorspec = array( 0 => array("pipe", "r"), // stdin は、子プロセスが読み込むパイプです。 1 => array("pipe", "w"), // stdout は、子プロセスが書き込むパイプです。 ); $process = proc_open('juman', $descriptorspec, $pipes); if (is_resource($process)) { // $pipes
nabinno 2018/08/27
qiita

juman

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
Elasticsearchで品詞分解① (テンプレート編) 【追記あり】 - Qiita
ELSには日本語解析プラグインが用意されています。 Japanese (kuromoji) Analysis Plugin | Elasticsearch Plugins and Integrations [6.1] | Elastic Java等で品詞分解する事ももちろんできますが、ELSのテンプレートを利用する事で、Kibana上で品詞分解表示などが出来ます。この記事では、まずELSのテンプレートで登録するところまでをやります。プラグインインストール Elasticsearchの日本語の形態素解析をする際に利用されるkuromojiは非常に便利ですが、その辞書であるIPADICは更新が止まっているためやや古い状態です。その辞書を更新してくださった方がいらっしゃり、neologdとして公開されているためそれを導入して新語でもきちんと解析できるようにします。 neologdでkuro
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
PHP で JUMAN を扱う（改良） - Qiita
以前、このような投稿をしました。 http://qiita.com/SOJO/it ems/a13ea90e63340802fa52 しかし、この方法では以下のような入力をして場合、同じ単語でも別の意味があるときは @ が付いて別の行で出力され、この結果をそのまま受け取ることになります。 $ juman 国立図書館国立こくりつ国立名詞 6 普通名詞 1 * 0 * 0 "代表表記:国立/こくりつカテゴリ:抽象物ドメイン:教育・学習;政治" @ 国立くにたち国立名詞 6 地名 4 * 0 * 0 "代表表記:国立/くにたち地名:日本:東京都:市" 図書としょ図書名詞 6 普通名詞 1 * 0 * 0 "代表表記:図書/としょカテゴリ:抽象物ドメイン:文化・芸術" 館かん館名詞 6 普通名詞 1 * 0 * 0 "代表表記:館/かん漢字読み:音カテゴリ:場
nabinno 2018/08/27
qiita

juman

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
素人の言語処理100本ノック:48 - Qiita
言語処理100本ノック 2015の挑戦記録です。環境はUbuntu 16.04 LTS ＋ Python 3.5.2 :: Anaconda 4.1.1 (64-bit)です。過去のノックの一覧はこちらからどうぞ。第5章: 係り受け解析夏目漱石の小説『吾輩は猫である』の文章（neko.txt）をCaboChaを使って係り受け解析し，その結果をneko.txt.cabochaというファイルに保存せよ．このファイルを用いて，以下の問に対応するプログラムを実装せよ． 48. 名詞から根へのパスの抽出文中のすべての名詞を含む文節に対し，その文節から構文木の根に至るパスを抽出せよ．ただし，構文木上のパスは以下の仕様を満たすものとする．各文節は（表層形の）形態素列で表現するパスの開始文節から終了文節に至るまで，各文節の表現を"->"で連結する「吾輩はここで始めて人間というものを見た」とい
nabinno 2018/08/27
qiita

cabocha

parsing

natural-language-processing

machine-learning

analytics
リンク
Ubuntu 18.04 LTSにKNP, JUMAN, CRF++をインストールする方法 - Qiita
Ubuntu 18.04 LTSにKNP, JUMAN, CRF++をインストールする方法についてまとめてみます。必要なパッケージのインストール checkinstall, ccacheを用いてUbuntuにソフトウェアをインストールする方法 - Qiitaの必要なパッケージのインストールに従って、必要なパッケージのインストールを行います。 sudo apt install libcdb-dev libjuman zlib1g-dev libboost-devを実行し、必要なパッケージをインストールします。 JUMANのインストール APTで提供されているJUMANは、KNPのインストールで必要なファイルが不足しているため、サイトからダウンロードしたものをインストールします。 JUMAN(bzip2圧縮)をダウンロードします。適当なディレクトリに解凍します。 checkinstall,
nabinno 2018/08/27
qiita

juman

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
Elasticsearchで品詞分解② (Kibana編) - Qiita
{ "body_txt": "jsoupというとスクレイピングがよくに出てきますが、こういう使い方もありますよ、という事で。ログイン->cookie保持->ログイン後処理というjsoupコードが日本語であんまりなかったので、せっかくの機会ですし纏めてみました。jsoupで一番苦労するのは、実際に処理が実行されるURLがどういうものなのか、を見つける事ですね。formで指定されていたり、リダイレクトされたり…メモ帳でtsvを触ると、なぜか先頭に?が入ってしまう、という謎の現象が起きたので、IPアドレスの取得方法には正規表現を使用しています。エディタの指定とかできないんで…つい昔の習慣で、beanを作って詰めてしまいますが、最近はこうじゃないんですかね…新しい方法も勉強しないと^^;", "execDate": "2018/01/16T10:40:00+09:00", "paragraph":
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
KNPでの固有表現抽出モデル生成・テスト - Qiita
※英称については、あくまで語呂合わせ程度に捉えておいてください。注意点 OPTIONALタグを付加しない IREXによる定義にはOPTIONALというタグが定義されていますが、このタグは使用できないため、付加してはいけません。 EOSが連続しないようにする元となる形態素解析データでは、EOS(行末)が連続していることがありますが、余分なEOSは除去しなければなりません。改行やタブといった形態素を取り除く元となる形態素解析データでは、改行やタブも以下のように形態素として出力されていますが、これは除去しなければなりません。 ※下のデータを見てもわかりづらいかと思いますが、{改行} {改行} {改行} 未定義語 15 その他 1 * 0 * 0 NILという形になっています。学習用データ生成 $ knp -ne-train < {固有表現情報付き形態素解析データ} 2> {出力ファイル
nabinno 2018/08/27
qiita

juman

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
素人の言語処理100本ノック:49 - Qiita
言語処理100本ノック 2015の挑戦記録です。環境はUbuntu 16.04 LTS ＋ Python 3.5.2 :: Anaconda 4.1.1 (64-bit)です。過去のノックの一覧はこちらからどうぞ。第5章: 係り受け解析夏目漱石の小説『吾輩は猫である』の文章（neko.txt）をCaboChaを使って係り受け解析し，その結果をneko.txt.cabochaというファイルに保存せよ．このファイルを用いて，以下の問に対応するプログラムを実装せよ． 49. 名詞間の係り受けパスの抽出文中のすべての名詞句のペアを結ぶ最短係り受けパスを抽出せよ．ただし，名詞句ペアの文節番号が i と j （ i < j ）のとき，係り受けパスは以下の仕様を満たすものとする．問題48と同様に，パスは開始文節から終了文節に至るまでの各文節の表現（表層形の形態素列）を"->"で連結して表現する
nabinno 2018/08/27
qiita

cabocha

parsing

natural-language-processing

machine-learning

analytics
リンク
solrで日本語形態素解析結果を調べる(Mac版) - Qiita
Macでsolr導入から日本語形態素解析結果のテストをするまでの手順メモです。前提 OS Mac OS 10.13.3 Java 1.8.0_151-b12 手順 Solr サイトからダウンロード zip ファイルの解凍下記コマンドでサーバーの起動・コア作成ブラウザから管理画面起動 Core selector で mycore 選択左のメニューから「analysis」選択「Fieldname / Field type」で「text_ja」を選択 Filed Value(Query)に質問文を入力し、「Analysis Values」ボタンをクリック (一番上の「JT」(JapaneseTokenizer)の結果) (一番下の「LCF」(LowerCaseFilter)の結果) 補足デフォルトで自動生成される構成ファイル(solr-7.2.1/server/solr/mycore
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
前のページ 4 5 6 7 8 9 10 11 12 13 次のページ