#経緯など Pentaho Data Integartion(PDI)上で形態素解析する必要があったので調査とメモ。 PDIがJavaで実装されているため呼び出しやすいようにJavaの形態素解析器を調べたところ、Kuromojiがあったので、そちらを利用させていただくことにしました。 ただ、Javaで書いてPDIで呼ぶのも面倒だったので、結局Jython経由で利用しています。 #使用環境 PDI 7.1 Java Version 8 Update 131 Kuromoji 0.7.7 Jython 2.7.0 #設定手順 PDIはこちらからダウンロードしてきたZIPファイルを適当な場所に解凍しておくだけでよい ※解凍すると"data-integration"というディレクトリができるがこの辺りは割愛 ※あとJavaが必要なので事前にインストールしておく KuromojiをGitHubからZ
$ pip show elyzer Name: elyzer Version: 1.1.0 Summary: Step-by-Step Debug Elasticsearch Analyzers Home-page: https://github.com/o19s/elyzer Author: Doug Turnbull Author-email: dturnbull@o19s.com License: Apache Location: /usr/lib/python3.4/site-packages $ elyzer --es http://host:9200 --index esindex --analyzer my_analyzer 'スモモ' Requires: elasticsearch Traceback (most recent call last): File "/usr/
本記事はSlack Advent Calendar 2017の1日目の記事です。 概要 Kibanaを用いてSlackの過去ログから統計情報の可視化と全文検索を行う方法を紹介します。 Slackの過去ログをELKのような全文検索エンジンに入れることで、以下のメリットが得られます。 Slackの提供していない統計情報の可視化 無料版Slackのメッセージ数制限を超えて全ての過去ログから全文検索 本記事では、簡単のためDockerでELKスタックを立ち上げ、自作したスクリプトでSlackの過去ログを流し込み、Kibanaから可視化と全文検索を行う方法を解説します。 Slackの過去ログのexport 過去ログのexportは、workspaceのadminのみが行えます Slackの過去ログは https://my.slack.com/services/export からzip形式でダウンロー
はじめに Elasticsearch には日本語を形態素解析してくれる 公式プラグイン が存在します。 長い日本語の文章からキーワードをいい感じに抜き出してくれてとても便利なのですが、単語だけのデータとか短い日本語は苦手なようで、うまくいかないことがあります。 たとえば、「サイトウ」さんみたいに漢字が「斉藤」とか「斎藤」とか「齋藤」とか何種類かある場合は全然マッチしてくれません。 kuromoji_readingform token filter で全部カナに変換しておくことである程度吸収できるのですが、これを使うときはあらかじめ kuromoji_tokenizer でトークンごとに分けておく必要があります。 検索ボックスに何をを入力するか考えてみてほしいのですが、こういう検索をするのは珍しいと思います。 私ならこうします。 検索ワードの切れ目は自分で決めたい人が多いのではないのでしょう
形態素解析に用いられるJUMANですが、扱える言語がPerlやPythonです。Rubyで扱っている記事も見つけますが、PHPで書かれたものはなかったので、メモしておきます。 (2015/9/4: @mpywさんからを受けたので追記をしました) proc_open を使った方法 <?php function juman($text) { $descriptorspec = array( 0 => array("pipe", "r"), // stdin は、子プロセスが読み込むパイプです。 1 => array("pipe", "w"), // stdout は、子プロセスが書き込むパイプです。 ); $process = proc_open('juman', $descriptorspec, $pipes); if (is_resource($process)) { // $pipes
ELSには日本語解析プラグインが用意されています。 Japanese (kuromoji) Analysis Plugin | Elasticsearch Plugins and Integrations [6.1] | Elastic Java等で品詞分解する事ももちろんできますが、ELSのテンプレートを利用する事で、Kibana上で品詞分解表示などが出来ます。 この記事では、まずELSのテンプレートで登録するところまでをやります。 プラグインインストール Elasticsearchの日本語の形態素解析をする際に利用されるkuromojiは非常に便利ですが、その辞書であるIPADICは更新が止まっているためやや古い状態です。 その辞書を更新してくださった方がいらっしゃり、neologdとして公開されているためそれを導入して新語でもきちんと解析できるようにします。 neologdでkuro
以前、このような投稿をしました。 http://qiita.com/SOJO/items/a13ea90e63340802fa52 しかし、この方法では以下のような入力をして場合、同じ単語でも別の意味があるときは @ が付いて別の行で出力され、この結果をそのまま受け取ることになります。 $ juman 国立図書館 国立 こくりつ 国立 名詞 6 普通名詞 1 * 0 * 0 "代表表記:国立/こくりつ カテゴリ:抽象物 ドメイン:教育・学習;政治" @ 国立 くにたち 国立 名詞 6 地名 4 * 0 * 0 "代表表記:国立/くにたち 地名:日本:東京都:市" 図書 としょ 図書 名詞 6 普通名詞 1 * 0 * 0 "代表表記:図書/としょ カテゴリ:抽象物 ドメイン:文化・芸術" 館 かん 館 名詞 6 普通名詞 1 * 0 * 0 "代表表記:館/かん 漢字読み:音 カテゴリ:場
言語処理100本ノック 2015の挑戦記録です。環境はUbuntu 16.04 LTS + Python 3.5.2 :: Anaconda 4.1.1 (64-bit)です。過去のノックの一覧はこちらからどうぞ。 第5章: 係り受け解析 夏目漱石の小説『吾輩は猫である』の文章(neko.txt)をCaboChaを使って係り受け解析し,その結果をneko.txt.cabochaというファイルに保存せよ.このファイルを用いて,以下の問に対応するプログラムを実装せよ. 48. 名詞から根へのパスの抽出 文中のすべての名詞を含む文節に対し,その文節から構文木の根に至るパスを抽出せよ. ただし,構文木上のパスは以下の仕様を満たすものとする. 各文節は(表層形の)形態素列で表現する パスの開始文節から終了文節に至るまで,各文節の表現を"->"で連結する 「吾輩はここで始めて人間というものを見た」とい
Ubuntu 18.04 LTSにKNP, JUMAN, CRF++をインストールする方法についてまとめてみます。 必要なパッケージのインストール checkinstall, ccacheを用いてUbuntuにソフトウェアをインストールする方法 - Qiitaの必要なパッケージのインストールに従って、必要なパッケージのインストールを行います。 sudo apt install libcdb-dev libjuman zlib1g-dev libboost-devを実行し、必要なパッケージをインストールします。 JUMANのインストール APTで提供されているJUMANは、KNPのインストールで必要なファイルが不足しているため、サイトからダウンロードしたものをインストールします。 JUMAN(bzip2圧縮)をダウンロードします。 適当なディレクトリに解凍します。 checkinstall,
{ "body_txt": "jsoupというとスクレイピングがよくに出てきますが、こういう使い方もありますよ、という事で。ログイン->cookie保持->ログイン後処理というjsoupコードが日本語であんまりなかったので、せっかくの機会ですし纏めてみました。jsoupで一番苦労するのは、実際に処理が実行されるURLがどういうものなのか、を見つける事ですね。formで指定されていたり、リダイレクトされたり…メモ帳でtsvを触ると、なぜか先頭に?が入ってしまう、という謎の現象が起きたので、IPアドレスの取得方法には正規表現を使用しています。エディタの指定とかできないんで…つい昔の習慣で、beanを作って詰めてしまいますが、最近はこうじゃないんですかね…新しい方法も勉強しないと^^;", "execDate": "2018/01/16T10:40:00+09:00", "paragraph":
※英称については、あくまで語呂合わせ程度に捉えておいてください。 注意点 OPTIONALタグを付加しない IREXによる定義にはOPTIONALというタグが定義されていますが、このタグは使用できないため、付加してはいけません。 EOSが連続しないようにする 元となる形態素解析データでは、EOS(行末)が連続していることがありますが、余分なEOSは除去しなければなりません。 改行やタブといった形態素を取り除く 元となる形態素解析データでは、改行やタブも以下のように形態素として出力されていますが、これは除去しなければなりません。 ※下のデータを見てもわかりづらいかと思いますが、{改行} {改行} {改行} 未定義語 15 その他 1 * 0 * 0 NILという形になっています。 学習用データ生成 $ knp -ne-train < {固有表現情報付き形態素解析データ} 2> {出力ファイル
言語処理100本ノック 2015の挑戦記録です。環境はUbuntu 16.04 LTS + Python 3.5.2 :: Anaconda 4.1.1 (64-bit)です。過去のノックの一覧はこちらからどうぞ。 第5章: 係り受け解析 夏目漱石の小説『吾輩は猫である』の文章(neko.txt)をCaboChaを使って係り受け解析し,その結果をneko.txt.cabochaというファイルに保存せよ.このファイルを用いて,以下の問に対応するプログラムを実装せよ. 49. 名詞間の係り受けパスの抽出 文中のすべての名詞句のペアを結ぶ最短係り受けパスを抽出せよ.ただし,名詞句ペアの文節番号が i と j ( i < j )のとき,係り受けパスは以下の仕様を満たすものとする. 問題48と同様に,パスは開始文節から終了文節に至るまでの各文節の表現(表層形の形態素列)を"->"で連結して表現する
Macでsolr導入から日本語形態素解析結果のテストをするまでの手順メモです。 前提 OS Mac OS 10.13.3 Java 1.8.0_151-b12 手順 Solr サイトからダウンロード zip ファイルの解凍 下記コマンドでサーバーの起動・コア作成 ブラウザから管理画面起動 Core selector で mycore 選択 左のメニューから「analysis」選択 「Fieldname / Field type」で「text_ja」を選択 Filed Value(Query)に質問文を入力し、「Analysis Values」ボタンをクリック (一番上の「JT」(JapaneseTokenizer)の結果) (一番下の「LCF」(LowerCaseFilter)の結果) 補足 デフォルトで自動生成される構成ファイル(solr-7.2.1/server/solr/mycore
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く