[B! nlp] mainyaaのブックマーク

mainyaa id:mainyaa

nlpに関するmainyaaのブックマーク (35)

論文読みNote ULMFiTモデルからチューニング手法を学ぶ - fish in deep tech oceanあるいは深海魚のお茶漬け
mainyaa 2019/04/07
nlp

機械学習
リンク
BERTの学習済みモデルを使ってみる | NHN テコラス Tech Blog | AWS、機械学習、IoTなどの技術ブログ
こんにちは。データサイエンスチームのtmtkです。この記事では、最近公開されたBERTの学習済みモデルを試してみます。はじめに今年10月末に、BERTという自然言語処理のモデルが発表されました。事前に学習したモデルをファインチューニングする仕組みで、自然言語処理の各種タスクで最高のスコアを更新したため、話題になりました。このBERTのソースコードと事前学習済みのモデルが、先月末にGitHubで公開されました。この記事では、このBERTの事前学習済みモデルをつかって、英語の文が「Alice’s Adventures in Wonderland（不思議の国のアリス）」と「Pride and Prejudice（高慢と偏見）」の二つのうちどちらの作品の文かを判定する機械学習モデルを作ってみます。実験いつものように、AWSのEC2で実験をします。AMIとしてDeep Learning
mainyaa 2018/11/12
tensorflow

bert

nlp
リンク
Encoder-Decoder でレシピの材料名を正規化する - クックパッド開発者ブログ
研究開発部の原島です。部のマネージメントのかたわら、自然言語処理関連の開発に従事しています。本エントリでは、最近社内で開発した自然言語処理システムを紹介します。 ■ 「しょうゆ」のバリエーションは 100 種類以上クックパッドで以前から解決したかった課題の一つに材料の名前（以下、材料名）の正規化があります。クックパッドのレシピは複数の材料から構成され、各材料は名前と分量から構成されています。例えば、上のレシピの一つ目の材料は「豚薄切り肉」が名前で、「200g」が分量です。さて、この材料名はこのレシピでは「豚薄切り肉」という表現でした。しかし、他のレシピでは「豚うす切り肉」という表現かもしれません。「豚うすぎり肉」や「ぶた薄切り肉」、「豚薄ぎり肉」等の表現もありえますね。これは異表記同義（いわゆる表記揺れ）の問題ですが、同様の問題は他にも沢山あります。例えば、以下のようなものです。
mainyaa 2017/10/30
nlp

機械学習
リンク
勾配ブースティングを利用した教師あり形態素分析 - にほんごのれんしゅう
勾配ブースティングを利用した教師あり形態素分析辞書ファイルを必要とせず、C++用のモデル（データを入力すると、結果が返ってくるもの）が構築できるので、任意の言語、例えばRuby等でも分かち書きや品詞推定を利用できる様になります理論ある文章の特定の文字と文字の間に分かち書きを行うべきかどうかの、二値分類問題として扱うことができると仮説を立てます周辺の”文字”の分布から、そこが分かち書きを行うのに適切なのかどうかを、なんらかの方法で人間が用意したデータを用い教師あり学習で学習します図1. 問題設定この問題設定におけるベクトルを直列化して、スパースなベクトルとして表現すると、LIVSVM形式のフォーマットにすることができ、LightGBM, XGBoostなどで学習することが可能なフォーマットに変換できます品詞の推定も同様の理論で行うことができ、分かち書きした結果を利用して、再び
mainyaa 2017/10/29
nlp

lightgbm
リンク
「深層学習による自然言語処理」を書きました
5/25に，IBMの坪井さんと，NTTの鈴木さんと書いた「深層学習による自然言語処理」というタイトルの本が発売されました．特に昨年1年間は，土日や夜をかなり潰したので，ようやく発売されたなぁと感慨深いものがあります．最終稿の直前で，図を差し替えたり，変な文が見つかったりしたので，まだ変な誤植があるかもしれませんし，読みにくいところもあると思います．本の内容ですが，おおよそ2012年から2015年くらいの深層学習系の自然言語処理の流れをトレースしています．つまり，埋め込みベクトルの学習（word2vec），ニューラル言語モデル，符号化復号化モデル（encoder-decoder, sequence-to-sequence），注意機構（soft attention/hard attention）とその応用（attention encoder-decoder, memory networ
mainyaa 2017/05/26
nlp

deeplearning
リンク
258億語の日本語コーパスをウェブで公開～国立国語研究所　言語研究や自然言語処理技術開発での基礎資料
mainyaa 2017/03/07
nlp

機械学習
リンク
TFUG#3 RettyにおけるDeep Learningの自然言語処理への応用事例 - Speaker Deck
Rettyにおいて文字単位で学習するCNNを用いて分かち書き不要な口コミ分類器を構築した事例について紹介します。
mainyaa 2017/02/23
機械学習

NLP

CNN
リンク
全脳アーキテクチャ若手の会20170131
2. 2 ● 萩行正嗣 (はんぎょうまさつぐ) ● 2014年に京都大学黒橋・河原研究室で博士(情報学)取得 – 日本語ゼロ照応解析の研究 ● 2014年4月から株式会社ウェザーニューズに勤務 – 実サービス向けのシステム開発 – NLPの基礎研究 – 機械学習の気象予測への応用 ● Twitter: @mhangyo ● 個人HP: https://mhangyo-wni.github.io/ 自己紹介 3. 3 天気予報原稿生成システム (S) から (E) まで (S) から (E) にかけて … (S) から (E) は (MIN) パーセントから (MAX) パーセントとなっています (MIN) パーセントから (MAX) パーセントです予報表テンプレート 1.原稿候補生成(数百-数千候補) 降水確率です。正午から夕方６時まで中予・大洲・愛南は５０パーセントです
mainyaa 2017/02/14
自然言語処理

NLP

機械学習
リンク
Convolutional Neural Netwoks で自然言語処理をする
1. 全脳アーキテクチャ若⼿の会カジュアルトーク (2017.1.31) Convolutional Neural Networks で⾃然⾔語処理をする全脳アーキテクチャ若⼿の会法政⼤学⼤学院理⼯学研究科修⼠課程島⽥⼤樹 2. ⾃⼰紹介島⽥⼤樹 (SHIMADA Daiki) @sheema_sheema (Twitter) • 法政⼤学⼤学院理⼯学研究科 M2 • 知的情報処理研究室（彌冨研） • 画像解析による授業受講者の態度推定 • 画像の半教師あり学習 • ⾃然⾔語⾔語処理 (⽇本語) • 全脳アーキテクチャ若⼿の会副代表 • 会全体の運営 (運営メンバー⼤募集中!!) 1 3. 前回までのあらすじ l カジュアルにCNN系画像認識⽂献64本ノック！ http://www.slideshare.net/sheemap/convolutional-neural
mainyaa 2017/02/01
NLP

機械学習

CNN
リンク
Word2Vec：発明した本人も驚く単語ベクトルの驚異的な力
Word2Vecとは Word2Vecで演算処理する Word2Vecとニューラルネットワーク Word2Vecの仕組み CBoW Skip-gram Word2Vecを応用することができる分野レコメンド機械翻訳 Q&A・チャットボット感情分析 Word2Vecの弱点 Word2Vecの派生系や類似ツール GloVe WordNet Doc2Vec fastText まとめ参考世界中のWebサイトの数は2014年に10億件を超えたようだ。そして、Facebookのユーザー数だけでも16億人を超えている。そして、そのいずれもコンテンツの中身の大部分はテキストから成り立っていることだろう。ということは、莫大に増大し続けるネット上のデータのほとんどはどこかの国の言葉だってことだ。世界中の人が毎日テキストデータを生成し続けたことはこれまでの歴史上無かったんじゃないだろうか。もしそん
mainyaa 2017/01/03
word2vec

nlp
リンク
リクルート式　自然言語処理技術の適応事例紹介
2. 2Copyright © Recruit Techno logies Co., Ltd. All Rights Reserved. 趣味 etc 学歴略歴所属氏名自己紹介 RTC ITソリューション統括部ビッグデータ2G 池田裕一東京大学大学院工学系研究科精密機械工学専攻社会人5年目。某大手メーカー系SIerで３年間、Java・C++を使った位置情報サービスの開発やAndroidアプリの開発に従事。 2014年4月からリクルートテクノロジーズ入社。レコメンド施策開発のディレクション、自然言語処理やグラフ解析の技術開発に従事。テニスゴルフ旅行カメラ
mainyaa 2017/01/03
word2vec

nlp
リンク
Facebookが公開した10億語を数分で学習するfastTextで一体何ができるのか
fastTextとは何なのか自然言語処理の学習を高速化するツールこれまで５日かかっていたタスクがたったの１０秒で終了 fastTextで取り組める３つのこと fastTextで出来る３つの全体像 Facebookはニュースフィードから釣り見出しを排除するためにfastTextをつくった？リクルートテクノロジーズでは、レコメンドに応用サイバーエージェントが実用化したAWAでのアーティストレコメンド Yahoo!はレシートメールの文章から製品をオススメする ◯2Vecを考えれば推薦に応用できる fastTextを安全に使うために必要な理論単語をベクトル表現化するWord2Vec ベクトル表現を構築するアーキテクチャ CBoW Skip-gram fastTextを使ってみよう fastTextをインストールする単語のベクトル表現を構築しよう Tweetデータの収集単語のベクトル表
mainyaa 2017/01/03
facebook

機械学習

NLP
リンク
【転職会議】クチコミをword2vecで自然言語処理して会社を分類してみる - Qiita
はじめに LivesenseAdventCalendar 2016 の20日目を担当する @naotaka1128 です。現在、転職会議という転職クチコミサービスのデータアナリストを担当しております。転職会議は会社のクチコミが数百万件集まっている日本最大級の転職クチコミサービスです。現状はクチコミや評点を表示しているだけなのですが、今後はクチコミを自然言語処理などで分析して今までは手に入らなかったような有益な情報を世の中に提供していきたいと思っております。今回はその取っ掛かりとして word2vec および doc2vec という自然言語処理の技術を用いてクチコミを分析し、会社の分類などを行ってみようと思います。使用する自然言語処理技術昨今、word2vecという自然言語処理の技術が話題です。ご存じの方も多いかと思いますが、大量の文章をもちいて単語をベクトル表現で数値化し、以下の
mainyaa 2016/12/20
nlp

word2vec
リンク
自然言語処理の深層学習において転移学習はうまく行くのか? - yasuhisa's blog
このエントリはDeep Learning Advent Calendar 2016 5日目のエントリです。EM NLP2016に出ていたHow Transferable are Neural Networks in NLP Applications?を読んだので、それについて書きます。 [1603.06111] How Transferable are Neural Networks in NLP Applications? モチベーション画像方面では、あるタスク(source side)で学習させた深層学習の結果を、別データセット(target side)でソフトマックス層だけ再学習させる転移学習(Transfer Learning)がうまくいっていると報告されています。 [1311.2901] Visualizing and Understanding Convolutional Ne
mainyaa 2016/12/15
機械学習

転移学習

nlp
リンク
ニューラルかな漢字変換 - Qiita
3行まとめ Recurrent Neural Networkによるかな漢字変換をTensorFlowを使って実装しました。既存手法のN-gramと比べて高い精度（文正解率2.7ポイント向上・予測変換3.8ポイント向上）を実現しました。 RNNの特性により離れた単語の共起関係と低頻度語の扱いが改善されました。かな漢字変換とN-gramモデルの限界パソコンやスマートフォンで日本語を入力するためのかな漢字変換には、同音異義語や単語区切りに曖昧さがあります。この問題に対処するため、現在は大規模な訓練データに基づく統計的言語モデルが主流になりました。その中でも代表的な単語のN-gramモデル1では、連続する単語列の頻度を使って言語モデルを構成し、変換候補の確率が高いほど順位が高いと考えます。しかし、N-gramモデルには離れた単語の共起関係を考慮できないという問題点（マルコフ性）と、低頻度語
mainyaa 2016/12/01
機械学習

nlp

tensorflow
リンク
自然言語処理における畳み込みニューラルネットワークを理解する · けんごのお屋敷
最近、畳み込みニューラルネットワークを使ったテキスト分類の実験をしていて、知見が溜まってきたのでそれについて何か記事を書こうと思っていた時に、こんな記事をみつけました。 http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp 畳み込みニューラルネットワークを自然言語処理に適用する話なのですが、この記事、個人的にわかりやすいなと思ったので、著者に許可をもらって日本語に翻訳しました。なお、この記事を読むにあたっては、ニューラルネットワークに関する基礎知識程度は必要かと思われます。 ※日本語としてよりわかりやすく自然になるように、原文を直訳していない箇所もいくつかありますのでご了承ください。翻訳の致命的なミスなどありましたら、Twitterなどで指摘いただければすみやかに修正します。以下
mainyaa 2016/11/17
CNN

MachineLearning

NLP
リンク
日本語 Wordnet
mainyaa 2016/11/14
日本語

自然言語処理

nlp
リンク
Deep Learning で使われてる attention ってやつを調べてみた - 終末 A.I.
先週 Skip-Thought Vectors について調べてみたわけですが、その中でよく何を言っているのかよく分かっていなかった、 attention mechanism について調べてみました。調べるにあたって、最近のDeep Learning (NLP) 界隈におけるAttention事情が大変参考になりました。ありがとうございます。まず attention 、特にエンコーダー・デコーダーモデルにおける attention について簡単に説明すると、入力情報全体ではなく、その一部のみを特にフォーカスしたベクトルをデコーダーで使用する仕組みのことです。そのことにより、デコードの特定のタイミングにだけ必要になる入力情報を精度よく出力に反映させることができるようになります。これだけでは何のことかちょっと分かりにくいので、Neural machine translation by j
mainyaa 2016/11/05
Deep Learning

NLP
リンク
Word2Vec のニューラルネットワーク学習過程を理解する · けんごのお屋敷
Word2Vec というと、文字通り単語をベクトルとして表現することで単語の意味をとらえることができる手法として有名なものですが、最近だと Word2Vec を協調フィルタリングに応用する研究 (It em2Vec と呼ばれる) などもあるようで、この Word2Vec というツールは自然言語処理の分野の壁を超えて活躍しています。実は It em2Vec を実装してみたくて Word2Vec の仕組みを理解しようとしていたのですが、Word2Vec の内部の詳細に踏み込んで解説した日本語記事を見かけることがなかったので、今更感はありますが自分の知識の整理のためにもブログに残しておきます。なお、この記事は Word2Vec のソースコードといくつかのペーパーを読んで自力で理解した内容になります。間違いが含まれている可能性もありますのでご了承ください。もし間違いを見つけた場合は指摘してもらえると
mainyaa 2016/10/12
Deep Learning

word2vec

NLP
リンク
自然言語処理と深層学習の最先端
第4回 JustTechTalk の発表資料
mainyaa 2016/05/28
機械学習

NLP
リンク
1 2 次のページ