PDF形式のファイルを御覧いただく場合には、Adobe Acrobat Readerが必要な場合があります。 Adobe Acrobat Readerは開発元のWebページにて、無償でダウンロード可能です。
1. 概要 近年、ディープラーニングの自然言語処理分野の研究が盛んに行われており、その技術を利用したサービスは多様なものがあります。 当社も昨年2020年にINTELLILINK バックオフィスNLPという自然言語処理技術を利用したソリューションを発表しました。INTELLILINK バックオフィスNLPは、最新の自然言語処理技術「BERT」を用いて、少ない学習データでも高精度の文書理解が可能です。また、文書の知識を半自動化する「知識グラフ」を活用することで人と同じように文章の関係性や意図を理解することができます。INTELLILINK バックオフィスNLPを利用することで、バックオフィス業務に必要となる「文書分類」「知識抽出」「機械読解」「文書生成」「自動要約」などさまざまな言語理解が可能な各種AI機能を備えており、幅広いバックオフィス業務の効率化を実現することが可能です※1。 図:IN
推薦システムの勉強をちょっとずつ再開している関連で、トピックモデルを勉強してみようと思い、こちらを購入しました。 トピックモデル (機械学習プロフェッショナルシリーズ) 作者:岩田 具治出版社/メーカー: 講談社発売日: 2015/04/08メディア: 単行本(ソフトカバー) 今回はこちらを読んで勉強したことのメモです。 トピックモデル is なに? モデル化でやりたいこと ユニグラム/混合ユニグラムモデル トピックモデルの生成過程 トピックモデル一巡り トピック is なに? 具体的な中身について 実際には何を定めればよいか :トピックごとの単語分布 最尤推定 Map推定(最大事後確率推定) ベイズ推定 混合モデルが含まれたときの単語分布 EMアルゴリズム 変分ベイズ推定 ギブスサンプリング その他、参考にした記事 感想 トピックモデル is なに? 定義を確認します。 トピックモデルは
2020年8月5日追記ご家族の大和田美帆さんが本件に関してツイートされました。 母はヘビースモーカーどころか、喫煙者じゃなかったのになぁ。。近くにいるおばさま二人が、「岡江さんはヘビースモーカーだったから仕方なかったねー」って話してた。そういえば4月もそんな情報が回ってたなぁ。悔しいなぁ。否定したいなぁ。 と思いつつ抑えて移動。UAを聴く。 出典:https://twitter.com/miho_ohwada/status/1290517302698364928 この記事の執筆時には、事実かどうかの検証ができませんでしたので、以下の言説を「デマ」と決めつける表現は避けていました。ただし、大和田さんのコメントを受けて、タイトルを修正しています。(本文はそのまま) お断り本記事は COVID-19 に関する情報提供ではありません。また、ファクトチェックを目的にした記事ではありません。 岡江さん
こんにちは。レトリバの飯田です。カスタマーサクセス部 研究チームに所属しており、論文調査やそのアルゴリズムを実行するスクリプトの実装などを行なっています。 今回は、Bag of Words(BoW)表現に於いて、これがTopicModelの最終形態ではないか?と私が思っているStructured Topic Modelの紹介と再現実装をpythonで行なったので、その紹介をします。 https://github.com/retrieva/python_stm Structured Topic Modelとは Correlated Topic Model(CTM) Sparse Additive Generative Model(SAGE) STMの更なる特徴 文書ートピックの分布の推定に対し文書属性情報を考慮できる 積分消去による高速化 STMの使い方 Covariate(Y)の使い方 P
こんにちは。リサーチサイエンティストの村上(@ichiroex)です。 現在、AI Lab NLPチームで広告文生成の研究に取り組んでいます。 はじめに 近年、GPT-3やT5などの事前学習された大規模言語モデルの登場により、言語生成技術は飛躍的な進歩を遂げています。最近では、Hugging Face社のTransformersを活用して、様々な研究者・団体から事前学習済みモデルが公開されるようになり、我々の研究やプロダクト開発においても言語生成技術がより身近になっています。 生成モデルの研究開発では、生成したテキストを様々な観点で評価することが一般的です [1]。例えば広告文生成では、評価指標の1つとして、商品やサービスの魅力をより豊かな言い回しで伝えるために、生成テキストの多様性が重要視されています。 具体的には以下のように、同じ広告訴求(商品数の豊富さ、送料無料)でも言い回しが異なれ
こんにちは、Yu_Seです。 さて、データサイエンス×演劇ということでデータサイエンスを使った舞台のジャンル・特徴分けを行った実験結果とその考察について、3部構成でまとめた記事のPART2です。 PART1で既に書いたように、ここからはトピックモデルに関する説明と、それを使った舞台のジャンル・特徴分けの結果についてまとめていきたいと思います。 この分析を行ったモチベーションやトピックモデルに辿り着いた経緯に関しては、PART1の記事の方をご参照下さい。 では早速本編へと入っていこうと思います。 トピックモデルとは?まずはトピックモデルがそもそも何なのかについて説明したいと思います。 これから舞台のジャンル・特徴分けをする際に使用するモデルなので、クラスタリング(分類器)の手法の一つであることは想像がつくかなと思います。 トピックモデルは文章をその内容から判断してクラスタリングする手法なので
2023年もあっという間に終わります。 1年は早いと毎年、思うのですが、その早さは歳を重ねる毎に加速しているような気がします。 今年1年、わたしが投稿したブログを「ユーザーローカル テキストマイニング(https://textmining.userlocal.jp/)」というツールを使って「スコア」による分析をしたら、以下の結果となりました。 情報セキュリティは、このブログの骨格ですので、目立つのは当然です。情報セキュリティに関係が深い、パスワードや個人情報もやはり目立ちますね。 概ね、想定通りの結果ですが、異質な感じを受けるのが「韓国ドラマ」というキーワードです。 現在、わたしは、ネットフリックス、Amazonプライム、ユーネクスト、ディズニー+と、主要な動画配信サービスと契約し、韓国ドラマと共に生活をしてます。ブログで韓国ドラマについて言及する機会も多かった年だと思います。 韓国ドラマ
少し時間が空いてしまいましたが、今日は、この前の「サザエさん」のGW回の話です。 この日の放送で「G.WのBプラン」として、主人公の磯野家がゴールデンウィークにレジャーに行く計画を立て、別の話では一家で動物園を訪れたという展開に対し「不謹慎だ」などの声が上がった。それに対し「アニメはアニメ」「みんなストレスたまってるな…」などの声も相次いだ。 「サザエさん」実社会がコロナ禍の中でGWのレジャーは不謹慎との声も/芸能/デイリースポーツ online 既に記事タイトルは差し替えられていますが、当初は「「サザエさん」がまさかの“炎上”…実社会がコロナ禍の中でGWのレジャーは不謹慎と」というものでした。 これに対し、「アニメにまで文句をつけるなよ」といった声がある一方、「そもそも”炎上”などしていないのではないか」といった形の声も同じようにあがっていました。 「炎上」を疑う向きのいくつかの記事を読
あなたはテキストマイニングという言葉をご存知でしょうか? 申し訳ありません、実は私も専門的なことはよく知りません。 めちゃくちゃざっくり説明させていただきますと… 文章の中に含まれる動詞とか名詞とかを自動で検索して、どういう言葉が多いのかを解析する、というツールです。 先日、自分の書いた文章にはどんな言葉が多いのだろう、という疑問を持ちました。 しかし当然のことながら、手動でやるには効率が悪すぎる、じゃあ何かいいソフトはないかと調べてみたところ、このテキストマイニングとやらの存在にたどり着いたわけです。 誰でも無料で使えるので、暇つぶしに使ってみてください、結構面白いですよ。 textmining.userlocal.jp ではてっとり早く実践してみます。 ご存じの方も多いと思われますが、青空文庫という著作権の切れた小説などを整理しているサイトがあります。 ここから私の好きな「人間椅子」と
www.kansou-blog.jp 5年ぶりにポルノグラフィティの歌詞で使われている言葉を数えました。 前回は「旅」「時」「日」など最も多く使われている「漢字」を調べましたが、今回は「熟語」も含めた全ての単語です。 ちなみに前回の集計方法は、人力で全ての歌詞を書き写し「私は」「私と」「はぐれる」と単語の一つ一つを分解しエクセルのCOUNTIFで数えるという方法で行いました。 が、もう令和5年。テクノロジーは圧倒的に進歩しました。そんなアホなやり方で歌詞を分析する人間などひとりもいません。 それと同時に、私自身の「タイピング技術」や「メンタリティ」は5年の時を経てあの頃とは比べ物にならないほどの圧倒的「成長」を遂げました。 そこで今回は「人力」で歌詞を全て書き起こした上で「AI」を使ってテキストを文法ごとに分解する、という「原始と未来を完璧に融合させた方法」で、このランキングを作成。 te
自分のブログ記事をテキストマイニングで分析し、過去の興味やトピックを言葉の出現頻度から探ります。12月のブログ記事の総文字数約4万字を分析し、どのようなキーワードが頻出しているかを調査しました。 先日「叡智の三猿」ブログのスロトレ様が紹介されていた記事があまりにも興味深いものだったので、私もまねしてみました。テキストマイニングを用いたワードクラウドの作成です。スロトレ様のテキストデータは昨年1年分のブログ記事を読み込ませて作成されたとのこと。 紹介されているのワードクラウドは、ブログのテーマである「情報セキュリティー」が大きく表示されていますが、その下に「韓流ドラマ」があります。韓国ドラマには情報セキュリティを題材にされたものが多く、取り上げることがあったからとのことです。 私のブログではどんな結果が出るのでしょうか。ブログに打ち込んだ文章は、書きたいことについてそのときに頭に浮かんだ単語
【新サービスのお知らせ】リサーチ&コンテンツ[詳細はこちら]※料金付き BtoB WEBページのPR集客とコンバージョンを引き上げる総合サービスメニューです。ターゲット設定、全体企画、調査実施、分析コンテンツ、プレスリリース、ダウンロード用白書制作まで。特設ページで詳しくご案内しています。 対話画面を使ったテキスト分析 ChatGPTを使ったテキストマイニングの中から、特に単語の出現率やそのネガポジについてレポートする方法について解説します。前回までは、グーグルスプレッドを使いましたが、今回はChatGPT4.0の対話画面を使用します。 【GPT_Textminingシリーズ一覧リンク】 第1回 入門編・グーグルスプレッド&API 第2回 グーグルスプレッド・サマライズ等 第3回 通常の対話型インターフェイスを使った単語抽出など 第4回 マイニングツールKH-Coderとの連携について 第
無料でテキストマイニングを行うやり方 テキストマイニングとは、大量のテキストデータから意味やパターンを抽出し、情報を解析・理解するプロセスです。抽出したデータは、効果的な経営戦略や商品・サービスの改善などさまざまな場面で役立てられますが、コストを抑えて実施したい場合もあるでしょう。ここでは、テキストマイニングを無料で行うやり方を解説します。 エクセルを使用したテキストマイニング エクセルを活用してテキストマイニングを行う場合、形態要素分解・単語の主計・ワードクラウドの作成が必要です。具体的には、以下のやり方でテキストマイニングを行います。 1.文章を単語化 MeCabやJanomeなどの形態素解析エンジンを用いて、文章を単語レベルで分解(形態要素分析)する。 2.単語の集計 単語の登場数を「COUNTIF関数」を用いて集計する。 3.ワードクラウドを作成 フリーのソフトかアドインを利用し、
はじめに この資料について この資料でやりたいこと gibasaやその他のRパッケージを使って、RMeCabでできるようなテキストマイニングの前処理をより見通しよくおこなうやり方を紹介します。 想定する知識など R言語の基本的な使い方の説明はしません。tidyverseなどの使い方については、他の資料を参照してください。参考までに、tidyverseなどの使い方についての紹介は次の資料がおすすめです。 私たちのR また、以降の説明ではRでの日本語テキストの前処理のやり方のみにフォーカスしているため、具体的なテキストデータの分析のやり方には一切踏み込んでいません。Rでおこなうようなテキストデータの分析の方法については、いずれも英語の資料ですが、次が参考になると思います。 Text Mining with R Supervised Machine Learning for Text Analy
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く