タグ

自然言語処理に関するkakku22のブックマーク (61)

  • 「Elasticsearch での類似文書検索と More Like This Query API 詳解」というタイトルで発表しました - stop-the-world

    Elasticsearch 勉強会 in 大阪・京都で発表しました。 最近、興味をもって調べていた More Like This Query API について、改めてソースコードリーディングしながら整理した内容になっています。 Elasticsearch 勉強会 in 大阪(7/13 Yahoo! JAPAN 大阪) Elasticsearch 勉強会 in 京都(7/14 はてな京都オフィス) 大阪と京都でElasticsearch勉強会を開催しました。 ( @johtani さんのブログ) この発表で使ったスライドを Speaker Deck にアップしました。大阪と京都で同内容の発表でしたが、スライドの体裁をよくして見やすくした、京都での発表スライドをアップしています。 Elasticsearch での類似文書検索と More Like This Query API 詳解 // Sp

    「Elasticsearch での類似文書検索と More Like This Query API 詳解」というタイトルで発表しました - stop-the-world
  • テキストマイニングの流れとその準備 - Qiita

    テキストマイニングの概要 テキストマイニングとはテキストデータを計算機で定量的に解析、有用な情報を取り出すための技術の総称です。主に、自然言語処理、統計、データマイニングといったものを基礎とします。 かつてはこれらの実証分析や論理的研究には、自然言語を計算機で扱うために高価なソフトウェアが必要であり、高い敷居がありました。今日では無料で格的なテキストマイニングをするための環境が整ってきており、また計算機も高速で安価になったことから、例えば人文社会科学分野などでの応用においても大きな注目と期待が集まっています。 今回はテキストマイニングで雑多な外部のデータを集積し、データセットを作成して、分析手法の選択と適用、可視化までの大雑把なプロセスを整理します。 ツールの準備 テキストマイニングのためのフリーなソフトウェアとしては主に次のようなものがあります。 名称 説明

    テキストマイニングの流れとその準備 - Qiita
  • 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

    1. The document discusses the history and recent developments in natural language processing and deep learning. It provides an overview of seminal NLP papers from the 1990s to 2010s and deep learning architectures from 2003 to present. 2. Key deep learning models discussed include neural language models, word2vec, convolutional neural networks, and LSTMs. The document also notes the increasing int

    大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-
  • 日本語で読める自然言語処理の参考書まとめ - 武蔵野日記

    第5回入力メソッドワークショップのために京都へ。元々はオープンソース界隈の入力メソッド開発者が中心になって年に1回集まる(同窓)会だったのだが、ここ数年は大学で入力メソッドのレイヤーの研究をしている人や実際に MS, Apple, Google 等入力メソッドの開発に関係している人が中心になってきている。入力メソッドを現在開発していなくても、過去に作っていた人もいらっしゃるので、いろいろとおもしろいお話が聞ける。 自分は去年までは奈良・京都からの参加なので近かったが、今年から東京に引っ越したので、朝起きて品川経由で京都まで。7時40分の便だったが、満席でびっくりした。そうか、世の中的には今日が帰省のピークなのか。 米原で雪のため少し遅れたが、10分遅れで京都に着いたら晴れていた。ワークショップ開催まで時間があったので、NAIST の [twitter:@tom_shibata] さんと近鉄

    日本語で読める自然言語処理の参考書まとめ - 武蔵野日記
  • 人工知能のクイズ王、隠語を覚えすぎて一部メモリを消去されていた

    人工知能のクイズ王、隠語を覚えすぎて一部メモリを消去されていた2013.01.20 16:007,503 福田ミホ くそったれとか。 IBMの人工知能「ワトソン」は、アメリカのクイズ番組「Jeopardy!」でふたりのクイズ王を破り、世界初の人間じゃないクイズ王になりました。100万冊分もの知識を詰め込み、人間のクイズ王に対し勝率75%で圧勝していました。 でも、そんなワトソン君にもわからないことがあったようです。それは、どんな言葉は使って良いもので、どんな言葉は不適切かということです。 実はワトソンの開発中、研究チームリーダーのエリック・ブラウンさんはあることを試みていました。ワトソンを人間と対話可能なマシンにするなら、今どきの若者的言葉使いも理解すべきじゃないかと考えたのです。そしてそんな言葉の知識源として、彼らはオンライン辞書のUrban Dictionaryを選びました。Urba

    人工知能のクイズ王、隠語を覚えすぎて一部メモリを消去されていた
    kakku22
    kakku22 2013/01/22
    一瞬タイトルが淫語に見えてワクワクした気持ちを返せ!と思いながら読んだらちょっと淫語も入ってて右往左往ワロタwwwww
  • 国際学会メモ - Negative/Positive Thinking

    はじめに 最近どういうのが流行ってるとかよく知らないので、論文とか読んでいきたい。。。 読書会やtwitter、ブログで紹介されていたりするので、そういうのを参考にしたいです。 以下、参考ページを参考に有名なトップ国際学会についてメモ。 自然言語処理 ACL Annual Meeting of the ACL - Association of Computational Linguistics http://www.acl2012.org/ http://www.acl2011.org/ http://www.acl2010.org/ http://www.acl-ijcnlp-2009.org/ NAACL North American Chapter of the ACLW http://www.naacl.org/ http://www.naaclhlt2012.org/ http:

    国際学会メモ - Negative/Positive Thinking
    kakku22
    kakku22 2012/07/04
    社会人になってから全然論文とか読めてないなー!やっぱり定期的に研究レベルのトレンドも抑えるべきだよなー:(
  • データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家

    2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します(この論文は@doryokujin君のポストで知りました、ありがとうございます!)。 必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。 データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C

    データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家
  • 実践! 「MapReduceでテキストマイニング」徹底解説

    青空文庫」をテキストマイニング! 前回の「いまさら聞けないHadoopとテキストマイニング入門」では、Hadoopとテキストマイニングの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築しました。今回から、Hadoopを使い、テキストマイニングのMapReduceプログラムを作成していきます。 「青空文庫」というサイトをご存じでしょうか。青空文庫は、著作権が切れた日の文学作品を掲載しているWebサイトで、青空文庫の全データをDVDや、BitTorrentによる配信で入手できます。今回は、このデータを使ってテキストマイニングを行いましょう。 前回、テキスト分類で、著者の性別、年齢、地域、職業などの属性も推定できると書きましたが、青空文庫は、他のデータにはない、著者属性があります。青空文庫の作品は、著作権が切れて、作者がなくなっている場

    実践! 「MapReduceでテキストマイニング」徹底解説
  • 映画「The Social Network」の脚本をNLTKで解析して遊んでみた - ぬいぐるみライフ?

    ※この記事には映画「The Social Network」のネタバレがそれなりに含まれています.これから映画を観る予定の方は逃げた方が賢明です. 最近ブログで宣言した通り,入門 自然言語処理を読みつつPythonのNLTK(Natural Language ToolKit)を使った自然言語処理について勉強中.入門 自然言語処理はPythonをロクに触ったことがない私でもちゃんと理解しながら読み進められるようになっているのが嬉しい. ところで,少し前に映画「The Social Network (ソーシャル・ネットワーク)」を観て,登場人物の台詞や行動がなかなか面白くて気に入ったのだけど,この脚映画の公式サイトで公開されていることを最近知った.映画の脚となると,特徴的な表現が多く文章数もそれなりにあるので,興味深いコーパスになり得るのではないかと思う. というわけで,NLTK習い立ての

    映画「The Social Network」の脚本をNLTKで解析して遊んでみた - ぬいぐるみライフ?
    kakku22
    kakku22 2011/02/19
    The Social Networkの脚本をコーパスにっていう着眼点が素晴らしいね.
  • 入門 自然言語処理を禁書にすべき10の理由 | TRIVIAL TECHNOLOGIES on CLOUD

    みんなのIoT/みんなのPythonの著者。二子玉近く160平米の庭付き一戸建てに嫁/息子/娘/わんこと暮らしてます。月間1000万PV/150万UUのWebサービス運営中。 免責事項 プライバシーポリシー 「入門 自然言語処理」はヤバい書籍なので禁書にすべきだ。 タイトルは釣りじゃない。その理由を10個挙げる。 自然言語処理のかなり基的なことからそこそこ高度なことについて解説されてあり,自然言語処理について理解が深まり過ぎる ボリュームがあるのに書き方が平易でついつい読みふけってしまう 演習問題があり,自分の理解度を確かめられたりするのもケシカラン 原著は欧米語のための言語処理について書かれた書籍なのに,日語の形態素解析などについても解説してあって我慢できない 必要ライブラリのインストールなど環境構築に時間が取られそうでヤバい 書籍の応用でBotとか人工無能とか作ったらどうかな−,と

    kakku22
    kakku22 2010/11/22
    釣られて購入!Python勉強しようと思ってたし,NLPはそこそこ知ってるはずなのでイイ機会だってことで☆
  • WindowsでMeCab Pythonを使う - 人工知能に関する断創録

    語の文章を単語に分割するには形態素解析を使います。日語の形態素解析には、ChaSen、MeCab、Yahoo!形態素解析などがあります。ナイーブベイズを用いたブログ記事の自動分類(2010/7/3)でMeCabをPythonから使う方法を簡単にまとめましたが、MeCabはよく使うので再度まとめ直して独立したエントリにしました。Yahoo!形態素解析の使い方は、Yahoo!形態素解析API(2009/4/15)で書きました。 Windowsへの導入方法 MeCabは高性能な形態素解析モジュールでPythonRubyPerlJavaなどさまざまな言語から使えます。Mac OS XとLinuxでは簡単にコンパイルしてインストールができるのですが、WindowsではMinGWやVisual Studioのインストール、コードの修正が必要でかなり面倒くさい。そこで、Pythonモジュー

    WindowsでMeCab Pythonを使う - 人工知能に関する断創録
    kakku22
    kakku22 2010/11/22
    WindowsでMeCabをPythonから使う場合
  • Python による日本語自然言語処理

    はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日語を対象とする場合、いくつか気をつけなければいけない点があります。日語を扱う場合にも

    kakku22
    kakku22 2010/11/19
    『入門 自然言語処理』の第12章「Python による日本語自然言語処理」
  • fukudat

    English version is also available. 最近発生したディスク障害により,サイトの一部のコンテンツが失われたり,リンク切れになっています.現在復旧作業中です. 研究 福田剛志の論文リスト/特許リスト ソフトウェア工学 オブジェクト指向データベース データマイニング Data Warehousing & OLAP バイオインフォマティクス オートノミックコンピューティング 情報統合 講義 早稲田大学理工学部での講義 データベース設計 (教科書) データベース特論 (教科書) 東京大学大学院情報理工系研究科での講義 先端スキル開発特別講義I その他の講演・講義 その他 TeXCrop ... PowerPoint,Wordに貼るためにTeXの数式を画像に変換するWebアプリ nowcast bot ... 特定の地域に雨が降ると呟くbot GM-10 ... ガイ

  • 生きあたりまったりブログ

    休学中の過ごし方…うつ状態で何してた?就活やバイトは?大学休学中おすすめの過ごし方、やめたほうがいいことを経験者が解説。

    生きあたりまったりブログ
  • 単語感情極性対応表

    単語感情極性対応表 日語および英語の単語とその感情極性の対応表を、 研究目的の利用に限り公開します。 感情極性とは、その語が一般的に良い印象を持つか(positive) 悪い印象を持つか(negative)を表した二値属性です。 例えば、「良い」、「美しい」などはpositiveな極性、 「悪い」、「汚い」などはnegativeな極性を持ちます。 感情極性値は、語彙ネットワークを利用して自動的に計算されたものです。 もともと二値属性ですが、-1から+1の実数値を割り当てました。 -1に近いほどnegative、+1に近いほどpositiveと考えられます。 リソースとして、日語は「岩波国語辞書(岩波書店)」を、 英語はWordNet-1.7.1を使わせていただきました。 こちらからダウンロードしてください→[日語] [英語] フォーマットは、各行が一単語に対応し、 見出し語:読み:品

  • evaluative expressions

    評価値表現辞書 (評価表現辞書) はじめに 近年,blogなどを通して個人がネット上に配信する情報の重要性が広く認知 されるようになり,それにともなって,個人の意見をWeb上のテキストから収集,分析する技術への関心が高まっています. 実際に,ここ数年で意見を扱った多くの研究が発表されています (関連研究についてはこちらをご参照ください). 意見の収集,分析には評価をあらわす表現(以下,評価値表現)が手がかりになると考えられます. 我々は,評価値表現はある程度ドメイン横断的に使用可能だと考え,半自動手法を使用しつつ辞書を作成しました. この辞書が意見情報抽出や分析の研究に携わっていらっしゃる方々の手助けになれば幸いです. 評価値表現辞書とは 評価値表現辞書は,評価を表すために使われる可能性のある表現を集めた辞書です. 我々は評価を以下のように定義しています. 評価の主体が評価対象のクラスに対

  • 人工無脳は考える

    人工無脳は気軽に「らしさ」を楽しむことができる、知能を持たない会話プログラムです。しかし人工無脳との会話はときとして、論理で固められた人工知能が持ち得なかった人間らしさ ― 即興、いたずら心、感情 ― を私たちに感じさせてくれます。その意味では知能の質を追求するための別の切り口なのかもしれません。このようなロマンを追い求めて日頃とりとめもなく考える雑談的トピックをまとめてみました。 最近の記事より 厳選おすすめ&人気書籍 2008/09/28■自我状態を考慮した人工無脳 - 追記 人工無脳は会話の中でユーザに不自然さを感じさせ、会話が続かなかったり、拒絶されるという点が課題となっている。この原因の一つに人工無脳の印象やムードがでたらめに変化し安定していないことが挙げられる。一方、人は通常意識することなく相手に不適切なメッセージが伝わることを避けてうまくコミュニケーションをはかっている。

  • ComeJisyo プロジェクト日本語トップページ - OSDN

    医療記録の分かち書きを支援するために実践医療用語辞書ComeJisyoと、分かち書き結果から合成語を生成するツール「GoMusubi」を公開しています。 ComeJisyoは、形態素解析器MeCabのユーザ辞書として用います。 Mecabのシステム辞書IPA辞書の影響に加え、ComeJisyoの品詞誤りもあり、ComeJisyoの見出し語が過分割される場合があります。 そこで、解析結果の品詞を元に合成語を生成するツール「GoMusubi」を作成しました。 公開履歴   2021年 4月  Wcompounder_Ver.1.0     GoMusubi_Ver.2.0を構成するプログラムの内、合成語を生成するプログラムのソースコードを公開します。 動作環境 : Windows10(64ビット) 使用言語 : python3.8 2021年 4月  GoMusubi_Ver.2.0     

    ComeJisyo プロジェクト日本語トップページ - OSDN
  • GSK2007-C Web日本語Nグラム第1版

    Nグラムは一般に公開されている日語のWebページでGoogleがクロールしたものから抽出されている。ただし、閲覧に特別な認証が必要なページや、metaタグにnoarchive,noindex 等が指定されているページは対象に入っていない。抽出対象となった文数は約200億文で、出現頻度20回以上の1〜7グラムを収録している。 データの詳細については付属のREADMEも参照のこと。

    kakku22
    kakku22 2008/10/30
    Googleの日本語Nグラムデータ.気になるけど高価だ.
  • Twitterの発言をネガポジ分析してくれる『Twitrratr』 | 100SHIKI

    精度が微妙ですが、マーケティングツールとして使えそうなアイデアなのでご紹介。 Twitrratr(言いにくいw)を使えば、Twitterの発言をネガティブ、ポジティブ、ニュートラルに分類してくれる。 興味があるキーワードで検索すれば、それについて他の人がどう考えているかがわかるという仕組みだ。自社名や製品名などを入れればマーケティングツールとして便利なのではないだろうか。 残念ながら単語を解析しているだけで文脈まで十分に加味されていないようなので精度が微妙ではある。かつ、日語にも対応はしていない(対応するとなったら大変だろうが)。 ただ、アイデアは素晴らしいので将来に期待したいところである。

    Twitterの発言をネガポジ分析してくれる『Twitrratr』 | 100SHIKI