何をしたいか 調べ物をすると同時に,入手した情報を使って高効率かつ再利用可能な文書を作りたい. Emacs Org Mode のリンク機能 Org Mode では,以下の書式でクリッカブルリンクを生成できる. [[情報がある場所][適当な説明(ここが表示される)]] これを利用すれば,シンプルな一文にたくさんの有益な情報(リンク)を埋め込むことができ,情報集約率が高まる. 例 「今年のAdventカレンダーには,Org Modeのリンク機能を利用した情報収集に関する記事がある.」 という文章の中にリンクを埋め込むと,リンク部分の色が変化するはずだ. 「今年のAdventカレンダーには, Org Modeのリンク機能を利用した情報収集に関する記事がある.」 内容を展開すると以下のようになる. 「今年の [[http://qiita.com/advent-calendar/2012/docum
About reserved postingIf you register a secret article by the day before the same day, it will be automatically published around 7:00 on the same day. About posting periodOnly articles submitted after November 1 of the year can be registered. (Secret articles can be registered anytime articles are posted.)
About reserved postingIf you register a secret article by the day before the same day, it will be automatically published around 7:00 on the same day. About posting periodOnly articles submitted after November 1 of the year can be registered. (Secret articles can be registered anytime articles are posted.)
今年もやりましょうか。 Machine Learning Advent Calendar 2013とは パターン認識・機械学習・自然言語処理・データマイニング等、データサイエンスに関するアドベント・カレンダーです。 参加方法 とりあえず参加登録をポチる 自分の担当の日に機械学習に関するちょっとした記事を書く みんなで読む 記事内容は、パターン認識・機械学習・自然言語処理・データマイニング等、データサイエンスに関する事でしたら何でもOKです。テーマに沿っていれば分量は問いません。 (PRMLの読んだ箇所のまとめ、実装してみた、論文紹介、数式展開、etc.) 皆さんのご参加をお待ちしております。 Qiitaで数式を書く方法 「母国語が数式なのだけれどQiitaで数式は書けるのか」という心配からAdvent Calendarへの参加を躊躇されている皆さんのために、はてな風TeX記法をQiita上
Machine Learning Advenc Calendar 2013の23日目担当の得居です。 株式会社Preferred InfrastructureでJubatusを作ったりしています。 今日は深層学習(deep learning)の話です。 深層学習はこの2年ほどで専門外の人にも知れ渡るほどに大流行しました。 データさえ大量にあればテクニック次第で他の手法を圧倒する性能を達成できることから、特に大量のデータを持つ大企業において大々的な参入が相次ぎました。 主に流行っているのは教師あり学習です。 補助として教師なし学習による事前学習(pretraining)も、特に音声認識のタスクにおいては行われているようですが、画像認識を中心に事前学習なしでもテクニック次第で学習できるという見方が強まっています。 一方で教師なしデータからの学習はブレイクスルー待ちといった雰囲気です。 Deep
Machine Learning Advent Calendar向けの記事です。 普段はGunosyという会社で社長業をしながら社長をしています。 ざっくりいうと 結論だけ知りたい人はここだけ 広告における機械学習の応用の多くはCTR予測や運用の最適化のため(クエリー予測とか)の予測問題 今後は「CVRの予測」や「アクティブなユーザーの予測」がホットな話題になる(加えてその運用をどう最適化するかといった話題も) 現在は検索エンジンの応用例が多い。今後はディスプレイ広告やタイムライン広告への応用が増えていく 個人のユーザー属性を集めることが今まで以上にメディアのビジネス的に重要になる 広告や推薦エンジンに限らずドメイン知識は非常に重要。ドメイン知識と機械学習の知識を持ったエンジニアが意思決定に携わる会社は今後大きくのびる(と思う) 広告について 最近はもっぱら広告の開発をしており、広告分野で
Machine Learning Advent Calendarの20日目です。 はじめに Naive Bayes(NB)とその改良版のTransformed Weight-normalized Complement Naive Bayes(TWCNB)、Averaged One-Dependence Estimators(AODE)という手法について解説と実装を書きます。 Naive Bayes NBはベイズの定理と特徴変数間の独立性仮定を用いた分類器です。文書のカテゴリ分類等でよく利用されます。 NBは、事例$X$に対し$P(y|X)$が最大となるクラス$y$を分類結果として返します。$P(y|X)$は、ベイズの定理を用いて、以下のように展開が可能です。 P(y|X) = \frac{P(y, X)}{P(X)} = \frac{P(X|y)*P(y)}{P(X)} \propto P
Machine Learning Advent Calendarです。 普段はGunosyという会社で推薦システムを作ってます はじめに 推薦システムに関する最近の文献を読むと結構な割合で出てくるMatrix Factorizartion(MF)と呼ばれる手法があります。 ざっくり言うとこの手法は協調フィルタリングにおける次元削減を行うことでよりよい推薦を行おうという手法であり、 Netflix Prize(100万ドルの賞金が賭けられた推薦システムのコンテスト)で最も成果を上げたモデルの一つでもあります。 本記事ではこの手法を紹介していきます。 協調フィルタリング まず協調フィルタリングについておさらいしましょう。 あるサービスで3人のユーザが5つのアイテムに対して5段階評価をしたとき、その評価値を以下のようにベクトルで表すことができます。 \vec{user_{1}} = (4, 5,
はじめに Machine Learning Advent Calendar 2013の15日目を担当する@yag_aysです.専門はバイオインフォマティクスという計算機を使って生物学をする分野で,生モノではなく遺伝子の文字列相手に格闘している大学院生です.今回は初心者の人を対象に,なるべく数式を使わずにEMアルゴリズムについて解説してみたいと思います. EMアルゴリズムは,SVMやニューラルネットワークといった華々しい機械学習の手法の一つではなく,機械学習の中で使われる尤度最大化という一部分を担当するアルゴリズムです.そのため多くの人にとってEMアルゴリズムは,それ単体を使ってみたりだとか独自に改良をしたりするような対象ではないでしょう.でも,EMアルゴリズムなんて仰々しい名前が付けられているだけあって,いざ自分の仕事に組み込む場合には中身を理解していないと「なぜEMアルゴリズムを使ったの
今年一年の機械学習を素人的に振り返ってみるとでぃーぷらーにんぐがすごかったなー、みたいなミーハーな感想がまず思い浮かぶわけなんだけども、実際のところ今ホットな研究は何なんだろうということで、泣く子も黙る機械学習の代表的な国際会議、NIPSとICMLの過去3年分の採択論文を著者にフォーカスしてみることにした。 1st authorの重要度をそれ以外の著者よりも重くしてスコアづけした。 (複数人の著者がいる場合は1st authorを0.8として、残りの0.2を他の著者に分配、1人の場合は1とする) 参考: IR研究者をスコアリングしてみた - 睡眠不足?! NLP(自然言語処理)研究者をスコアリングしてみた 以下各々の自己紹介ページを参照しつつ、該当会議での1st author論文タイトルを引用して、スコアの上から順番にみていきます。名寄せミスなどによる集計ミスがあったらごめんなさい。 An
はじめに こんにちは。 Machine Learning Advent Calendar 2013、 12月4日担当のkazoo04です。 最近引っ越しをしまして、家ではインターネットが使えないつらい生活を送っています。 今日は最近気になってるアルゴリズムである Random Forest や、その派生アルゴリズムについて紹介したいと思います。 Random Forest はその使いやすさや性能の高さ、 Kinect による身体部位推定などで利用されていることから近年注目されており、この記事をご覧の方もよくご存知かと思います。 社内でも RF を便利に扱えたり、高速に計算したり、AWS で大量のデータを扱ったりするミドルウェアやライブラリを作ったりしています。 最近はさらに色々な応用例が発表されたり、面白そうな派生アルゴリズムが出てきたので一部ご紹介します。 Random Forest R
ご挨拶 今日から始まりました Machine Learning Advent Calendar 2013 幹事の @naoya_t です。今年もよろしくお願いします。 (日本時間では日が変わってしまいました。大変遅くなり申し訳ございません。アルゼンチン標準時(GMT-3)にはぎりぎり間に合いました!) このアドベント・カレンダーの記事内容は、パターン認識・機械学習・自然言語処理・データマイニング等、データサイエンスに関する事でしたら何でもOKです。テーマに沿っていれば分量は問いません。(PRML, MLaPP等の読んだ箇所のまとめ、実装してみた、論文紹介、数式展開、etc.) 執筆する皆さんも読むだけの皆さんも共に楽しみましょう! 本日のお題 今日は、みんな大好きPRMLから軽めの話題ということで、§3.3の「ベイズ線形回帰」から、図3.8と図3.9を再現してみたいと思います。 等価カーネ
//---はじめに--- こんにちは。Machine Learning Advent Calendar 2013の11日目を担当することになりました@vaaaaanquishです。今回は大学で研究している進捗としてstochastic average gradient(SAG)についてまとめていきたいと思います。「前年度も誰かがやってたような・・・」と思った方はきっと記憶違いです。よろしくお願いします。 //---SAG--- SAGはNIPS2012で発表*1されたオンラインアルゴリズム最適化手法の一つです。その名の通り更新時に確率的勾配の「Average」を取るアルゴリズムです。このような平均化されたアルゴリズムは、averaged stochastic gradient descent*2やSample Average Approximation*3のように昔から数多くの研究が行われ
この投稿は Machine Learning Advent Calendar 2013 の10日目の記事です. 今日はMLaPPみんな読みましょう!というお話です.なにをか血迷って積ん読状態になっていたMachine Learning a Probabilistic Perspective(以下MLaPP)を1ヶ月で読破することを思い立ち,一人でMLaPPアドベントカレンダーなるものを始めてみました.(が,10日目にして既に心が折れそうです….) MLaPPは良い機械学習の本であると思います.線形回帰からDeep Learningまで非常に幅広い分野が網羅されており,PRMLでは触れられていないトピックが記述されている点はMLaPPの大きな長所ではないかと思います.もちろん欠点がないわけではありません.まず,1000ページを超える分厚さにより,持ち歩くことはほぼ無理です(持ち歩きたい時はk
やること 可視化は大事 「分析の精度や速度とかも大事だけど、 分析結果を正しく把握する、してもらう、ってのも大事なんだぞ。 わかるか、、、やまかつ?」 って、じっちゃんが昔言ってたような気がするので、可視化について書いてみようと思います。 Apache Mahout そんな大事なビジュアライゼーションですが、 Hadoop上で分散処理できる機械学習ライブラリのMahoutには 現時点(Ver.0.8)で可視化ツールは用意されていません。(キリ ということで、Mahoutの出力結果を可視化してみます。 あ、あと勘違いしやすいのですが、Mahoutに含まれる org.apache.mahout.clustering.display.DisplayKMeans などは、ソースを読めばわかりますが、 K-Meansの任意の出力を渡して、それを可視化してくれるような、汎用的な可視化ツールではありませ
Machine Learning Advent Calendar 2013 - Qiita Machine Learning Advent Calendarです. 本来ならば,以前少しでも研究に興味がある人,面白いテーマを探している人は「研究に必要なたったN個の事」とかいう記事を読まずに今すぐに"How to do good research, get it published in SIGKDD and get it cited!"を読むべき - 糞ネット弁慶で昔触れたKeogh先生の面白データを使った論文について触れる予定でしたが,ここで予定を変更して,数式が一切出てこない日記を書こうと思います.そちらについてはいつかまとめて書きます. 今回は機械学習を行っている人ならば一度はアクセスしたことがあるであろう, UCI Machine Learning Repository について,ど
(2014-04-19 追記) このエントリは古い情報ですので,Ubuntu 14.04 LTS での非特権コンテナ - TenForwardの日記 をご覧ください. カーネル/VM Advent Calendar 2013 - Qiita のために書いたエントリです.2 回も書く気はなかったけど,折角コンテナ関係のことを書いたので,エントリしてみました :-) 従来,lxc (に限らないけど) コンテナの実行には,色々な特権 (capability) が必要で,基本的には root でコンテナを実行していました.ところが 3.8 で導入されたユーザ名前空間 (User Namespace) により,ホスト上では非特権ユーザであっても,作成したユーザ名前空間内では root になれるようになりました.詳しくはこの辺りから続くエントリを参照してください. ただ,カーネル側の実装は 3.8 で
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く