KDD2020で紹介されたAirbnbの論文がとても参考になったので、過去の事例も紹介しつつ勉強会用にまとめています。 ご意見・コメントがある方はTwitter: @pacocat までよろしくお願いいたします。

検索エンジンにこれらのフィールドを持つ文書として格納します。「冷蔵庫 安い 黒」のような文字列のクエリが来たら単語に分解して各フィールドに一致する文書をフィルタして、なんらかの方法でソートして表示すればよさそうですね。このように基本的に検索システムは候補生成とランキングの多段構成になっています。候補生成に関してはクエリ拡張や候補拡張など様々な手法が提案されてきて、多くの現場で実際に使われていると思いますが、ランキングはどうでしょうか。 文書のランキングの目的は検索結果の有用性を最大化することです。1977年にRobertsonは与えられた文書セットに対して関連度の確率を高い順にソートしたときに有用性が最大になるというProbability Ranking Principleを提案し、それ以来人々は様々な方法で関連度を推定しようと試みてきました。 従来の単語の出現頻度からランク付けをする手法
イントロNetflixは、スマホやPCがあれば、どこでもいつでも、映画やドラマを見放題で楽しむことができます。今年はお家時間が増えたことで、Netflixをより満喫している方も多いのではないでしょうか。実際に、2020年1月〜3月に会員が全世界で1600万人ほど増え、合計1億8000万人を超えています。 Netflixをいくつかの数字で見てみると、さらにその凄さに驚かされます。 ・全世界のインターネット通信量(下り)の15%をNetflixが占めており、YouTubeを超える世界一の動画サービス ・時価総額が20兆円超え ・サブスクリプション収入が月々約1500億円 そんな多くのユーザーを有するNetflixの魅力の1つに、推薦システムがあります。Netflixのホーム画面には、今話題の作品やユーザーにパーソナライズ化されたおすすめの作品が並びます。 Googleの検索と違って、Netfl
イントロ「Amazonのこの商品をチェックした人はこの商品もチェックしています」や「YouTubeのあなたへのおすすめ」、「Twitterのおすすめユーザー」などのレコメンド機能は多くのWebサービスに組み込まれております。そのレコメンドによって、ついつい商品をたくさん買ってしまったり、夜遅くまで動画を見てしまった経験はないでしょうか。 この記事では、レコメンドシステムの裏側はどのような仕組みになっているのか、そもそもレコメンドとはどういうものなのかを具体例を交えながら俯瞰できればと思います。レコメンドシステムのアルゴリズムの詳細には触れず、ビジネスにおいてどのような形で実装されているかにフォーカスしています。ネット上に公開されているレコメンドに関するスライドや記事、論文のリンクをまとめましたので、アルゴリズムの詳細などはリンク先の記事でご確認ください。 対象の読者は、自社のサービスにレコ
AWS Startup ブログ 【開催報告&資料公開】ML@Loft #3 – Recommendation AWS 機械学習ソリューションアーキテクトの宇都宮 (Twitter: @shokout) です。本ブログでは ML@Loft 第3回「レコメンド」の開催概要を報告します。 ML@Loft は、 機械学習を AWS 上でプロダクション運用しているデベロッパー・データサイエンティストのためのコミュニティイベントです。毎月テーマを設定し、前半は各分野のエキスパートの方々からのLT、後半は機械学習のサービス導入のノウハウや様々なツラミについて、LT のご講演者の方々を交えて参加者全員参加型のお悩み相談ラウンドテーブルという構成で AWS Loft Tokyo にて実施しています。 第2回 [Blog] は、第1回で好評だった MLOps のテーマを引き続き、そして今回 6/21 (金)
PyData.Tokyo Meetup #18での講演資料です。 https://pydatatokyo.connpass.com/event/Read less
はじめまして、データ分析部の小澤(id:skozawa)です。 3月12日(月)〜3月16日(金)に開催された言語処理学会第24回年次大会(NLP2018) @岡山コンベンションセンターに、Gunosyから、関、久保、茂木、桾澤(インターン生)、小澤の5名で参加しました。 スポンサー発表 今回、Gunosyはゴールドスポンサーとして参加し、スポンサーブースでは、Gunosyにおける自然言語処理や機械学習を活用した取り組みについて、ポスター発表しました。 具体的には、以下のような発表をしました。 記事・動画閲覧ログを利用したニュース・動画配信の最適化 記事・動画閲覧ログを利用した広告配信の最適化 クリックベイトの分析 クリックされやすいがユーザの満足度を伴わないコンテンツの調査・定量化 DEIM 2018でも発表(タイトルと画像が一致しないニュース記事による クリックベイトの文析, 関, D
機械学習エンジニアの西場(@m_nishba)です。主に自然言語処理を使ったリコメンドや文書分類、ユーザー分析を行っています。 最近、開発中のリコメンデーションのアルゴリズムについて紹介します。 コンテンツ コンテンツ モチベーション 問題の概要 問題の検証結果 文書分類 文書分類の論文の紹介 精度検証 社内データを用いた検証 Tokenizeの方法 方法① 普通にMeCabを使う。 方法② 文字ベースとMeCabの組合せを使う。 検証結果 方法①の結果 方法②の結果 コンテンツのリコメンド 弊社のデータに関する課題 ① SGDを利用する。 ② Positive/Negative数が等しくなるようにサンプリングを行う。 ③ Matrix Factorizationにbiasを導入する。 ④ 文字ベースと単語ベースの組み合わせ リコメンド方法 実験 最後に モチベーション 弊社では様々な形態
Deep Learning for Personalized Search and Recommender Systems
IEEE Internet Computingの2017年5・6月号に "Two Decades of Recommender Systems at Amazon.com" という記事が掲載された。 2003年に同誌に掲載されたレポート "Amazon.com Recommendations: Item-to-Item Collaborative Filtering" が Test of Time、つまり『時代が証明したで賞』を受賞したことをうけての特別記事らしい 1。 「この商品を買った人はこんな商品も買っています」という推薦で有名なAmazonが1998年にその土台となるアルゴリズムの特許を出願してから20年、彼らが 推薦アルゴリズムをどのような視点で改良してきたのか 今、どのような未来を想像するのか その一端を知ることができる記事だった。 アイテムベース協調フィルタリング 20年前も
情報処理学会インターネットと運用技術研究会(IOT) 通算第 37 回 研究会 http://www.iot.ipsj.or.jp/news/iot37-program
機械学習・データマイニング全般 変わりゆく機械学習と変わらない機械学習 [物理学会誌 2019]:機械学習・データマイニングについての専門家以外に向けた解説記事 機械学習・データマイニング分野の概要:分野全体の概要と国際会議動向まとめ資料 ML, DM, and AI Conference Map:人工知能,機械学習,およびデータマイニング関係の国際会議関連マップ データマイニング:4種類の主要分析タスクとデータマイニングによる知識発見プロセスについての学部前半レベルの説明資料 社会における機械学習 Fairness-Aware Machine Learning and Data Mining: Tutorial on data analysis considering potential issues of fairness 私のブックマーク「人工知能と公平性」 [人工知能学会 20
2. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. ⾃⼰紹介 n 藤川和樹 ⁃ 所属 • DeNA システム本部 分析推進部 分析基盤グループ ⁃ 2014.4 新卒でDeNAへ⼊社(3年⽬) • これまでの主な業務内容 ⁃ ソーシャルゲームの各種課題分析、それに伴うデータ基盤の整備 ⁃ mobageプラットフォーム・キュレーションサービスにおける パーソナライズ・レコメンドシステムの開発 ⁃ mobageプラットフォーム上における対話型⼈⼯知能システムの開発 n 経歴 ⁃ 2014.3 神⼾⼤学⼤学院 システム情報⼯学研究科 修了 • 研究分野 ⁃ 深層学習、⾃然⾔語処理 • テーマ ⁃ 深層学習による複数⽂書の圧縮表現の獲得と株価動向推定への応⽤
Apache SparkとAmazon DSSTNEを使った、Amazon規模のレコメンデーション生成 Amazonのパーソナライゼーションでは、お客様毎の製品レコメンデーションを生成するためにニューラルネットワークを使っています。Amazonの製品カタログは、あるお客様が購入した製品の数に比較して非常に巨大なので、データセットは極端に疎になってしまいます。そして、お客様の数と製品の数は何億にものぼるため、我々のニューラルネットワークのモデルは複数のGPUで分散しなければ、空間や時間の制約を満たすことができません。 そのため、GPU上で動作するDSSTNE (the Deep Scalable Sparse Tensor Neural Engine)を開発しオープンソースにしました。我々はDSSTNEを使ってニューラルネットワークを学習しレコメンデーションを生成していて、ECのウェブサイト
WWW2014勉強会で論文紹介をさせていただきました。 WWW (International World Wide Web Conference)はWebに関する有名国際会議で、トピックは割となんでもOK(データベース、情報検索、データマイニング、自然言語処理、機械学習、ゲーム理論、etc)な印象です。 WWW2014勉強会発表 from jkomiyama 紹介論文は最初の2つがオンライン広告、残り1つが推薦です。 オンライン広告の話はInternet Economics & Monetizationというセッションで、ざっくばらんに言うとEC(オンラインの情報処理とゲーム理論の有名国際会議)と近い雰囲気を感じました。広告の配置をどうすればいいか、というのは実は難しい問題で、売り手と書い手の多人数ゲームとして定式化できます。ECには日本人研究者の論文がほとんどないですが、僕の専門と近いの
最近線形代数についていろいろ読みなおしたりしてるのですが(線形代数チートシートを前の記事でまとめてあります),その一環でレコメンドアルゴリズムについていくつか試してみたので,それを解説します.順序としては,基本の協調フィルタリング(ユーザベースド,アイテムベースド)→特異値分解(SVD)→非負値行列因子分解(NMF)になります. 基本的な考え方 ここで取り扱うのは,すべて以下のようなユーザ×商品のマトリックスをベースとしたレコメンドになります*1.ここでは映画レンタルサービスを例にして考えます.6人のユーザが,4つの映画*2のうちレンタル視聴したものについては,1-5点の5段階評価を行いました.0になっているものは「みていない」ということになります. まずはざっと評価の状況をみると,「千と千尋の神隠し」が最もよく視聴されていて,6人中4人がみています.次にみられているのは「となりのトトロ」
オペレーションズ・リサーチ学会 秋季発表会 関心度(Frequency)と忘却度(Recency)に 基づくレコメンド手法 -サンプリングでは対応できないビッグデータの活用- 2013 年 9 月 12 日 株式会社 NTTデータ数理システム *岩永二郎 鍋谷昴一 梶原悠 五十嵐健太 お知らせ 社名変更 2013年9月1日をもって 「数理システム」から「NTTデータ数理システム」に 社名変更しました. 移転 2013年9月1日をもって 「東京都新宿区新宿2丁目4-3フォーシーズンビル10階」 から 「東京都新宿区信濃町35番地 信濃町煉瓦館1階」 に移転しました. 近くにお越しの際には是非ともお立ち寄りください 2013/9/12 オペレーションズ・リサーチ学会 秋季発表会 2 本日と内容 1.はじめに 2.課題の紹介 3.分析の概要 4.関心度と忘却度に基づくレコメンド手法 5.過学習の
A Survey of Collaborative Filtering Techniques(Xiaoyuan Su and Taghi M. Khoshgoftaar, 2009,Advances in Artificial Intelligence) 仕事で協調フィルタリングについて調べる必要が出てきたのだが、あまりよい日本語の文献を見つけられなかったため(後にしましま先生の文献を見つけた)やむなく英語の論文を検索したところ、 上記のよいサーベイ論文を見つけた。というわけでこのサーベイ論文に書かれていることに自分なりに調べたことを加えて、自分用にまとめておく。 また、一部の人達の間ではとても有名なしましま先生の論文(ドラフト版)があるので、英語が苦手な人はそちらをご覧になるとよいと思われる。 協調フィルタリングは、一言で言えばユーザとアイテムのマトリックスを用いた顧客への商品のレコメン
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く