Netflixの屋台骨 「AIレコメンド」技術最前線
小売りやメディア各社はどんな商品やコンテンツがユーザーに響くかを予測する「レコメンドシステム」を活用し、売り上げを伸ばしている。
例えば、米動画配信大手のネットフリックスは2020年7~9月期に実施した決算発表で、視聴されたコンテンツの「大多数」(過去の決算発表によると75%前後)がレコメンドシステムをきっかけに選ばれていることを明らかにした。
この技術の人気は高まっている。新型コロナウイルスのパンデミック(世界的大流行)により消費者のオンライン活動が急拡大したことを背景に、決算発表でレコメンドシステムが話題に上った回数は過去最高に達した。米半導体大手エヌビディアは21年4~6月期に実施した決算発表で、レコメンドエンジンをここ数年の人工知能(AI)の「三大ブレークスルーの1つ」に挙げた。残りの2つにあたる「音声AI」「自然言語理解」も強力なレコメンドシステムの実現を支えるだろう。
今回のリポートでは、次世代のレコメンドシステムで使われるAI技術を取り上げる。
(1)グラフAI技術
大半の機械学習技術は表形式のデータやリレーショナル・データベース向けに設計されている。一方、「アマゾン・ネプチューン(Amazon Neptune)」「ネオフォージェイ(neo4j)」「タイガーグラフ(TigerGraph)」などのグラフデータベースの台頭により、グラフに特化した機械学習技術が必要になっている。
グラフデータベースはノード(個人/エンティティー=実態)とエッジ(ノード同士の関係)からなる。例えば、オンラインの料理注文では、ユーザーと、ユーザーが注文する料理はノードで、そのつながりはエッジになる。
こうした状況により、ニューラルネットをグラフに適用した「グラフニューラルネットワーク(GNN)」を電子商取引(EC)、消費者が指定した日時や場所に荷物を配達するオンデマンド配送、ソーシャルネットワークのレコメンドエンジンに活用することへの関心が高まっている。
AIは以下のようなタスクに適用される。
・どのユーザーがあなたに似ているかを予測し、よく似たユーザーの注文履歴に基づいて商品を薦める
・似ている商品を見つけて薦める
現実の世界のシナリオでは、グラフとレコメンデーションは随時変化し、リアルタイムで生成されなくてはならない。新たなコンテンツや商品、動画、ユーザーが絶えず価値を追加し、グラフは常に拡大しているからだ。
グラフAIを活用したレコメンドエンジンの例
ウーバーイーツ
料理宅配サービス「ウーバーイーツ」は米スタンフォード大学が開発したAIフレームワーク「GraphSAGE(グラフセージ)」を使ってユーザーに料理やレストランを薦めている。これにより「レコメンド機能の質と妥当性が大幅に向上した」という。
アリババ集団
中国のEC最大手アリババ集団は19年、グラフニューラルネットシステム「AliGraph(アリグラフ)」に関する論文を発表した。このシステムは既に社内で展開され、ユーザーに応じた検索やECでのレコメンド機能に使われている。
この技術は20年のネット通販セール「独身の日(アマゾンの『プライムデー』に相当)」でも活用された。家具などの商品を販売するために、この技術を使って通販サイト「淘宝網(タオバオ)」で3Dモデルを作成した。
ツイッター
米ツイッターは19年、ソーシャルネットワークの改ざんを検知するグラフニューラルネットワークの開発を手掛ける英ファビュラAI(Fabula AI)を買収した。
さらに21年には、ディープラーニング(深層学習)をダイナミックグラフに適用した研究を発表した。これは「いずれ進化し、主にソーシャルネットワークや金融取引、レコメンド機能などに使われるようになる」としている。
(2)多腕バンディット、文脈バンディット、強化学習
「多腕バンディット」とは、「単腕バンディット」と呼ばれるカジノのスロットマシン(バンディット)にちなんで名づけられたAIのアプローチだ。
スロットマシンには「腕(レバー)」がついており、ギャンブラーはこれを引いて報酬を得られるかどうかを待つ。カジノでどのマシンが払戻金を得る可能性が最も高いかを解く問題を「多腕バンディット(MAB)問題」という。
各社は履歴がない新規ユーザーに何を薦めるかを判断する際、MABに基づくアプローチで何が適しているかを見極めることができる。
MABは推薦するニュースの見出しやオンライン広告など、刻々と変わる環境で特に有用だ。米IT(情報技術)サービス大手のコグニザント・テクノロジー・ソリューションズ、音楽ストリーミング配信サービスのスポティファイ(スウェーデン)、米大手銀行のキャピタル・ワン・ファイナンシャルなどは最近、多腕バンディットを使ったレコメンドシステムの特許を申請した。
文脈バンディット
「文脈バンディット」はMABの派生版だ。AIアルゴリズムが個々のユーザーの文脈を考慮する。
このAIは報酬システムを通じて学習する。ユーザーが薦められたコンテンツをクリックすれば、AIエージェントは「報酬」を得る。
例えば、米グーグルのクラウドサービス「グーグルクラウド」は、ユーザーがどんな環境にいるか(職場か自宅か)という「文脈」を考慮するシステムを使っている。AIエージェントが職場にいるユーザーにコンテンツを薦め、ユーザーがこれをクリックしたとする(この場合、エージェントは「報酬」を得る)。だが、そのユーザーは自宅では同じコンテンツをクリックしない可能性がある(この場合にはエージェントは報酬を得られず、文脈にもっと適応することを学ぶ)。
強化学習
文脈バンディットは強化学習の簡略版といえる。
最近のAIの一部のブレークスルーは強化学習によってもたらされている。例えば、米アルファベット傘下の英ディープマインドが開発した囲碁用AI「アルファ碁」は、複雑なボードゲームである囲碁で世界のトップ棋士を破った。米オープンAIのマルチエージェントゲームでは、AIエージェントはかくれんぼの「遊び方」を学習した。
強化学習も報酬に基づくフィードバックシステムを使うが、AIエージェントは行動の最後に報酬を得るのではなく、(一連の手順を受けてゲームに勝つなど)最後に報酬を得るために複数の行動をとることができる。
文脈バンディットや強化学習を活用したレコメンドエンジンの例
ネットフリックス
ネットフリックスは視聴者のエンゲージメント率を高めるため、文脈バンディットを使って推薦する作品のアートワーク(サムネイル)をカスタマイズしている。同じ映画を表示したり、同じコンテンツに至ったりする場合でも、どの画像に反応する可能性が高いかは視聴者によって異なる。同社は視聴履歴に応じて強調するテーマや俳優を変えるなど、ユーザーに表示するアートワークをダイナミックに適用することで、比較的効果が高い画像を全てのユーザーに一律で表示する場合よりもコンテンツの視聴率を高めることができる。
このバンディットのアプローチはいわば「スマートなA/Bテスト(複数の案を同じ条件で実際に運用し、効果を測定すること)」だ。
AIエージェントのタスクは「実践学習」であり、「探索(利用者の興味に関するデータを収集する)」と「活用(知見をいかす)」とのバランスを見いだす。一方、A/Bテストは結果が出るのを待ち、優れている方を採用する。
「当社は会員の様々な特性を考慮できる。視聴した作品の題名、そのジャンル、特定の作品での会員とのやりとり、住んでいる国、言語選択、利用端末、時間帯、曜日などだ」(ネットフリックスのテクノロジーブログ)
ネットフリックスのアートワークの個別化は、ユーザーに薦めるコンテンツを選ぶ同社の主要推薦アルゴリズムの頂点に君臨している。
エクスポニア
米エクスポニア(Exponea)はEC向けの顧客データプラットフォームの開発を手掛けている。同社のプラットフォームを活用するEC各社は、文脈バンディットを使ってユーザーにメッセージやコンテンツを薦めることができる。
このアプローチはネットフリックスと同様に、企業が全ての顧客に同じ商品を薦めて広くアピールするのではなく、個人に応じたおススメを提供してエンゲージメントを最適化するよう支援する。
「文脈バンディットはこうした問題を自動で解決する。A/Bテストの問い(みんなにとって最も効果的な変数は何か)を捉えなおし『この変数をどの層に表示すべきか』と問う」(エクスポニアのブログ)
エクスポニアは最近、後期段階のスタートアップ、米ブルームリーチ(Bloomreach)に買収された。ブルームリーチの企業価値は9億ドルで、米シックス・ストリート・グロース、米ニュー・エンタープライズ・アソシエーツ(NEA)、米ライトスピード・ベンチャー・パートナーズなどの投資家から出資を受けている。
グーグル
強化学習はまずはゲームやロボットに応用された。レコメンドシステムへの応用はまだ始まったばかりだ。グーグルは19年、この分野の研究を進めて「レコメンドシステムと強化学習の研究との差を埋めるために」、レコメンドシステムの研究や実験をバーチャル環境で実施できるシミュレーションプラットフォーム「RecSim」を発表した。
グーグルは19年、強化学習のアルゴリズムを使ってレコメンドシステムで短期的効果よりも長期的効果を上げられるようにする研究についての論文を発表した。大半のレコメンドシステムはユーザーの反応や成果がすぐに得られるよう最適化されているが、グーグルは「長期的価値」を生むよう最適化する可能性を探った。
論文では「SLATEQ」と呼ばれるツールを使い、「過去の記録に基づく」レコメンドシステムの長期的価値に目を向けた。この研究ではユーザーは1度に1つの商品ではなく、様々な選択肢を示される。
グーグルでAIの研究開発を担う「グーグル・ブレイン」の研究チームも、動画共有サイト「ユーチューブ」の動画レコメンドシステムに強化学習を適用した事例研究を発表した。下の図が示すように、ユーチューブのレコメンド機能は複数の段階からなるプロセスだ。まず数十億本の動画を数百本に絞り込み(候補の生成)、それからユーザーに表示する順番を決める。
このチームは特に候補を生成する段階に注目し、その有効性を実証するために実験ライブを実施した。
・ユーザーとのやりとりに基づいて長期的価値を向上させるには、AIはユーザーの好みをすぐに採用する一方で、ユーザーが新たな関心を見つけられるよう支援もしなくてはならない。
・研究チームはユーザーの過去のフィードバック(クリック率、動画の視聴時間、ユーザーによる評価など)だけに頼る従来のレコメンドシステムの偏りにも対処しようとした。こうした基準だけに頼ると「従来のレコメンド機能で選ばれたおススメについてのフィードバックばかりを観測することで生じる偏りにさらされる」。つまり、一部のレコメンドエンジンでは、ユーザーは新たなコンテンツを適切に試すことなく既成の推薦を強化してしまっている。
関連リンク
シリーズの記事を読む
関連企業・業界