トピックモデルを用いた潜在ファッション嗜好の推定

トピックモデルを用いた
潜在ファッション嗜好の推定
Fashion Tech Meetup #1
2015/11/10
Takashi Kaneda
Ryosuke Goto

自己紹介
金田卓士 @kndt84
データサイエンティスト
• 2009年に大学院を修了専攻は計量経済学
• 一休.com、ソフトバンク・テクノロジーを
経て現職
• 趣味では、VRミニ四駆という作品を作って、
Maker Faire に出展したりしてます！

1ABOUT iQON
!
60,000 !

!
500
600 !

10,000

4.3
4.5
( :7,009 )
( :7,009 )
iQON No.1 !
!
LIKE
No.1 No.1 No.1
No.1 No.1 No.1
200
!
600 1/3

現在ユーザーのタイムラインには、フォロースタ
イリストのコンテンツを除き、全てのユーザーに
同じコンテンツが表示されている
新着コーデ人気コーデ
問題意識

ユーザーの嗜好に近いコンテンツを露出することで、
より感動体験を届けることができるのでは？
モード系かわいい系
モチベーション

しかし、ファッションの嗜好という抽象的な概念
をどうサービスに組み込めばよいのか？
トピックモデルが使えるのでは！
課題
どうにかして、行動データからユーザーのファッ
ションの潜在的な嗜好を推定したい

トピックモデルとは？
• 自然言語処理における潜在意味解析の分野から発展してき
た手法で、主に文章解析に使われることが多い
• 大量の文章から人の手を介すことなく、話題になっている
トピックの抽出が可能
• また、それぞれの文章がどのトピックに属すのかを判別す
ることもできる

出典：岩田具治『トピックモデル』講談社, 2015年
国会
首相
内閣
衆議院
選挙
：
選手
ゴール
ボール
試合
球場
：
病院
薬
健康
手術
難病
：
トピックを抽出
それぞれの文章がもつトピックを推定
サッカー協会
は代表の強化
のため…
時期衆議院選
挙に向けて与
党は…
難病医療に関
する法律案が
国会
文章集合
スポーツ政治医療+政治
政治スポーツ医療

• 明示的に「ファッション」という単語が出ていなく
ても、ファッションの話題であることを理解できる
• トピックごとに確率的に出現しやすい単語があると
考える
人とカブらないのがいい！ヴィンテージ柄 
コーデでおしゃれ上級者に

今買い足すならトレンド感も取り入れたおしゃれなデザインを
選びたい。
今買い足すトレンド取り入れたおしゃれデザイン
1 1 1 1 1 1
• 文章を単語ベクトル（Bag of Words）に変換
• ベクトル化することで共起を統計モデルとして扱える
• 単語の順番や、文章の構造は無視
Bag of Words (BoW)

出典：Blei, David M. (2012), “Probablistic Topic Models”, Communications of the ACM
文章中の単語は、文章のトピック分布から確率的に生成
されると仮定してモデル化

ユーザーのファッション嗜好の推定に使えるのでは！

パンツ：dazzlin
ブラウス：COCO DEAL
カーディガン：MERCURYDUO
カチューシャ：Jennifer Ouellette
イヤーカフ：Serendip three
バッグ：INDEX
靴：CARVEN ROND POINT
ファッションも、その人が何のブランドを着てい
るかで、なんとなくその人の嗜好がわかる！ 
ex. 赤文字系、モード系、きれいめOL系
文章からトピックを判別するのと同じでは！？

Cartier Christian Louboutin DRESSTERIOR Grace Continental IENA TOMORROWLAND
1 1 1 1 1 1
• ユーザーのブランドLike情報をベクトル化
• ベクトル化してしまえば、文章と同様に扱える！
Bag of Brands

CHANEL
Chloe
MOUSSY
Dior
CELINE
：
EGOIST
SLY
moussy
MURUA
rienda
：
addidas
X-girl
NIKE
WEGO
VANS
：
ファッションのカテゴリを抽出
それぞれのユーザーが嗜好するカテゴリを推定
EGOIST
SLY
EMODA
STUSSY
TOMMY
CONVERSE
MOUSSY
EGOIST
MURUA
ユーザーの
ブランドLike集合
ギャルストリート OL+ギャル
OL系ギャル系ストリート系

LDAのグラフィカル表現
出典：Blei, David M. (2012), “Probablistic Topic Models”, Communications of the ACM

一般的な文章解析の場合ファッションの嗜好推定
α θの事前分布を生成するパラメータ同左
η βの事前分布を生成するパラメータ同左
θ 潜在トピックの確率分布ファッションカテゴリの確率分布
β 単語の確率分布ブランドLikeの確率分布
D 文章数ユーザー数
N 1文章の単語出現回数ユーザーのブランドLike
K トピック数ファッションのカテゴリ数
Z 単語の潜在トピックファッションカテゴリ
W 単語の集合ブランドLike集合
文章解析との比較

• 約7000ブランドから上位1000ブランドに限定
• 70万人分の500万個のブランドLikeデータを使用
• GoogleのCloud Dataproc上で、SparkのMLlib
を利用して計算
• LDAの推定には、EMアルゴリズムを利用
データと計算環境

• ユーザーのブランドLike情報をベクトル化して、
トピックモデルを適用したところ、ファッション
カテゴリの抽出に成功
• また、それぞれのユーザーが、どういったファッ
ションのカテゴリを嗜好するかの判別も可能に
推定結果

青山・表参道OL系
1 CHANEL
2 Chloe
3 BLACK BY MOUSSY
4 Christian Louboutin
5 Christian Dior
6 BURBERRY
7 CELINE
8 Cher
9 FRAY I.D
10 deicy
ペルソナ
青山・表参道
sweet
モテ
OL
28-35
さえこ
元vivi読者
結婚
主婦
ママ友
セレブ好き

ランウェイ系
1 EGOIST
2 LIP SERVICE
3 EMODA
4 SLY
5 moussy
6 MURUA
7 rienda
8 SPIRAL GIRL
9 DURAS
10 CECIL McBEE
ペルソナ
渋谷・原宿
runway系
ギャルと言われがちな人
22-28歳
クラブ・フェス好き
SNS好き

セレクトショップ系
1 URBAN RESEARCH
2 URBAN RESEARCH DOORS
3 UNITED ARROWS
4 ROSSO
5 kate spade new york
6 KBF
7 IÉNA
8 nano・universe
9 TOMORROWLAND
10 Spick and Span
ペルソナ
セレクトショップ好き
ニューバランス
スニーカーはマスト
海外旅行いく
25-32歳
ベーシック 
そこそこいいものが欲しい
単価12000円くらい
モール好き

ストリート系
1 adidas
2 adidas Originals
3 X-girl
4 NIKE
5 adidas NEO Label
6 WEGO
7 VANS
8 STUSSY
9 TOMMY HILFIGER
10 adidas by Stella McCartney
ペルソナ
原宿・渋谷
スポーツ 
エッジ
髪の毛に気合い入れる
彼氏もストリート系
ナイロンが愛読書
20-28歳

ユーザーの嗜好カテゴリの推定

今後の課題
• 実際のプロダクトへの実装
• ブランドLike情報以外の、閲覧履歴情報の取り込み
• 階層構造や補助情報を取り込んだモデルへの拡張

まとめ
• ユーザーのブランドLike情報をトピックモデルに適用する
ことで、ファッションカテゴリを抽出することが可能に
• また、個々のユーザーのファッションカテゴリの嗜好も数
値として表せるようにプロダクトへ実装可能

We are hiring !
「ファッションビックデータ」
の分野を一緒に開拓しましょう！

トピックモデルを用いた潜在ファッション嗜好の推定

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to トピックモデルを用いた潜在ファッション嗜好の推定

Similar to トピックモデルを用いた潜在ファッション嗜好の推定 (20)