Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
SlideShare a Scribd company logo
Jubatus
スクラップブック
ten-pack
チーム紹介
● 豊橋技術科学大学OB
○ @syocy
○ @whale_shark
○ @hibitomo
Agenda
● Introduction
○ Scrapbook
○ with Jubatus
○ Other use cases
● PoC
○ システムデザイン
○ 学習アルゴリズム
○ データ
○ デモ
Scrapbook
● 記事の切り抜き
● メモ
● マーカー
引用:http://www.asahi.com/shimbun/release/image/20130111cl.jpg
Scrapbook
● 記事の切り抜き
● メモ
● マーカー
引用:http://www.asahi.com/shimbun/release/image/20130111cl.jpg
Jubatusマーカー
● Jubatusで記事にマーカーを引きたい
○ Kindleの「人気のあるハイライト」が意外と良い
⇨ みんながマーカーを引いた後の古い記事は読まれない
⇨ 先にマーカーを引いておくしか...
お前の次のマーカーは
「痛切な反省と心からのおわび」
にひく!
デモがどうしようもねぇからな!
Other use cases (マーカーを学習する意義)
● 記事の高品質化
○ マーカーと記事の良さに知見が見つかるかも
○ マーカーと新聞全体の良さに知見が見つかるかも
○ Jubatusのマーカーを参考にした記事作成
● 注目記事の精度向上
● 記事要約の精度向上
● SNS連携
Agenda
● Introduction
○ Scrapbook
○ with Jubatus
○ Other use cases
● Hack
○ システムデザイン
○ インフラ
○ 学習アルゴリズム
○ データ
○ デモ
System
マーカー
編集ページ
(手動・・・!)
学習
マーク位置
分類
インフラ
● 3つのサーバ
○ Jubatusサーバ
○ APIサーバ (Jubatusクライアント)
○ Webサーバ
● それぞれ独立しているのでスケーラブル!
○ 今風に言うとマイクロサービス
学習
● 二値分類
○ 記事データにマークを引いたデータを用意する
○ マークの文字列を正例、それ以外の文字列を負例
● 特徴量
○ 形態素解析してBagOfWords
○ 工夫の余地が残されている!
データ
● 学習データ
○ 提供された過去2週間,800記事をhibiが夜なべしてマー
キング(精度がとても低い)
Demo
Conclusion
● Jubatusで記事をスクラップ!
● 記事の気になるところがマーキング済!
● ユーザのマーキング位置を学習すると他にもい
ろいろなところが分かるかも
Thank you for your attention!

More Related Content

Jubatus スクラップブック