34. LEARNING TO FIGHT T. Graepel, R. Herbrich, Julian Gold Published 2004 Computer Science
https://www.microsoft.com/en-us/research/wp-content/uploads/2004/01/graehergol04.pdf
35. 3 ft
Q-Table THROW KICK STAND
1ft / GROUND
2ft / GROUND
3ft / GROUND
4ft / GROUND
5ft / GROUND
6ft / GROUND
1ft / KNOCKED
2ft / KNOCKED
3ft / KNOCKED
4ft / KNOCKED
5ft / KNOCKED
6ft / KNOCKED
actions
game
states
13.2 10.2 -1.3
3.2 6.0 4.0
+10.0
Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
"Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
36. Early in the learning process … … after 15 minutes of learning
Reward for decrease in Wulong Goth’s health
Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
"Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
37. Early in the learning process … … after 15 minutes of learning
Punishment for decrease in either player’s health
Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
"Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
39. Ralf Herbrich,Thore Graepel
Applied Games Group
Microsoft Research Cambridge
Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games
Group,Microsoft Research Cambridge
"Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
https://www.slideserve.com/liam/forza-halo-xbox-live-the-magic-of-
research-in-microsoft-products
40. Real time racing simulation.
Goal: as fast lap times as possible.
42. 機械学習
(例)FORZA MOTORSPORT におけるドライビング学習
Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
"Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
43. 機械学習
(例)FORZA MOTORSPORT におけるドライビング学習
Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
"Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
44. 機械学習
(例)FORZA MOTORSPORT におけるドライビング学習
• 揺らぎ
• ライン – コーナーやそのコンビネーションに対し
て、どれぐらいスムーズに車をガイドするか。
• コーナーへの突入スピードとブレーキを踏むタイ
ミングと。保守的か過激か。
• コーナーの頂点にどれぐらい近づくか、どれぐら
いの速度でそこを抜けるか?
• コーナーを抜ける時のスピードとコーナーを回る
時のスピード。
Drivatar がプレイヤーのコントロールから学習するもの
Microsoft Research
Drivatar™ in Forza Motorsport
http://research.microsoft.com/en-us/projects/drivatar/forza.aspx
45. 機械学習
(例)FORZA MOTORSPORT におけるドライビング学習
Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
"Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
プレイヤーの特性を解析する
特徴となる数値をドライブモデルに渡す
46. 機械学習
(例)FORZA MOTORSPORT におけるドライビング学習
Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
"Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
レーシングラインを事前に構築する。生成というよりテーブルから組み合わせる。
47. 機械学習
(例)FORZA MOTORSPORT におけるドライビング学習
Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
"Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
レーシングラインを事前に構築する。生成というよりテーブルから組み合わせる。
48. 機械学習
(例)FORZA MOTORSPORT におけるドライビング学習
Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
"Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
レーシングラインに沿わせるのではなく、理想とする位置とスピードから
コントローラーの制御を計算して、物理制御によって車を運転する。
49. Forza motorsports (EA)
Jeffrey Schlimmer, "Drivatar and Machine Learning Racing Skills in the Forza Series"
http://archives.nucl.ai/recording/drivatar-and-machine-learning-racing-skills-in-the-forza-series/
58. 年 企業 テーマ Open
2003 Microsoft 「Teo Feng」における強化学習
2005 Microsoft 「Forzamotor Sports」における強化学習
2013 DeepMind AtariのゲームをDQNで学習 〇
2015 DeepMind 囲碁 AlphaGO
2017 AnyLogic 倉庫・機械などモデルのシミュレーション
Microsoft 「パックマン」多報酬学習
Hybrid Reward Architecture for Reinforcement Learning
〇
2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
DeepMind 「Capture the flag」によるディープラーニング学習 〇
Microsoft 「AirSim」ドローンシミュレーター 〇
Nvidia 「ドライビングシミュレーター」
Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
facebook 「CraftAssist」マインクラフト内で会話研究 〇
CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
DeepMind 「StarCraft2」AlphaStar 〇
DeepMind 「Capture the Flag」QuakeIII エンジン 〇
2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇
59. Deep Q-Learning (2013)
Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves,
Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller (DeepMind Technologies)
Playing Atari with Deep Reinforcement Learning
http://www.cs.toronto.edu/~vmnih/docs/dqn.pdf
画面を入力
操作はあらかじめ教える
スコアによる強化学習
60. 学習過程解析
Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves,
Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller (DeepMind Technologies)
Playing Atari with Deep Reinforcement Learning
http://www.cs.toronto.edu/~vmnih/docs/dqn.pdf
62. • Pπ ロールアウトポリシー(ロールアウトで討つ手を決める。
Pπ(a|s) sという状態でaを討つ確率)
• Pσ Supervised Learning Network プロの討つ手からその
手を討つ確率を決める。Pσ(a|s)sという状態でaを討つ確
率。
• Pρ 強化学習ネットワーク。Pρ(学習済み)に初期化。
• Vθ(s’) 局面の状態 S’ を見たときに、勝敗の確率を予測
する関数。つまり、勝つか、負けるかを返します。
Mastering the game of Go with deep neural networks and tree search
http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html
https://deepmind.com/research/alphago/
63. 囲碁AI:
位置評価関数から位置評価ニューラルネットワークへ
Mastering the game of Go with deep neural networks and tree search
http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html
https://deepmind.com/research/alphago/
S
Q
70. 囲碁AI:
位置評価関数から位置評価ニューラルネットワークへ
Mastering the game of Go with deep neural networks and tree search
http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html
https://deepmind.com/research/alphago/
S
Q R
71. 年 企業 テーマ Open
2003 Microsoft 「Teo Feng」における強化学習
2005 Microsoft 「Forzamotor Sports」における強化学習
2013 DeepMind AtariのゲームをDQNで学習 〇
2015 DeepMind 囲碁 AlphaGO
2017 AnyLogic 倉庫・機械などモデルのシミュレーション
Microsoft 「パックマン」多報酬学習
Hybrid Reward Architecture for Reinforcement Learning
〇
2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
DeepMind 「Capture the flag」によるディープラーニング学習 〇
Microsoft 「AirSim」ドローンシミュレーター 〇
Nvidia 「ドライビングシミュレーター」
Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
facebook 「CraftAssist」マインクラフト内で会話研究 〇
CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
DeepMind 「StarCraft2」AlphaStar 〇
DeepMind 「Capture the Flag」QuakeIII エンジン 〇
2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇
72. Deep Mind社 「Agent 57」
• Atariの古典的なゲーム57個を人間よりうまくプレイできるよう
になった Deep Mind社のAI
• https://deepmind.com/blog/article/Agent57-Outperforming-
the-human-Atari-benchmark
73. DQNのさらなる発展
• 最後までスコアに苦しんだゲーム
• Montezuma’s Revenge
• Pitfall
• Solaris
• Skiing
Agent57: Outperforming the human Atari benchmark (DeepMind)
https://deepmind.com/blog/article/Agent57-Outperforming-the-human-Atari-benchmark
75. 年 企業 テーマ Open
2003 Microsoft 「Teo Feng」における強化学習
2005 Microsoft 「Forzamotor Sports」における強化学習
2013 DeepMind AtariのゲームをDQNで学習 〇
2015 DeepMind 囲碁 AlphaGO
2017 AnyLogic 倉庫・機械などモデルのシミュレーション
Microsoft 「パックマン」多報酬学習
Hybrid Reward Architecture for Reinforcement Learning
〇
2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
DeepMind 「Capture the flag」によるディープラーニング学習 〇
Microsoft 「AirSim」ドローンシミュレーター 〇
Nvidia 「ドライビングシミュレーター」
Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
facebook 「CraftAssist」マインクラフト内で会話研究 〇
CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
DeepMind 「StarCraft2」AlphaStar 〇
DeepMind 「Capture the Flag」QuakeIII エンジン 〇
2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇
76. TextWorld
• マイクロソフトが構築したテキストアドベンチャーの学習環境
• 50ほどのテキストアドベンチャーを内包している
• TextWorld: A Learning Environment for Text-based Games
• https://arxiv.org/abs/1806.11532
•
• TextWorld: A learning environment for training reinforcement learning agents,
inspired by text-based games
• https://www.microsoft.com/en-us/research/blog/textworld-a-learning-
environment-for-training-reinforcement-learning-agents-inspired-by-text-
based-games/
•
• Getting Started with TextWorld
• https://www.youtube.com/watch?v=WVIIigrPUJs
https://www.microsoft.com/en-us/research/project/textworld/
89. (faceboo ai)
Prithviraj Ammanabrolu, Jack Urbanek, Margaret Li, Arthur Szlam, Tim Rocktäschel, Jason Weston
How to Motivate Your Dragon: Teaching Goal-Driven Agents to Speak and Act in Fantasy Worlds
https://arxiv.org/abs/2010.00685
92. (faceboo ai)
Prithviraj Ammanabrolu, Jack Urbanek, Margaret Li, Arthur Szlam, Tim Rocktäschel, Jason Weston
How to Motivate Your Dragon: Teaching Goal-Driven Agents to Speak and Act in Fantasy Worlds
https://arxiv.org/abs/2010.00685
93. (faceboo ai)
Prithviraj Ammanabrolu, Jack Urbanek, Margaret Li, Arthur Szlam, Tim Rocktäschel, Jason Weston
How to Motivate Your Dragon: Teaching Goal-Driven Agents to Speak and Act in Fantasy Worlds
https://arxiv.org/abs/2010.00685
94. (faceboo ai)
Prithviraj Ammanabrolu, Jack Urbanek, Margaret Li, Arthur Szlam, Tim Rocktäschel, Jason Weston
How to Motivate Your Dragon: Teaching Goal-Driven Agents to Speak and Act in Fantasy Worlds
https://arxiv.org/abs/2010.00685
104. 年 企業 テーマ Open
2003 Microsoft 「Teo Feng」における強化学習
2005 Microsoft 「Forzamotor Sports」における強化学習
2013 DeepMind AtariのゲームをDQNで学習 〇
2015 DeepMind 囲碁 AlphaGO
2017 AnyLogic 倉庫・機械などモデルのシミュレーション
Microsoft 「パックマン」多報酬学習
Hybrid Reward Architecture for Reinforcement Learning
〇
2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
DeepMind 「Capture the flag」によるディープラーニング学習 〇
Microsoft 「AirSim」ドローンシミュレーター 〇
Nvidia 「ドライビングシミュレーター」
Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
facebook 「CraftAssist」マインクラフト内で会話研究 〇
CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
DeepMind 「StarCraft2」AlphaStar 〇
DeepMind 「Capture the Flag」QuakeIII エンジン 〇
2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇
105. StarCraftのAI
• Santiago Ontañon, Gabriel Synnaeve, Alberto Uriarte, Florian
Richoux, David Churchill, et al..
• “A Survey of Real-Time Strategy Game AI Research and
Competition in StarCraft”. IEEE Transactions on
Computational Intelligence and AI in games, IEEE
Computational Intelligence Society, 2013, 5(4), pp.1-19. hal-
00871001
• https://hal.archives-ouvertes.fr/hal-00871001
114. Oriol Vinyals, et al., “StarCraft II: A New Challenge for Reinforcement Learning”,
https://arxiv.org/abs/1708.04782
PySC2 - StarCraft II Learning Environment
https://github.com/deepmind/pysc2
115. Oriol Vinyals, et al., “StarCraft II: A New Challenge for Reinforcement Learning”,
https://arxiv.org/abs/1708.04782
PySC2 - StarCraft II Learning Environment
https://github.com/deepmind/pysc2
119. Human-level performance in 3D multiplayer games with population-based reinforcement learning
Max Jaderberg et al.
Science 31 May 2019: Vol. 364, Issue 6443, pp. 859-865
DOI: 10.1126/science.aau6249
120. π
ゲーム画像 ゲーム画像 ゲーム画像 ゲーム画像 ゲーム画像
サンプルされた
潜在変数
アクション
内部報酬
w
勝敗判定
方針
ゲーム
ポイント
ゆっくりとしたRNN
高速なRNN
Xt
𝑄𝑡 𝑄𝑡+1
Human-level performance in 3D multiplayer games with population-based reinforcement learning
Max Jaderberg et al.
Science 31 May 2019: Vol. 364, Issue 6443, pp. 859-865
DOI: 10.1126/science.aau6249
126. Emergent Tool Use From Multi-Agent Autocurricula (2019)
Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, Igor Mordatch
https://arxiv.org/abs/1909.07528