Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
SlideShare a Scribd company logo
クラシックゲームを用いた
ディープラーニングの近年の発展
三宅陽一郎 @miyayou
(立教大学大学院 人工知能科学研究科)
2021.5.29 @Machine Learning 15min.
https://www.facebook.com/youichiro.miyake
http://www.slideshare.net/youichiromiyake
y.m.4160@gmail.com
miyayou.com
My Works (2004-2020)
AI for Game Titles
Books
はじめに
ゲームとディープラーニング
現状
• この3年間で、ゲーム産業以外で、ゲームを用いたディープ
ラーニングの研究が増加している。
• 当のゲーム産業では、それ程多くない。
理由
• 強化学習(DQNなど)を研究するには、結局ルールを持つシ
ミュレーション空間を使う必要がある。
• データがないところでディープラーニングを活用したい
• 現実空間で応用する前に箱庭で成長させたい
• ほとんどすべて研究環境がオープンソースになっている。
年 企業 テーマ 開発環境公開
2003 Microsoft 「Teo Feng」における強化学習
2005 Microsoft 「Forzamotor Sports」における強化学習
2013 DeepMind AtariのゲームをDQNで学習 〇
2015 DeepMind 囲碁 AlphaGO
2017 AnyLogic 倉庫・機械などモデルのシミュレーション
Microsoft 「パックマン」多報酬学習
Hybrid Reward Architecture for Reinforcement Learning
〇
2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
DeepMind 「Capture the flag」によるディープラーニング学習 〇
Microsoft 「AirSim」ドローンシミュレーター 〇
Nvidia 「ドライビングシミュレーター」
Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
facebook 「CraftAssist」マインクラフト内で会話研究 〇
CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
DeepMind 「StarCraft2」AlphaStar 〇
DeepMind 「Capture the Flag」QuakeIII エンジン 〇
2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇
シミュレー
ション
これからの人工知能のフレームワーク
現実
機械学習
(ディープ
ラーニン
グ)
この2つの技術の結びつきが、現実においても、仮想
空間においても、これからの協力な技術コアとなる。
ビックデータ x ディープラーニング
から
シミュレーション x ディープラーニング
へ
Google 「サッカーシミュレーター」による
強化学習の研究
https://automaton-media.com/articles/newsjp/20190613-95002/
シミュレーション
現実
機械学習
(ディープ
ラーニン
グ)
https://ai.googleblog.com/2019/06/introducing-google-research-football.html
シミュレーション
現実
機械学習
(ディープ
ラーニン
グ)
DeepMind社「Capture the flag」による
ディープラーニング学習
https://deepmind.com/blog/article/capture-the-flag-science
AnyLogic「シミュレーションx機械学習」
サービス
シミュレーション
現実
機械学習
(ディープ
ラーニン
グ)
https://www.anylogic.com/warehouse-operations/
Microsoft 「AirSim」による強化学習の研究
シミュレーション
現実
機械学習
(ディープ
ラーニン
グ)
https://microsoft.github.io/AirSim/
Nvidia「ドライビングシミュレーター」によ
る強化学習の研究
シミュレーション
現実
機械学習
(ディープ
ラーニン
グ)
https://www.nvidia.com/en-us/self-driving-cars/drive-constellation
パックマンによる研究
年 企業 テーマ Open
2003 Microsoft 「Teo Feng」における強化学習
2005 Microsoft 「Forzamotor Sports」における強化学習
2013 DeepMind A tariのゲームをDQNで学習
2015 DeepMind 囲碁 AlphaGO
2017 AnyLogic 倉庫・機械などモデルのシミュレーション
Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning
2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
DeepMind 「Capture the flag」によるディープラーニング学習
Microsoft 「AirSim」ドローンシミュレーター 〇
Nvidia 「ドライビングシミュレーター」
Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
facebook 「CraftAssist」マインクラフト内で会話研究 〇
CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
DeepMind 「StarCraft2」AlphaStar 〇
DeepMind 「Capture the Flag」QuakeIII エンジン 〇
2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇
ディープラーニングによるパックマンの目コピー
(Nvidia, 2020)
Learning to Simulate Dynamic Environments with GameGAN
https://nv-tlabs.github.io/gameGAN/
Learning to Simulate Dynamic Environments with GameGAN
https://nv-tlabs.github.io/gameGAN/
ディープラーニングによるパックマンの目コピー
(Nvidia, 2020)
面白い点
• 外側からだけでゲームをコピーする
問題点
• 音などはどうするのか
実用面
• クオリティ的には厳しい
ディープラーニングによるパックマンの目コピー
(Nvidia, 2020)
Harm van Seijen, Mehdi Fatemi, Joshua Romoff, Romain
Laroche, Tavian Barnes, Jeffrey Tsang
“Hybrid Reward Architecture for Reinforcement Learning”
https://arxiv.org/abs/1706.04208
Hybrid Reward Architecture for
Reinforcement Learning (Microsoft, 2017)
• 複数の報酬系を一つのニューラ
ルネットワークに盛り込む。
Harm van Seijen, Mehdi Fatemi, Joshua Romoff, Romain
Laroche, Tavian Barnes, Jeffrey Tsang
“Hybrid Reward Architecture for Reinforcement Learning”
https://arxiv.org/abs/1706.04208
クラシックゲームを用いたディープラーニングの近年の発展
強化学習ふりかえり
年 企業 テーマ Open
2003 Microsoft 「Teo Feng」における強化学習
2005 Microsoft 「Forzamotor Sports」における強化学習
2013 DeepMind AtariのゲームをDQNで学習
2015 DeepMind 囲碁 AlphaGO
2017 AnyLogic 倉庫・機械などモデルのシミュレーション
Microsoft 「パックマン」多報酬学習
Hybrid Reward Architecture for Reinforcement Learning
2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
DeepMind 「Capture the flag」によるディープラーニング学習
Microsoft 「AirSim」ドローンシミュレーター 〇
Nvidia 「ドライビングシミュレーター」
Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
facebook 「CraftAssist」マインクラフト内で会話研究 〇
CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
DeepMind 「StarCraft2」AlphaStar 〇
DeepMind 「Capture the Flag」QuakeIII エンジン 〇
2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇
2000年に発行(昔はこの本しかなかった。
今はたくさんある)
• Sutton先生の、森北出版「強化学習」
https://www.morikita.co.jp/books/book/1990
• は、2000年の翻訳のままで、
• 2018年に新版
• https://www.andrew.cmu.edu/course/10-
703/textbook/BartoSutton.pdf
強化学習とは
• とりあえず行動してみる(ランダムでもいい)
• 行動から得られるリターンによって行動の方針を変えること
自分で例を考えてみましょう。
• 初めてのコミュニティーに入る時
• 研究とか
• 初めてさわるゲーム
• サッカーわかんないけどとりあえず蹴ってみる
• 部屋の片付け
強化学習とは?
行動選択
=ポリシー
(π)
環境(Env)
行動(a)
状態(S)
報酬(R)
報酬
関数
環境のモデルはよくわからない。
でも、行動をして、それに対する結果(=報酬)が環境から返って来る。
その報酬から、現在の状態と行動の評価を見直して、
行動選択の方針を変えて行くことを強化学習という。
強化学習とは
• とりあえず行動してみる(ランダムでもいい)
• 行動から得られるリターンによって行動の方針を変えること
• とりあえず行動してみる(ランダムでもいい)
• 行動から報酬が得られる(低かろうと高かろうと)
• そこから行動に対して期待される報酬の指標を設定できる
A
Q
R
Q-Learning とは
• π:Q = 各アクションで期待される報酬の指標
(意思決定:Qが一番大きいアクションを選択する)
• S = State
• A = Action
• R = Reward
• Q (s,a) という関数を決める方法
Q
キャラクターにおける学習の原理
意思決定
A
行動の表現
実際は、たくさんの学習アルゴリズムがある。
S
R
結果の表現
現状態の表現
世界
五感
身体
言語
知識表
現型
知識
生成
Knowledge
Making
意思決定
Decision
Making
身体
運動
生成
Motion
Making
インフォメーション・フロー(情報回廊)
記憶
状態Sのとき関数Qで行動Aを評価
行動の表現
結果の表現 意思決定
S
R
Q
A1
A2
A3
行動とその結果から、意思決定を変化させる = 学習
強化学習
(例)格闘ゲーム
http://piposozai.blog76.fc2.com/
http://dear-croa.d.dooo.jp/download/illust.html
現状態の表現
S = 距離、速度、姿勢など
強化学習
(例)格闘ゲーム
キック
パン
チ
波動
R : 報酬=ダメージ
http://piposozai.blog76.fc2.com/
http://dear-croa.d.dooo.jp/download/illust.html
A : アクション
ℚ値=0.4
ℚ値=0.5
ℚ値=0.1
ℚ : 期待される報酬
S(状態),A(アクション)の空間
離れている ほどほど 近い
パンチ
Q(離れている、パンチ) Q(ほどほど、パンチ) Q(近い、パンチ)
キック
Q(離れている、キック) Q(ほどほど、キック) Q(近い、キック)
波動拳
Q(離れている、波動拳) Q(ほどほど、波動拳) Q(近い、波動拳)
A S
S(状態),A(アクション)の空間
離れている ほどほど 近い
パンチ
0.7 0.6 0.9
キック
0.2 2.7 1.9
波動拳
0.1 3.5 1.1
A S
S,Aの空間が大きくなると学習を用いる
学習=Q(S,A)が自動的に入力される仕組み
たとえば、こんな式を使う
LEARNING TO FIGHT T. Graepel, R. Herbrich, Julian Gold Published 2004 Computer Science
https://www.microsoft.com/en-us/research/wp-content/uploads/2004/01/graehergol04.pdf
3 ft
Q-Table THROW KICK STAND
1ft / GROUND
2ft / GROUND
3ft / GROUND
4ft / GROUND
5ft / GROUND
6ft / GROUND
1ft / KNOCKED
2ft / KNOCKED
3ft / KNOCKED
4ft / KNOCKED
5ft / KNOCKED
6ft / KNOCKED
actions
game
states
13.2 10.2 -1.3
3.2 6.0 4.0
+10.0
Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
"Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
Early in the learning process … … after 15 minutes of learning
Reward for decrease in Wulong Goth’s health
Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
"Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
Early in the learning process … … after 15 minutes of learning
Punishment for decrease in either player’s health
Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
"Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
HopperTraining HopperTrained
Ralf Herbrich,Thore Graepel
Applied Games Group
Microsoft Research Cambridge
Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games
Group,Microsoft Research Cambridge
"Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
https://www.slideserve.com/liam/forza-halo-xbox-live-the-magic-of-
research-in-microsoft-products
 Real time racing simulation.
 Goal: as fast lap times as possible.
Laser Range Finder
Measurements as Features
Progress alongTrack as
Reward
機械学習
(例)FORZA MOTORSPORT におけるドライビング学習
Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
"Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
機械学習
(例)FORZA MOTORSPORT におけるドライビング学習
Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
"Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
機械学習
(例)FORZA MOTORSPORT におけるドライビング学習
• 揺らぎ
• ライン – コーナーやそのコンビネーションに対し
て、どれぐらいスムーズに車をガイドするか。
• コーナーへの突入スピードとブレーキを踏むタイ
ミングと。保守的か過激か。
• コーナーの頂点にどれぐらい近づくか、どれぐら
いの速度でそこを抜けるか?
• コーナーを抜ける時のスピードとコーナーを回る
時のスピード。
Drivatar がプレイヤーのコントロールから学習するもの
Microsoft Research
Drivatar™ in Forza Motorsport
http://research.microsoft.com/en-us/projects/drivatar/forza.aspx
機械学習
(例)FORZA MOTORSPORT におけるドライビング学習
Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
"Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
プレイヤーの特性を解析する
特徴となる数値をドライブモデルに渡す
機械学習
(例)FORZA MOTORSPORT におけるドライビング学習
Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
"Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
レーシングラインを事前に構築する。生成というよりテーブルから組み合わせる。
機械学習
(例)FORZA MOTORSPORT におけるドライビング学習
Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
"Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
レーシングラインを事前に構築する。生成というよりテーブルから組み合わせる。
機械学習
(例)FORZA MOTORSPORT におけるドライビング学習
Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
"Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
レーシングラインに沿わせるのではなく、理想とする位置とスピードから
コントローラーの制御を計算して、物理制御によって車を運転する。
Forza motorsports (EA)
Jeffrey Schlimmer, "Drivatar and Machine Learning Racing Skills in the Forza Series"
http://archives.nucl.ai/recording/drivatar-and-machine-learning-racing-skills-in-the-forza-series/
DQNを有名にした
「AlphaGO」
年 企業 テーマ 開発環境公開
2003 Microsoft 「Teo Feng」における強化学習
2005 Microsoft 「Forzamotor Sports」における強化学習
2013 DeepMind AtariのゲームをDQNで学習 〇
2015 DeepMind 囲碁 AlphaGO
2017 AnyLogic 倉庫・機械などモデルのシミュレーション
Microsoft 「パックマン」多報酬学習
Hybrid Reward Architecture for Reinforcement Learning
〇
2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
DeepMind 「Capture the flag」によるディープラーニング学習 〇
Microsoft 「AirSim」ドローンシミュレーター 〇
Nvidia 「ドライビングシミュレーター」
Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
facebook 「CraftAssist」マインクラフト内で会話研究 〇
CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
DeepMind 「StarCraft2」AlphaStar 〇
DeepMind 「Capture the Flag」QuakeIII エンジン 〇
2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇
DQN (Deep Q network)とは
Deep Q Learning (深層強化学習)
Q-Learning
×
Deep Learning
Q-Learning とは
• Q = 期待される報酬 (意思決定関数)
• S = State (座標、速度、現在の姿勢)
• A = Action (キック、パンチ、波動拳)
• R = 報酬
• Q (s,a ) という関数を決める方法
世界
五感
身体
言語
知識表
現型
知識
生成
Knowledge
Making
意思決定
Decision
Making
身体
運動
生成
Motion
Making
インフォメーション・フロー(情報回廊)
記憶
キャラクターにおける学習の原理
行動の表現
結果の表現 意思決定
Q(s,a)
関数
Deep Q Network (DQN)とは
• Q = 予想される報酬 (意思決定関数)
• S = State (座標、速度、現在の姿勢)
• A = Action (キック、パンチ、波動拳)
• R = 報酬
• Q (s,a ) という関数を決める方法
深層ニューラルネットワーク
Deep Q Network
世界
五感
身体
言語
知識表
現型
知識
生成
Knowledge
Making
意思決定
Decision
Making
身体
運動
生成
Motion
Making
インフォメーション・フロー(情報回廊)
記憶
キャラクターにおける学習の原理
行動の表現
状態・結果の表現 意思決定
ニューラル
ネットワーク
(DQN)
年 企業 テーマ Open
2003 Microsoft 「Teo Feng」における強化学習
2005 Microsoft 「Forzamotor Sports」における強化学習
2013 DeepMind AtariのゲームをDQNで学習 〇
2015 DeepMind 囲碁 AlphaGO
2017 AnyLogic 倉庫・機械などモデルのシミュレーション
Microsoft 「パックマン」多報酬学習
Hybrid Reward Architecture for Reinforcement Learning
〇
2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
DeepMind 「Capture the flag」によるディープラーニング学習 〇
Microsoft 「AirSim」ドローンシミュレーター 〇
Nvidia 「ドライビングシミュレーター」
Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
facebook 「CraftAssist」マインクラフト内で会話研究 〇
CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
DeepMind 「StarCraft2」AlphaStar 〇
DeepMind 「Capture the Flag」QuakeIII エンジン 〇
2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇
Deep Q-Learning (2013)
Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves,
Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller (DeepMind Technologies)
Playing Atari with Deep Reinforcement Learning
http://www.cs.toronto.edu/~vmnih/docs/dqn.pdf
画面を入力
操作はあらかじめ教える
スコアによる強化学習
学習過程解析
Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves,
Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller (DeepMind Technologies)
Playing Atari with Deep Reinforcement Learning
http://www.cs.toronto.edu/~vmnih/docs/dqn.pdf
AlphaGO
膨大な棋譜のデータ
(人間では多過ぎて
読めない)
この棋譜を
そっくり打てる
ように学習する
自己対戦して
棋譜を貯める
この棋譜を
そっくり打てる
ように学習する
AlphaGO
• Pπ ロールアウトポリシー(ロールアウトで討つ手を決める。
Pπ(a|s) sという状態でaを討つ確率)
• Pσ Supervised Learning Network プロの討つ手からその
手を討つ確率を決める。Pσ(a|s)sという状態でaを討つ確
率。
• Pρ 強化学習ネットワーク。Pρ(学習済み)に初期化。
• Vθ(s’) 局面の状態 S’ を見たときに、勝敗の確率を予測
する関数。つまり、勝つか、負けるかを返します。
Mastering the game of Go with deep neural networks and tree search
http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html
https://deepmind.com/research/alphago/
囲碁AI:
位置評価関数から位置評価ニューラルネットワークへ
Mastering the game of Go with deep neural networks and tree search
http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html
https://deepmind.com/research/alphago/
S
Q
モンテカルロ木探索とは
(MCTS)
現在の盤面の状態
負
勝率 : 4/5 勝率 : 2/5 勝率 : 3/5
基本、
乱数による
プレイアウト
勝
候補となる手
W_1(=80) W_2(=70) W_3(=120)
試行回数
報酬合計
3回 2回 4回 全試行回数 9回
20ドル/回
マシン1 マシン2 マシン3
120
80
+
2 ∗ 9
80
70
40
+
2 ∗ 9
40
80
60
+
2 ∗ 9
60
UCB1
掛け金総額 60ドル 40ドル 80ドル
プレイヤー
現在のゲーム状態
次の一手のゲーム状態
次の次の一手のゲーム状態
末端
次の一手の中で一番
リグレットの値が一番高いノード
一回シミュレーションを加えたら、それまでのノードに結果を反映してリグレット値を更新
次の次の一手の中で一番
リグレットの値が一番高い
ノード
次の次の次の一手の中で一番
リグレットの値が一番高いノード
Value
敵チーム AIチーム
AIチーム
ゲート
アクション・バケット
末端のノード
選択された
アクション・バケット
現在のゲーム状態
Combat := if prev( wait ) then
Artillery
AttackOrder
SpecialOrder
UseGate
Openings := if root then
WaitUntilContact
WaitUntilAmbush
PuckStealth
囲碁AI:
位置評価関数から位置評価ニューラルネットワークへ
Mastering the game of Go with deep neural networks and tree search
http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html
https://deepmind.com/research/alphago/
S
Q R
年 企業 テーマ Open
2003 Microsoft 「Teo Feng」における強化学習
2005 Microsoft 「Forzamotor Sports」における強化学習
2013 DeepMind AtariのゲームをDQNで学習 〇
2015 DeepMind 囲碁 AlphaGO
2017 AnyLogic 倉庫・機械などモデルのシミュレーション
Microsoft 「パックマン」多報酬学習
Hybrid Reward Architecture for Reinforcement Learning
〇
2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
DeepMind 「Capture the flag」によるディープラーニング学習 〇
Microsoft 「AirSim」ドローンシミュレーター 〇
Nvidia 「ドライビングシミュレーター」
Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
facebook 「CraftAssist」マインクラフト内で会話研究 〇
CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
DeepMind 「StarCraft2」AlphaStar 〇
DeepMind 「Capture the Flag」QuakeIII エンジン 〇
2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇
Deep Mind社 「Agent 57」
• Atariの古典的なゲーム57個を人間よりうまくプレイできるよう
になった Deep Mind社のAI
• https://deepmind.com/blog/article/Agent57-Outperforming-
the-human-Atari-benchmark
DQNのさらなる発展
• 最後までスコアに苦しんだゲーム
• Montezuma’s Revenge
• Pitfall
• Solaris
• Skiing
Agent57: Outperforming the human Atari benchmark (DeepMind)
https://deepmind.com/blog/article/Agent57-Outperforming-the-human-Atari-benchmark
Microsoft Researchにおける
ゲーム会話研究
テキストアドベンチャーゲームを利用した対話学習 (2019)
年 企業 テーマ Open
2003 Microsoft 「Teo Feng」における強化学習
2005 Microsoft 「Forzamotor Sports」における強化学習
2013 DeepMind AtariのゲームをDQNで学習 〇
2015 DeepMind 囲碁 AlphaGO
2017 AnyLogic 倉庫・機械などモデルのシミュレーション
Microsoft 「パックマン」多報酬学習
Hybrid Reward Architecture for Reinforcement Learning
〇
2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
DeepMind 「Capture the flag」によるディープラーニング学習 〇
Microsoft 「AirSim」ドローンシミュレーター 〇
Nvidia 「ドライビングシミュレーター」
Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
facebook 「CraftAssist」マインクラフト内で会話研究 〇
CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
DeepMind 「StarCraft2」AlphaStar 〇
DeepMind 「Capture the Flag」QuakeIII エンジン 〇
2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇
TextWorld
• マイクロソフトが構築したテキストアドベンチャーの学習環境
• 50ほどのテキストアドベンチャーを内包している
• TextWorld: A Learning Environment for Text-based Games
• https://arxiv.org/abs/1806.11532
•
• TextWorld: A learning environment for training reinforcement learning agents,
inspired by text-based games
• https://www.microsoft.com/en-us/research/blog/textworld-a-learning-
environment-for-training-reinforcement-learning-agents-inspired-by-text-
based-games/
•
• Getting Started with TextWorld
• https://www.youtube.com/watch?v=WVIIigrPUJs
https://www.microsoft.com/en-us/research/project/textworld/
https://www.youtube.com/watch?v=WVIIigrPUJs
Microsoft: TextWorld
TextWorld: A Learning Environment for Text-based Games
https://arxiv.org/abs/1806.11532
TextWorld: A Learning Environment for Text-based Games
https://arxiv.org/abs/1806.11532
Facebook AIにおける
ゲーム会話研究 I
マインクラフトを用いた対話学習(2019)
年 企業 テーマ Open
2003 Microsoft 「Teo Feng」における強化学習
2005 Microsoft 「Forzamotor Sports」における強化学習
2013 DeepMind AtariのゲームをDQNで学習 〇
2015 DeepMind 囲碁 AlphaGO
2017 AnyLogic 倉庫・機械などモデルのシミュレーション
Microsoft 「パックマン」多報酬学習
Hybrid Reward Architecture for Reinforcement Learning
〇
2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
DeepMind 「Capture the flag」によるディープラーニング学習 〇
Microsoft 「AirSim」ドローンシミュレーター 〇
Nvidia 「ドライビングシミュレーター」
Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
facebook 「CraftAssist」マインクラフト内で会話研究 〇
CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
DeepMind 「StarCraft2」AlphaStar 〇
DeepMind 「Capture the Flag」QuakeIII エンジン 〇
2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇
Microsoft:Malmo
• エージェントを学習させる環境を提供
• https://www.microsoft.com/en-us/research/project/project-malmo/
• https://blogs.microsoft.com/ai/project-malmo-using-minecraft-build-
intelligent-technology/
• チュートリアル
• https://techcommunity.microsoft.com/t5/azure-ai/introducing-
reinforcement-learning-on-azure-machine-learning/ba-p/1403028
facebook:「CraftAssist」(2019)
• マインクラフトでプレイヤーと共同作
業可能なAIを実装するためのオープン
ソースプラットフォーム
https://gigazine.net/news/20190719-craftassist-
collaborative-ai-minecraft/
• テキスト会話によって、エージェント
(キャラクター)に意味を解釈させる。
「青い家を建てろ」など。
CraftAssist: A Framework for Dialogue-enabled Interactive Agents - Facebook Research
https://research.fb.com/publications/craftassist-a-framework-for-dialogue-enabled-interactive-agents/
Open-sourcing CraftAssist, a platform for studying collaborative AI bots in Minecraft
https://ai.facebook.com/blog/craftassist-platform-for-collaborative-minecraft-bots/
カーネギーメロン大学「MineRL」
• カーネギーメロン大学が NeurIPSで主催するマインクラフトを題材にした
強化学習コンテストのフレームワーク
• https://ai-scholar.tech/articles/treatise/minerl-ai-353
• https://minerl.io/competition/
• https://www.aicrowd.com/challenges/neurips-2020-minerl-competition
論文
• https://arxiv.org/pdf/1907.13440.pdf
• https://arxiv.org/abs/1904.10079
• https://www.microsoft.com/en-us/research/project/project-malmo/
• https://minerl.io/docs/
• https://slideslive.at/38922880/the-minerl-competition?ref=search
MineRL: A Large-Scale Dataset of Minecraft Demonstrations
https://arxiv.org/pdf/1907.13440.pdf
Facebook AIにおける
ゲーム会話研究 II
テーブルトークRPGを用いた対話学習(2019)
年 企業 テーマ Open
2003 Microsoft 「Teo Feng」における強化学習
2005 Microsoft 「Forzamotor Sports」における強化学習
2013 DeepMind AtariのゲームをDQNで学習 〇
2015 DeepMind 囲碁 AlphaGO
2017 AnyLogic 倉庫・機械などモデルのシミュレーション
Microsoft 「パックマン」多報酬学習
Hybrid Reward Architecture for Reinforcement Learning
〇
2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
DeepMind 「Capture the flag」によるディープラーニング学習 〇
Microsoft 「AirSim」ドローンシミュレーター 〇
Nvidia 「ドライビングシミュレーター」
Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
facebook 「CraftAssist」マインクラフト内で会話研究 〇
CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
DeepMind 「StarCraft2」AlphaStar 〇
DeepMind 「Capture the Flag」QuakeIII エンジン 〇
2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇
LIGHT(facebook.ai, 2019)
(テキストアドベンチャーフレームワーク)
• クラウドワーカーを用
いてゲーム設計を募集
• クラウドワーカーに役
を割り当てて会話
チャットでデータ収集
• この上で自然言語会話
を研究
https://parl.ai/projects/light/
https://ai.facebook.com/blog/introducing-light-a-multiplayer-text-adventure-game-for-dialogue-research/
(faceboo ai)
Prithviraj Ammanabrolu, Jack Urbanek, Margaret Li, Arthur Szlam, Tim Rocktäschel, Jason Weston
How to Motivate Your Dragon: Teaching Goal-Driven Agents to Speak and Act in Fantasy Worlds
https://arxiv.org/abs/2010.00685
https://parl.ai/projects/light/
https://parl.ai/projects/light/
(faceboo ai)
Prithviraj Ammanabrolu, Jack Urbanek, Margaret Li, Arthur Szlam, Tim Rocktäschel, Jason Weston
How to Motivate Your Dragon: Teaching Goal-Driven Agents to Speak and Act in Fantasy Worlds
https://arxiv.org/abs/2010.00685
(faceboo ai)
Prithviraj Ammanabrolu, Jack Urbanek, Margaret Li, Arthur Szlam, Tim Rocktäschel, Jason Weston
How to Motivate Your Dragon: Teaching Goal-Driven Agents to Speak and Act in Fantasy Worlds
https://arxiv.org/abs/2010.00685
(faceboo ai)
Prithviraj Ammanabrolu, Jack Urbanek, Margaret Li, Arthur Szlam, Tim Rocktäschel, Jason Weston
How to Motivate Your Dragon: Teaching Goal-Driven Agents to Speak and Act in Fantasy Worlds
https://arxiv.org/abs/2010.00685
Dota2における人工知能
(OpenAI, 2019)
テーブルトークRPGを用いた対話学習
年 企業 テーマ Open
2003 Microsoft 「Teo Feng」における強化学習
2005 Microsoft 「Forzamotor Sports」における強化学習
2013 DeepMind AtariのゲームをDQNで学習
2015 DeepMind 囲碁 AlphaGO
2017 AnyLogic 倉庫・機械などモデルのシミュレーション
Microsoft 「パックマン」多報酬学習
Hybrid Reward Architecture for Reinforcement Learning
2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
DeepMind 「Capture the flag」によるディープラーニング学習
Microsoft 「AirSim」ドローンシミュレーター 〇
Nvidia 「ドライビングシミュレーター」
Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
facebook 「CraftAssist」マインクラフト内で会話研究 〇
CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
DeepMind 「StarCraft2」AlphaStar 〇
DeepMind 「Capture the Flag」QuakeIII エンジン 〇
2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇
日本におけるゲームセンターの対戦文化の流れ(1980年代~)
アメリカを中心とするFPS対戦の流れ(2000年前後~)
韓国におけるeスポーツ文化の流れ(1997年~)
世界的なMOBAスタイルの
チーム対戦の流れ(2010年~)
1985 1990 1995 2007
ⅬAN
ゲームセンターの
対戦台 インターネット 高速インターネット・動画配信
実際の現場でギャラリー観戦 テレビなどで観戦 インターネットで観戦
ゲーム聴衆
の誕生
Dota2 eSportsで大人気
OpenAI Five: Dota Gameplay https://www.youtube.com/watch?v=UZHTNBMAfAA
解説:『Dota 2』における人間側のチャンピオンチームとAIチームの戦い https://alienwarezone.jp/post/2316
OpenAI Five https://openai.com/projects/five/
Christopher Berner, et al.,“Dota 2 with Large Scale Deep
Reinforcement Learning” https://arxiv.org/abs/1912.06680
HERO
ベクター
認識過程
認識情報
ベクター
HERO
ベクター
HERO
ベクター
HERO
ベクター
各HERO
埋め込み
バリュー・
ファンクション
LSTM
アクション
Tied Weight
OpenAI Five https://openai.com/projects/five/
Christopher Berner, et al.,“Dota 2 with Large Scale Deep
Reinforcement Learning” https://arxiv.org/abs/1912.06680
ゲーム(Dota2)
コントローラー
Forward Pass GPU
(512GPUs)
新しいパラメータを
配布
ロールアウトワーカー
57600ワーカー
51200CPUs (Python)
アクション
各ワーカーから0.25秒
おきに監視
Exp. Buffer
各ワーカーから1分おきに
256サンプルを送信
GPU
1分(オプティマイザーで言えば32ステップ)
ごとに新しいパラメータを渡す
2秒ごとに
1920サンプル
オプティマイザー(512GPUs)
2秒おきに
NCCL(Nvidia)のAllreduceの
ライブラリによる全GPUの
Gradientの平均化
時系列
空間
ストラテジーゲームの時空間
自発的なプラン
状況的に展開せざる得ないプラン
状況的に展開せざる得ないプラン
ある
ゲーム
状況
ある
ゲーム
状況
時間
StarCraft~StarCraft2における
人工知能
(DeepMind, 2019)
年 企業 テーマ Open
2003 Microsoft 「Teo Feng」における強化学習
2005 Microsoft 「Forzamotor Sports」における強化学習
2013 DeepMind AtariのゲームをDQNで学習 〇
2015 DeepMind 囲碁 AlphaGO
2017 AnyLogic 倉庫・機械などモデルのシミュレーション
Microsoft 「パックマン」多報酬学習
Hybrid Reward Architecture for Reinforcement Learning
〇
2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
DeepMind 「Capture the flag」によるディープラーニング学習 〇
Microsoft 「AirSim」ドローンシミュレーター 〇
Nvidia 「ドライビングシミュレーター」
Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
facebook 「CraftAssist」マインクラフト内で会話研究 〇
CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
DeepMind 「StarCraft2」AlphaStar 〇
DeepMind 「Capture the Flag」QuakeIII エンジン 〇
2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇
StarCraftのAI
• Santiago Ontañon, Gabriel Synnaeve, Alberto Uriarte, Florian
Richoux, David Churchill, et al..
• “A Survey of Real-Time Strategy Game AI Research and
Competition in StarCraft”. IEEE Transactions on
Computational Intelligence and AI in games, IEEE
Computational Intelligence Society, 2013, 5(4), pp.1-19. hal-
00871001
• https://hal.archives-ouvertes.fr/hal-00871001
StarCraftの7つのアーキテクチャ (2010-2020)
戦略思考
ハイレベル、抽象的
3分~
知識収集と
学習
敵のモデル化
戦略決定
部隊形成
命令プランの構築
戦術思考
中間レベル
30秒~1分
スカウティング
戦闘タイミングと
位置
ユニットと建築物
の配置
反射コントロール
低レベル、物理的
~1秒
小ユニット
マルチエージェン
パス検索
StarCraft 一般的なアーキテクチャ
戦闘
ゴール
マネージャー
ユニットグループ
ベイジアン・ネット
BroodWarBotQ
仲介モジュール
知能
マップ
マネージャー
技術推定
ユニット
フィルター
資源管理
ワーカー
マネージャー
基地
マネージャー
生産
マネージャー
建築
マネージャー
StarCraft BroodWarQ Bot アーキテクチャ
知能
建築命令マネージャー
スカウト
マネージャー
資源
マネージャー
マクロ
マネージャー
拡張
マネージャー
供給
マネージャー
部隊
マネージャー
封鎖経路
マネージャー
戦略
戦術
タスクマネージャー
建築設置
モジュール
タスク n
StarCraft SkyNet Bot アーキテクチャ
資源管理
戦闘
部隊マネージャー
防御マネージャー
戦闘マネージャー
AIUR
ムード
マネージャー
知能
仲介モジュール
スカウト
マネー
ジャー
情報マネージャー
ワーカー
マネージャー
基地
マネージャー
生産
マネージャー
建築
マネージャー
スパイ
マネー
ジャー
消費
マネージャー
StarCraft AIUR Bot アーキテクチャ
StarCraft~StarCraft2における
人工知能
(DeepMind, 2019)
Oriol Vinyals, et al., “StarCraft II: A New Challenge for Reinforcement Learning”,
https://arxiv.org/abs/1708.04782
PySC2 - StarCraft II Learning Environment
https://github.com/deepmind/pysc2
StarCraft II API
StarCraft II バイナリー
PySC2
エージェント
アクション select_rect(p1, p2) or build_supply(p3) or …
観察
資源
可能なアクション
建築命令
スクリーン
(ゲーム情報)
ミニマップ
(特定の情報)
報酬
-1/0/+1
SC2LE
評価値
Value
Network
Baseline features
アクション・タイプ ディレイ ユニット選択
命令発行 ターゲット選択
Residual MLP MLP MLP Pointer
Network
Attention D
分散表現
MLP
分散表現
MLP
分散表現
MLP
Embedding
MLP
コア
Deep LSTM
スカラー
エンコーダー
MLP
エンティティ
エンコーダー
トランス
フォーマー
空間
エンコーダー
ResNet
ゲーム
パラメーター群
エンティティ ミニマップ
Oriol Vinyals, et al., “StarCraft II: A New Challenge for Reinforcement Learning”,
https://arxiv.org/abs/1708.04782
PySC2 - StarCraft II Learning Environment
https://github.com/deepmind/pysc2
Oriol Vinyals, et al., “StarCraft II: A New Challenge for Reinforcement Learning”,
https://arxiv.org/abs/1708.04782
PySC2 - StarCraft II Learning Environment
https://github.com/deepmind/pysc2
DeepMind社「Capture the flag」
によるディープラーニング学習
(2019年)
年 企業 テーマ Open
2003 Microsoft 「Teo Feng」における強化学習
2005 Microsoft 「Forzamotor Sports」における強化学習
2013 DeepMind AtariのゲームをDQNで学習 〇
2015 DeepMind 囲碁 AlphaGO
2017 AnyLogic 倉庫・機械などモデルのシミュレーション
Microsoft 「パックマン」多報酬学習
Hybrid Reward Architecture for Reinforcement Learning
〇
2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
DeepMind 「Capture the flag」によるディープラーニング学習 〇
Microsoft 「AirSim」ドローンシミュレーター 〇
Nvidia 「ドライビングシミュレーター」
Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
facebook 「CraftAssist」マインクラフト内で会話研究 〇
CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
DeepMind 「StarCraft2」AlphaStar 〇
DeepMind 「Capture the Flag」QuakeIII エンジン 〇
2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇
シミュレーション
現実
機械学習
(ディープ
ラーニン
グ)
https://deepmind.com/blog/article/capture-the-flag-science
Human-level performance in 3D multiplayer games with population-based reinforcement learning
Max Jaderberg et al.
Science 31 May 2019: Vol. 364, Issue 6443, pp. 859-865
DOI: 10.1126/science.aau6249
Human-level performance in 3D multiplayer games with population-based reinforcement learning
Max Jaderberg et al.
Science 31 May 2019: Vol. 364, Issue 6443, pp. 859-865
DOI: 10.1126/science.aau6249
π
ゲーム画像 ゲーム画像 ゲーム画像 ゲーム画像 ゲーム画像
サンプルされた
潜在変数
アクション
内部報酬
w
勝敗判定
方針
ゲーム
ポイント
ゆっくりとしたRNN
高速なRNN
Xt
𝑄𝑡 𝑄𝑡+1
Human-level performance in 3D multiplayer games with population-based reinforcement learning
Max Jaderberg et al.
Science 31 May 2019: Vol. 364, Issue 6443, pp. 859-865
DOI: 10.1126/science.aau6249
赤チーム陣地
青チーム陣地 赤フラグを青チーム陣地に
持ち帰る青エージェント
赤フラグが赤チーム陣地に
再び自動返却されるタイミング
を待つ青エージェント
赤エージェント
Human-level performance in 3D multiplayer games with population-based
reinforcement learning Max Jaderberg et al.
Science 31 May 2019: Vol. 364, Issue 6443, pp. 859-865 DOI: 10.1126/science.aau6249
OpenAI「HIDE AND SEEK」 による学習
(2019年)
年 企業 テーマ Open
2003 Microsoft 「Teo Feng」における強化学習
2005 Microsoft 「Forzamotor Sports」における強化学習
2013 DeepMind AtariのゲームをDQNで学習
2015 DeepMind 囲碁 AlphaGO
2017 AnyLogic 倉庫・機械などモデルのシミュレーション
Microsoft 「パックマン」多報酬学習
Hybrid Reward Architecture for Reinforcement Learning
2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
DeepMind 「Capture the flag」によるディープラーニング学習
Microsoft 「AirSim」ドローンシミュレーター 〇
Nvidia 「ドライビングシミュレーター」
Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
facebook 「CraftAssist」マインクラフト内で会話研究 〇
CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
DeepMind 「StarCraft2」AlphaStar 〇
DeepMind 「Capture the Flag」QuakeIII エンジン 〇
2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇
「かくれんぼ」によってマルチエージェ
ントを学習させる
• オブジェクトがあって、動かしたり固
定したりできる。
• オブジェクトは直方体、傾斜台、長い
板がある。
• 一度固定したオブジェトは動かせない
• エージェントは次第にオブジェクトを
利用してかくれんぼをするようになる
• 6種類の戦術を順番に発見・学習して
いく
https://openai.com/blog/emergent-tool-use/
Emergent Tool Use From Multi-Agent Autocurricula (2019)
Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, Igor Mordatch
https://arxiv.org/abs/1909.07528
https://www.youtube.com/watch?v=kopoLzvh5jY
Emergent Tool Use From Multi-Agent Autocurricula (2019)
Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, Igor Mordatch
https://arxiv.org/abs/1909.07528
自分の座標
周囲の状況
(LIDARによる)
他のエージェ
ントの座標
ボックスの
座標、速度
傾斜台の
座標、速度
全結合
全結合
全結合
自分
コンボリューション
円方位ID 全結合
エージェント
埋め込みベクトル
ボックス
ボックス
マスクされた平均プーリング
エンティティ間のアテンション
マスクされた要素
(壁などで見えない)
LSTM
移動
アクション
つかむ
アクション
ロック
アクション
自分
エージェント ボックス
傾斜台
メモリーステート
Project PAIDIA
• マイクロソフトは、「ゲームインテリジェンスグループ」
• https://www.microsoft.com/en-us/research/theme/game-intelligence/
• を設置して30人程の研究者でゲームAIの研究をしています。
• https://www.microsoft.com/en-us/research/project/project-paidia/#!people
• これまでは、チェスや囲碁、そして最近ではマインクラフトを題材にしてエージェン
トの知能を作る「Project Malmo」などを推進してきましたが、
• GDC2020で「プロジェクト PAIDIA」を発表しました。
• https://innovation.microsoft.com/en-us/exploring-project-paidia
• これは、Ninja Theory 社と一緒にアクションゲームでプレイヤーと強調するキャラ
クターの知能を作るプロジェクトです。
• 3つの研究を柱として(かなり専門的ですが)推進しています。
• https://www.microsoft.com/en-us/research/blog/three-new-reinforcement-
learning-methods-aim-to-improve-ai-in-gaming-and-beyond/
不確定な状況下での意思決定
• https://www.microsoft.com/en-us/research/publication/conservative-
uncertainty-estimation-by-fitting-prior-networks/
リアルタイムで蓄積される記憶の整備
• https://www.microsoft.com/en-us/research/publication/amrl-aggregated-
memory-for-reinforcement-learning/
不確定な状況下での強化学習
• https://www.microsoft.com/en-us/research/publication/varibad-a-very-
good-method-for-bayes-adaptive-deep-rl-via-meta-learning/
Project PAIDIA
年 企業 テーマ 開発環境公開
2003 Microsoft 「Teo Feng」における強化学習
2005 Microsoft 「Forzamotor Sports」における強化学習
2013 DeepMind AtariのゲームをDQNで学習 〇
2015 DeepMind 囲碁 AlphaGO
2017 AnyLogic 倉庫・機械などモデルのシミュレーション
Microsoft 「パックマン」多報酬学習
Hybrid Reward Architecture for Reinforcement Learning
〇
2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
DeepMind 「Capture the flag」によるディープラーニング学習 〇
Microsoft 「AirSim」ドローンシミュレーター 〇
Nvidia 「ドライビングシミュレーター」
Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
facebook 「CraftAssist」マインクラフト内で会話研究 〇
CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
DeepMind 「StarCraft2」AlphaStar 〇
DeepMind 「Capture the Flag」QuakeIII エンジン 〇
2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

More Related Content

クラシックゲームを用いたディープラーニングの近年の発展