DeepZenGoは「昨年のAlphaGoと同等以上」、趙治勲名誉名人と対戦へ

日経コンピュータ

2016.11.09

　ドワンゴは2016年11月9日、囲碁AIソフト「DeepZenGo」と趙治勲（ちょう・ちくん）名誉名人による互先（ハンデなし）の3番勝負を実施すると発表した。「第2回囲碁電王戦」として2016年11月19日、20日、23日に開催し、ニコニコ生放送で放映する。趙氏は「（互先での囲碁AIとの対戦は）怖いが、楽しみの方が怖さに勝る」として、DeepZenGoとの勝負に意欲を示した。

写真●Zen開発チーム代表の加藤英樹氏（左）と趙治勲名誉名人（右）

[画像のクリックで拡大表示]

　DeepZenGoは、日本発で世界トップクラスとなる囲碁AIの開発を目指す「DeepZenGoプロジェクト」として、2016年3月から開発を進めていたもの。プログラマーの尾島陽児氏が開発した囲碁ソフト「Zen」をベースに、米グーグルのDeepMindが開発した「AlphaGo」を参考にしながら最新のディープラーニング（多層ニューラルネットによる機械学習）技術を取り入れた。

　開発は尾島氏とZen開発チーム代表の加藤英樹氏が担い、ドワンゴが学習用のGPUプールを提供、東京大学工学系研究科松尾豊准教授の研究室がディープラーニングの理論面でサポートした。

　AlphaGoは、過去の棋譜を学習して次の打ち手を判断するニューラルネット「PolicyNet」、盤面の有利・不利を評価するニューラルネット「ValueNet」、ある打ち手から終局までランダムに打って有利・不利を判別する「モンテカルロ木探索」を組み合わせ、最善の打ち手を導く。

　DeepZenGoは、こうしたAlphaGoの基本的な枠組みを踏襲しつつ、ニューラルネットの構造に最新の知見を取り入れたほか、モンテカルロ木探索はZenの開発で培った探索ノウハウを生かしているという。

　AlphaGoはValueNetに大量の棋譜を学ばせるため、2015年10月時点で3000万局の自己対局を行ったとされる。DeepZenGoは「学習させた対局の数はAlphaGoより少ないが、質の高い対局を学ばせるアプローチで補った」（東京大学工学系研究科松尾研究室研究員の関根正之氏）。

　この結果、対戦成績に基づく実力の指標となるElo ratingsのスコアは、プロジェクト開始当初は2400だったのが、バージョン12.4時点では3000にまで高まった。2015年10月に英Natureに論文が載った当時のAlphaGoの実力と同等かそれ以上に相当するという。