ドワンゴは2016年11月9日、囲碁AIソフト「DeepZenGo」と趙治勲(ちょう・ちくん)名誉名人による互先(ハンデなし)の3番勝負を実施すると発表した。「第2回囲碁電王戦」として2016年11月19日、20日、23日に開催し、ニコニコ生放送で放映する。趙氏は「(互先での囲碁AIとの対戦は)怖いが、楽しみの方が怖さに勝る」として、DeepZenGoとの勝負に意欲を示した。
DeepZenGoは、日本発で世界トップクラスとなる囲碁AIの開発を目指す「DeepZenGoプロジェクト」として、2016年3月から開発を進めていたもの。プログラマーの尾島陽児氏が開発した囲碁ソフト「Zen」をベースに、米グーグルのDeepMindが開発した「AlphaGo」を参考にしながら最新のディープラーニング(多層ニューラルネットによる機械学習)技術を取り入れた。
開発は尾島氏とZen開発チーム代表の加藤英樹氏が担い、ドワンゴが学習用のGPUプールを提供、東京大学 工学系研究科 松尾豊准教授の研究室がディープラーニングの理論面でサポートした。
AlphaGoは、過去の棋譜を学習して次の打ち手を判断するニューラルネット「PolicyNet」、盤面の有利・不利を評価するニューラルネット「ValueNet」、ある打ち手から終局までランダムに打って有利・不利を判別する「モンテカルロ木探索」を組み合わせ、最善の打ち手を導く。
DeepZenGoは、こうしたAlphaGoの基本的な枠組みを踏襲しつつ、ニューラルネットの構造に最新の知見を取り入れたほか、モンテカルロ木探索はZenの開発で培った探索ノウハウを生かしているという。
AlphaGoはValueNetに大量の棋譜を学ばせるため、2015年10月時点で3000万局の自己対局を行ったとされる。DeepZenGoは「学習させた対局の数はAlphaGoより少ないが、質の高い対局を学ばせるアプローチで補った」(東京大学 工学系研究科 松尾研究室 研究員の関根正之氏)。
この結果、対戦成績に基づく実力の指標となるElo ratingsのスコアは、プロジェクト開始当初は2400だったのが、バージョン12.4時点では3000にまで高まった。2015年10月に英Natureに論文が載った当時のAlphaGoの実力と同等かそれ以上に相当するという。
2016年3月にイ・セドル氏を打ち破った時点のAlphaGoや、現在の世界トップ棋士のスコアは3600前後と言われている。現在のDeepZenGoのバージョンは12.7で、以前のバージョン12.4より実力はさらに高まっており「趙氏といい勝負ができるのでは、と考えている」(加藤氏)。
この成果を基に、プロジェクトは「互先でプロ棋士と対決する資格が得られた」と判断。世界的な知名度がある棋士として、趙治勲氏に対局を申し入れた。
対戦は日本ルールに基づき、事前のソフト貸し出しは無し。DeepZenGoは、米エヌビディアのGPUボード「GeForce GTX TITAN X」4枚を搭載したPCサーバー1台で趙氏に挑む。