将棋AIでは、教師(教師局面)を生成して、そこから評価関数パラメーターの学習を行っている。AlphaZeroなんかもそうしている。 教師は、実際に対局して生成する。ところが、この対局は、1手指すごとに何千とか何万とかの局面を探索しないといけない。Deep Learning(以下DLと略す)系の将棋AIの場合、何千とか何万の局面を探索すということは、その回数だけ推論を行うということである。普通、学習は、順伝播 逆伝播で、順伝播のコストをCとすると、逆伝播は2Cぐらい、つまり合計で3Cぐらいの計算コストを要するのだが、推論(これは順伝播)はCだから、要するに学習は3倍のコストを要する。ところが、教師生成時に1手指すのに仮に1万局面探索するとしたら、10000Cかかるわけで、これは学習コスト(3C)の3333倍である。 というように、教師生成のコストは学習時のコストとは比較にならないほどのコスト