前回、状態価値関数を定式化し、決まった方策のもとベストな行動を学習することができました.おそらくこのベストな行動を次の方策としていけば、最適な方策が見つかりそうな気がします. ですが、実装してみると分かりますが、非常に計算時間が遅いです.誇張じゃなく、考慮する未来を3ステップ増やすだけで、お昼ご飯食べてお茶できるくらい時間が増えたりします. これは私の学習ノートです.詳しく知りたい方は、以下の記事を呼んでください. qiita.com 再帰処理と反復処理 先に結論から言うと、再帰処理と反復処理では、反復処理が圧倒的に計算時間が短くなります.圧倒的です. いきなり再帰処理、反復処理と言ってもよくわからないと思いますので順番に見ていきます. 再帰処理 再帰処理は、これまで枝分かれのダイアグラムで説明してきた計算方法です. 図を省略するため、ある行動を選択した後の遷移確率は確定的(確率1でその行