Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

タグ

2022年7月15日のブックマーク (2件)

  • 強化学習:再帰処理と反復処理 - 他力本願で生き抜く(本気)

    前回、状態価値関数を定式化し、決まった方策のもとベストな行動を学習することができました.おそらくこのベストな行動を次の方策としていけば、最適な方策が見つかりそうな気がします. ですが、実装してみると分かりますが、非常に計算時間が遅いです.誇張じゃなく、考慮する未来を3ステップ増やすだけで、お昼ご飯べてお茶できるくらい時間が増えたりします. これは私の学習ノートです.詳しく知りたい方は、以下の記事を呼んでください. qiita.com 再帰処理と反復処理 先に結論から言うと、再帰処理と反復処理では、反復処理が圧倒的に計算時間が短くなります.圧倒的です. いきなり再帰処理、反復処理と言ってもよくわからないと思いますので順番に見ていきます. 再帰処理 再帰処理は、これまで枝分かれのダイアグラムで説明してきた計算方法です. 図を省略するため、ある行動を選択した後の遷移確率は確定的(確率1でその行

    強化学習:再帰処理と反復処理 - 他力本願で生き抜く(本気)
  • 【強化学習】Bellman方程式の導出 - ギャラクシースーパーはてなブログ

    はじめに モチベーション Bellman方程式ってなに Bellman方程式の導出の流れ 参考書籍 メイン サブ 計算ルール(確率,期待値の基) 周辺化 基 例 同時確率と条件付き確率の関係(乗法定理) 基 例 条件付き期待値 基1 基2 例 題 登場人物(強化学習に出てくる基概念) 遷移確率 利得(累積報酬) 即時報酬の期待値 価値関数 状態価値関数 行動価値関数 との関係 ようやくBellman方程式へ 状態価値関数についてのBellman方程式 行動価値関数についてのBellman方程式 Suttonとの比較 はじめに Qrunchに投稿した記事に少し追記したものです.というのも,現状Qrunchだと外部からの検索で上手く引っかからないよう(つまりGoogle検索で出てこない).QrunchはQrunchコミュニティ内での気軽な技術系情報共有を目的にしているところがコ