基本的にQ-learningによる強化学習しか勉強してませんでしたが, Actor-Criticはやっておかなきゃなあ…ということで, A3Cを勉強した時の資料を置いておきます.

元論文

正直読みにくかった.Gorilaの前提知識がない人は厳しいかも. https://arxiv.org/pdf/1602.01783.pdf

サイト

そもそもActor-Criticってなんでいいんだっけ？って思ったので, それを調べるために見ました. これからの強化学習で方策勾配をやった人ならわかるはず. qiita.com

A3Cとそれに必要なアーキテクチャをまとめた感じのスライド.このスライドはすごすぎる.論文とにらめっこしながら読んだらなんとか理解できた気がします.本当に感謝です…

Introduction to A3C model from 孝充大政

www.slideshare.net

上のスライドとは違って, Loss関数などをまとめて, さらにchainerによる実装までしているスライド.アーキテクチャさえわかればサクッと読める感じ.

A3Cという強化学習アルゴリズムで遊んでみた話 from mooopan

www.slideshare.net

On-Policyな手法をちょっと眺めたくてこのスライドを見ていました. https://www.slideshare.net/DeepLearningJP2016/dlintroduction-of-reinforcement-learning

DRLのまとめスライド.補助程度に読みました.この元論文も読まなきゃなぁと… http://icml.cc/2016/tutorials/deep_rl_tutorial.pdf

上4つさえ見ればA3Cを理解できそうな気がします.ただ, A3C FFとかA3C LSTMって具体的にどう組むんだろう…という疑問は残っていますね… とりあえず夏休みの間にActor-Criticはpytorchで組んでみます.