SIer/データサイエンティストを目指す修士blog

勉強したことを徒然とぼやきます

A3Cを勉強したときに参考にしたもの

基本的にQ-learningによる強化学習しか勉強してませんでしたが, Actor-Criticはやっておかなきゃなあ…ということで, A3Cを勉強した時の資料を置いておきます.

元論文

正直読みにくかった.Gorilaの前提知識がない人は厳しいかも. https://arxiv.org/pdf/1602.01783.pdf

サイト

そもそもActor-Criticってなんでいいんだっけ?って思ったので, それを調べるために見ました. これからの強化学習で方策勾配をやった人ならわかるはず. qiita.com

スライド

A3Cとそれに必要なアーキテクチャをまとめた感じのスライド.このスライドはすごすぎる.論文とにらめっこしながら読んだらなんとか理解できた気がします.本当に感謝です…

www.slideshare.net

上のスライドとは違って, Loss関数などをまとめて, さらにchainerによる実装までしているスライド.アーキテクチャさえわかればサクッと読める感じ.

www.slideshare.net

On-Policyな手法をちょっと眺めたくてこのスライドを見ていました. https://www.slideshare.net/DeepLearningJP2016/dlintroduction-of-reinforcement-learning

DRLのまとめスライド.補助程度に読みました.この元論文も読まなきゃなぁと… http://icml.cc/2016/tutorials/deep_rl_tutorial.pdf

上4つさえ見ればA3Cを理解できそうな気がします.ただ, A3C FFとかA3C LSTMって具体的にどう組むんだろう…という疑問は残っていますね… とりあえず夏休みの間にActor-Criticはpytorchで組んでみます.