SIer/データサイエンティストを目指す修士blog

勉強したことを徒然とぼやきます

A3Cを勉強したときに参考にしたもの

基本的にQ-learningによる強化学習しか勉強してませんでしたが, Actor-Criticはやっておかなきゃなあ…ということで, A3Cを勉強した時の資料を置いておきます.

元論文

正直読みにくかった.Gorilaの前提知識がない人は厳しいかも. https://arxiv.org/pdf/1602.01783.pdf

サイト

そもそもActor-Criticってなんでいいんだっけ?って思ったので, それを調べるために見ました. これからの強化学習で方策勾配をやった人ならわかるはず. qiita.com

スライド

A3Cとそれに必要なアーキテクチャをまとめた感じのスライド.このスライドはすごすぎる.論文とにらめっこしながら読んだらなんとか理解できた気がします.本当に感謝です…

www.slideshare.net

上のスライドとは違って, Loss関数などをまとめて, さらにchainerによる実装までしているスライド.アーキテクチャさえわかればサクッと読める感じ.

www.slideshare.net

On-Policyな手法をちょっと眺めたくてこのスライドを見ていました. https://www.slideshare.net/DeepLearningJP2016/dlintroduction-of-reinforcement-learning

DRLのまとめスライド.補助程度に読みました.この元論文も読まなきゃなぁと… http://icml.cc/2016/tutorials/deep_rl_tutorial.pdf

上4つさえ見ればA3Cを理解できそうな気がします.ただ, A3C FFとかA3C LSTMって具体的にどう組むんだろう…という疑問は残っていますね… とりあえず夏休みの間にActor-Criticはpytorchで組んでみます.

夏休みでやりたいこと

技術系のブログとして最低限1週間に1回は更新したいと思っているけど難しいなぁ…と思いながら.

夏休みの目標として, とりあえず大学の図書館でいろんな本を借りることに.

統計学基礎編

やっぱりこの3冊は欠かせないかなって. 統計の基礎をしっかりと磨きたい.

統計学入門 (基礎統計学?)

統計学入門 (基礎統計学?)

自然科学の統計学 (基礎統計学)

自然科学の統計学 (基礎統計学)

人文・社会科学の統計学 (基礎統計学)

人文・社会科学の統計学 (基礎統計学)

ベイズ基礎編

ベイズがまだよくわかってないからこれ読みたいなと. これは東工大の友人(どちらかといえばベイジアン)のおすすめ.

ベイズ統計の理論と方法

ベイズ統計の理論と方法

データサイエンティストの常識(?)

これがいいらしい. よくわからんけど. 読み物な気がするし暇なときに読んでブログに書けたらなって.

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

データサイエンティスト養成読本 登竜門編 (Software Design plus)

データサイエンティスト養成読本 登竜門編 (Software Design plus)

データサイエンティスト養成読本 機械学習入門編 (Software Design plus)

データサイエンティスト養成読本 機械学習入門編 (Software Design plus)

研究関連の本

本として読まなきゃなって思ってるのはモンテカルロ木探索なので, 以下の本を読もうと思う. 論文は勉強したもの置き場のほうに随時更新しています yamakura.hatenablog.com

コンピュータ囲碁 ―モンテカルロ法の理論と実践―

コンピュータ囲碁 ―モンテカルロ法の理論と実践―

最強囲碁AI アルファ碁 解体新書 深層学習、モンテカルロ木探索、強化学習から見たその仕組み

最強囲碁AI アルファ碁 解体新書 深層学習、モンテカルロ木探索、強化学習から見たその仕組み

プログラミング

まずはPRMLをコーディングできるようにするために, 参考資料としてこれを使いたい.

あとは統計として, 本当はpythonを使いたいのだけれども, Rで学ぶデータサイエンスシリーズが優秀すぎると感じたのでこちらを選択.

ベイズ統計データ解析 (Rで学ぶデータサイエンス 3)

ベイズ統計データ解析 (Rで学ぶデータサイエンス 3)

その他

MCMCとか時系列解析とかも予約しちゃったけど, 読み切れる自信がない…

StanとRでベイズ統計モデリング (Wonderful R)

StanとRでベイズ統計モデリング (Wonderful R)

優先度としては, 研究 > 統計基礎 > ベイズ > プログラミング で, 疲れたら合間にデータサイエンティスト読本かなぁと. 詰め込みすぎな気もしなくはないが, 目標はそこそこ高めってことで… まぁ今週は期末レポートと勉強会の発表スライドに追われているのであまり読めなさそうですが…

勉強したもの置き場

強化学習

研究のメインが強化学習. 制御寄りの研究室ということもあり, 強化学習で制御する, って考え方が好き.

初学
  • 強化学習Reinforcement Learning : An Introduction"の邦訳. 深層学習以前の強化学習の基礎がすべて詰まっている.

  • これからの強化学習 1章は初学者向き, 2章以降は研究者向き?比較的新しい内容. この本だけで強化学習の理解は無理だと思う(笑)

動的計画法
  • Formal Synthesis of Control Strategies for Dynamical Systems
  • Optimal Control of Markov Decision Processes With Linear Temporal Logic Constraints
  • An Approximate Dynamic Programming Approach to Multi-Agent Persistent Monitoring in Stochastic Environments with Temporal Logic Constraints
スーパバイザ制御 + 強化学習
Temporal Logic + 強化学習
DQN
CNN + 強化学習
RNN + 強化学習
階層的強化学習
A3C
マルチエージェント
読む予定

深層学習

強化学習 + 深層学習という感じで, ツールとして使いたいので多少勉強している.

統計的学習手法

参加している勉強会の中心がこの分野なので, こっちも結構やってる.

勉強中
勉強したいもの

まだ(勉強会で)手を出していないが手を出す予定のもの

  • 数理計画法
  • 異常検知

プログラミング/ツール

  • 言語
    • python
    • R
    • pyTorch
    • TensorBoard(TensorFlow)
  • アプリケーション
    • Docker
    • Git