A3Cを勉強したときに参考にしたもの
基本的にQ-learningによる強化学習しか勉強してませんでしたが, Actor-Criticはやっておかなきゃなあ…ということで, A3Cを勉強した時の資料を置いておきます.
元論文
正直読みにくかった.Gorilaの前提知識がない人は厳しいかも. https://arxiv.org/pdf/1602.01783.pdf
サイト
そもそもActor-Criticってなんでいいんだっけ?って思ったので, それを調べるために見ました. これからの強化学習で方策勾配をやった人ならわかるはず. qiita.com
スライド
A3Cとそれに必要なアーキテクチャをまとめた感じのスライド.このスライドはすごすぎる.論文とにらめっこしながら読んだらなんとか理解できた気がします.本当に感謝です…
www.slideshare.net上のスライドとは違って, Loss関数などをまとめて, さらにchainerによる実装までしているスライド.アーキテクチャさえわかればサクッと読める感じ.
www.slideshare.netOn-Policyな手法をちょっと眺めたくてこのスライドを見ていました. https://www.slideshare.net/DeepLearningJP2016/dlintroduction-of-reinforcement-learning
DRLのまとめスライド.補助程度に読みました.この元論文も読まなきゃなぁと… http://icml.cc/2016/tutorials/deep_rl_tutorial.pdf
上4つさえ見ればA3Cを理解できそうな気がします.ただ, A3C FFとかA3C LSTMって具体的にどう組むんだろう…という疑問は残っていますね… とりあえず夏休みの間にActor-Criticはpytorchで組んでみます.
夏休みでやりたいこと
技術系のブログとして最低限1週間に1回は更新したいと思っているけど難しいなぁ…と思いながら.
夏休みの目標として, とりあえず大学の図書館でいろんな本を借りることに.
統計学基礎編
やっぱりこの3冊は欠かせないかなって. 統計の基礎をしっかりと磨きたい.
- 作者: 東京大学教養学部統計学教室
- 出版社/メーカー: 東京大学出版会
- 発売日: 1991/07/09
- メディア: 単行本
- 購入: 158人 クリック: 3,604回
- この商品を含むブログ (83件) を見る
- 作者: 東京大学教養学部統計学教室
- 出版社/メーカー: 東京大学出版会
- 発売日: 1992/08/01
- メディア: 単行本
- 購入: 26人 クリック: 308回
- この商品を含むブログ (21件) を見る
- 作者: 東京大学教養学部統計学教室
- 出版社/メーカー: 東京大学出版会
- 発売日: 1994/07/01
- メディア: 単行本
- 購入: 4人 クリック: 32回
- この商品を含むブログ (14件) を見る
ベイズ基礎編
ベイズがまだよくわかってないからこれ読みたいなと. これは東工大の友人(どちらかといえばベイジアン)のおすすめ.
- 作者: 渡辺澄夫
- 出版社/メーカー: コロナ社
- 発売日: 2012/03/01
- メディア: 単行本
- 購入: 1人 クリック: 4回
- この商品を含むブログ (6件) を見る
データサイエンティストの常識(?)
これがいいらしい. よくわからんけど. 読み物な気がするし暇なときに読んでブログに書けたらなって.
改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)
- 作者: 佐藤洋行,原田博植,里洋平,和田計也,早川敦士,倉橋一成,下田倫大,大成弘子,奥野晃裕,中川帝人,長岡裕己,中原誠
- 出版社/メーカー: 技術評論社
- 発売日: 2016/08/25
- メディア: 大型本
- この商品を含むブログ (2件) を見る
データサイエンティスト養成読本 登竜門編 (Software Design plus)
- 作者: 高橋淳一,野村嗣,西村隆宏,水上ひろき,林田賢二,森清貴,越水直人,露崎博之,早川敦士,牧允皓,黒柳敬一
- 出版社/メーカー: 技術評論社
- 発売日: 2017/03/25
- メディア: 大型本
- この商品を含むブログを見る
データサイエンティスト養成読本 機械学習入門編 (Software Design plus)
- 作者: 比戸将平,馬場雪乃,里洋平,戸嶋龍哉,得居誠也,福島真太朗,加藤公一,関喜史,阿部厳,熊崎宏樹
- 出版社/メーカー: 技術評論社
- 発売日: 2015/09/10
- メディア: 大型本
- この商品を含むブログ (7件) を見る
研究関連の本
本として読まなきゃなって思ってるのはモンテカルロ木探索なので, 以下の本を読もうと思う. 論文は勉強したもの置き場のほうに随時更新しています yamakura.hatenablog.com
- 作者: 美添一樹,山下宏,松原仁
- 出版社/メーカー: 共立出版
- 発売日: 2012/11/10
- メディア: 単行本
- クリック: 7回
- この商品を含むブログ (8件) を見る
最強囲碁AI アルファ碁 解体新書 深層学習、モンテカルロ木探索、強化学習から見たその仕組み
- 作者: 大槻知史,三宅陽一郎
- 出版社/メーカー: 翔泳社
- 発売日: 2017/07/19
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (3件) を見る
プログラミング
まずはPRMLをコーディングできるようにするために, 参考資料としてこれを使いたい.
Python機械学習プログラミング 達人データサイエンティストによる理論と実践 (impress top gear)
- 作者: Sebastian Raschka,株式会社クイープ,福島真太朗
- 出版社/メーカー: インプレス
- 発売日: 2016/06/30
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (4件) を見る
あとは統計として, 本当はpythonを使いたいのだけれども, Rで学ぶデータサイエンスシリーズが優秀すぎると感じたのでこちらを選択.
- 作者: 姜興起,金明哲
- 出版社/メーカー: 共立出版
- 発売日: 2010/07/24
- メディア: 単行本
- 購入: 5人 クリック: 34回
- この商品を含むブログ (8件) を見る
その他
MCMCとか時系列解析とかも予約しちゃったけど, 読み切れる自信がない…
データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
- 作者: 久保拓弥
- 出版社/メーカー: 岩波書店
- 発売日: 2012/05/19
- メディア: 単行本
- 購入: 16人 クリック: 163回
- この商品を含むブログ (29件) を見る
StanとRでベイズ統計モデリング (Wonderful R)
- 作者: 松浦健太郎,石田基広
- 出版社/メーカー: 共立出版
- 発売日: 2016/10/25
- メディア: 単行本
- この商品を含むブログ (8件) を見る
優先度としては, 研究 > 統計基礎 > ベイズ > プログラミング で, 疲れたら合間にデータサイエンティスト読本かなぁと. 詰め込みすぎな気もしなくはないが, 目標はそこそこ高めってことで… まぁ今週は期末レポートと勉強会の発表スライドに追われているのであまり読めなさそうですが…
勉強したもの置き場
強化学習
研究のメインが強化学習. 制御寄りの研究室ということもあり, 強化学習で制御する, って考え方が好き.
初学
強化学習 “Reinforcement Learning : An Introduction"の邦訳. 深層学習以前の強化学習の基礎がすべて詰まっている.
これからの強化学習 1章は初学者向き, 2章以降は研究者向き?比較的新しい内容. この本だけで強化学習の理解は無理だと思う(笑)
動的計画法
- Formal Synthesis of Control Strategies for Dynamical Systems
- Optimal Control of Markov Decision Processes With Linear Temporal Logic Constraints
- An Approximate Dynamic Programming Approach to Multi-Agent Persistent Monitoring in Stochastic Environments with Temporal Logic Constraints
スーパバイザ制御 + 強化学習
- 強化学習を用いた離散事象システムのスーパバイザ制御
- 言語測度を用いた離散事象システムのスーパバイザ制御
- 強化学習に基づく分散離散事象システムの最適スーパバイザ制御
- Decentralized Supervisory Control of Discrete Event Systems Based on Reinforcement Learning
Temporal Logic + 強化学習
- A Learning Based Approach to Control Synthesis of Markov Decision Processes for Linear Temporal Logic Specifications
- Robust Satisfaction of Temporal Logic Specifications via Reinforcement Learning
- Q-Learning for Robust Satisfaction of Signal Temporal Logic Specifications
- A Hierarchical Reinforcement Learning Method for Persistent Time-Sensitive Tasks
DQN
- Human-level control through deep reinforcementlearning
- Playing Atari with Deep Reinforcement Learning
- Deep Reinforcement Learning with Double Q-learning 参考:Double DQN
CNN + 強化学習
RNN + 強化学習
階層的強化学習
- Hierarchical Deep Reinforcement Learning:Integrating Temporal Abstraction and Intrinsic Motivation
- FeUdal Networks for Hierarchical Reinforcement Learning
A3C
マルチエージェント
- A comprehensive survey of multiagent reinforcement learning
読む予定
- DeepDriving: Learning Affordance for Direct Perception in Autonomous Driving
- End to End Learning for Self-Driving Cars
- Deep Reinforcement Learning for Simulated Autonomous Vehicle Control
- Deep Reinforcement Learning framework for Autonomous Driving
- A Hierarchical Reinforcement Learning Method for Persistent Time-Sensitive Tasks
- Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments
- Safe, Multi-Agent, Reinforcement Learning for Autonomous Driving
- Counterfactual Multi-Agent Policy Gradients
- Enhanced Experience Replay Generation for Efficient Reinforcement Learning
- Efficient Parallel Methods for Deep Reinforcement Learning
- Deep Reinforcement Learning: An Overview
深層学習
強化学習 + 深層学習という感じで, ツールとして使いたいので多少勉強している.
- 深層学習は以下の2冊をやったけど, これ以上は論文読んで実装したほうが勉強になる気がしている.
- まだLSTM, RNNとGANはよくわかってない
統計的学習手法
参加している勉強会の中心がこの分野なので, こっちも結構やってる.
勉強中
- 機械学習といえばコレってことでやってるけど難しい. 実装できる気がしない.
勉強したいもの
統計学の基本を以下4冊で勉強したい. 統計検定準1級か1級を目標に.
統計を実際にコーディングするならこの本のシリーズかなあ.
統計モデリングもやらなきゃなあと.
時系列解析も少し触れたい.
ベイズをやるときにこれがおすすめらしいおすすめらしい.
まだ(勉強会で)手を出していないが手を出す予定のもの
- 数理計画法
- 異常検知
プログラミング/ツール
- 言語
- python
- R
- pyTorch
- TensorBoard(TensorFlow)
- アプリケーション
- Docker
- Git