2017-07-25

A3Cを勉強したときに参考にしたもの

基本的にQ-learningによる強化学習しか勉強してませんでしたが, Actor-Criticはやっておかなきゃなあ…ということで, A3Cを勉強した時の資料を置いておきます.

元論文

正直読みにくかった.Gorilaの前提知識がない人は厳しいかも. https://arxiv.org/pdf/1602.01783.pdf

サイト

そもそもActor-Criticってなんでいいんだっけ？って思ったので, それを調べるために見ました. これからの強化学習で方策勾配をやった人ならわかるはず. qiita.com

スライド

A3Cとそれに必要なアーキテクチャをまとめた感じのスライド.このスライドはすごすぎる.論文とにらめっこしながら読んだらなんとか理解できた気がします.本当に感謝です…

Introduction to A3C model from 孝充大政

www.slideshare.net

上のスライドとは違って, Loss関数などをまとめて, さらにchainerによる実装までしているスライド.アーキテクチャさえわかればサクッと読める感じ.

A3Cという強化学習アルゴリズムで遊んでみた話 from mooopan

www.slideshare.net

On-Policyな手法をちょっと眺めたくてこのスライドを見ていました. https://www.slideshare.net/DeepLearningJP2016/dlintroduction-of-reinforcement-learning

DRLのまとめスライド.補助程度に読みました.この元論文も読まなきゃなぁと… http://icml.cc/2016/tutorials/deep_rl_tutorial.pdf

上4つさえ見ればA3Cを理解できそうな気がします.ただ, A3C FFとかA3C LSTMって具体的にどう組むんだろう…という疑問は残っていますね… とりあえず夏休みの間にActor-Criticはpytorchで組んでみます.

2017-07-22

夏休みでやりたいこと

技術系のブログとして最低限1週間に1回は更新したいと思っているけど難しいなぁ…と思いながら.

夏休みの目標として, とりあえず大学の図書館でいろんな本を借りることに.

統計学基礎編

やっぱりこの3冊は欠かせないかなって. 統計の基礎をしっかりと磨きたい.

統計学入門 (基礎統計学?)

作者: 東京大学教養学部統計学教室
出版社/メーカー: 東京大学出版会
発売日: 1991/07/09
メディア: 単行本
購入: 158人クリック: 3,604回
この商品を含むブログ (83件) を見る

自然科学の統計学 (基礎統計学)

作者: 東京大学教養学部統計学教室
出版社/メーカー: 東京大学出版会
発売日: 1992/08/01
メディア: 単行本
購入: 26人クリック: 308回
この商品を含むブログ (21件) を見る

人文・社会科学の統計学 (基礎統計学)

作者: 東京大学教養学部統計学教室
出版社/メーカー: 東京大学出版会
発売日: 1994/07/01
メディア: 単行本
購入: 4人クリック: 32回
この商品を含むブログ (14件) を見る

ベイズ基礎編

ベイズがまだよくわかってないからこれ読みたいなと. これは東工大の友人(どちらかといえばベイジアン)のおすすめ.

ベイズ統計の理論と方法

作者: 渡辺澄夫
出版社/メーカー: コロナ社
発売日: 2012/03/01
メディア: 単行本
購入: 1人クリック: 4回
この商品を含むブログ (6件) を見る

データサイエンティストの常識(?)

これがいいらしい. よくわからんけど. 読み物な気がするし暇なときに読んでブログに書けたらなって.

改訂2版データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

作者: 佐藤洋行,原田博植,里洋平,和田計也,早川敦士,倉橋一成,下田倫大,大成弘子,奥野晃裕,中川帝人,長岡裕己,中原誠
出版社/メーカー: 技術評論社
発売日: 2016/08/25
メディア: 大型本
この商品を含むブログ (2件) を見る

データサイエンティスト養成読本登竜門編 (Software Design plus)

作者: 高橋淳一,野村嗣,西村隆宏,水上ひろき,林田賢二,森清貴,越水直人,露崎博之,早川敦士,牧允皓,黒柳敬一
出版社/メーカー: 技術評論社
発売日: 2017/03/25
メディア: 大型本
この商品を含むブログを見る

データサイエンティスト養成読本機械学習入門編 (Software Design plus)

作者: 比戸将平,馬場雪乃,里洋平,戸嶋龍哉,得居誠也,福島真太朗,加藤公一,関喜史,阿部厳,熊崎宏樹
出版社/メーカー: 技術評論社
発売日: 2015/09/10
メディア: 大型本
この商品を含むブログ (7件) を見る

研究関連の本

本として読まなきゃなって思ってるのはモンテカルロ木探索なので, 以下の本を読もうと思う. 論文は勉強したもの置き場のほうに随時更新しています yamakura.hatenablog.com

コンピュータ囲碁 ―モンテカルロ法の理論と実践―

作者: 美添一樹,山下宏,松原仁
出版社/メーカー: 共立出版
発売日: 2012/11/10
メディア: 単行本
クリック: 7回
この商品を含むブログ (8件) を見る

最強囲碁AI アルファ碁解体新書深層学習、モンテカルロ木探索、強化学習から見たその仕組み

作者: 大槻知史,三宅陽一郎
出版社/メーカー: 翔泳社
発売日: 2017/07/19
メディア: 単行本（ソフトカバー）
この商品を含むブログ (3件) を見る

プログラミング

まずはPRMLをコーディングできるようにするために, 参考資料としてこれを使いたい.

Python機械学習プログラミング達人データサイエンティストによる理論と実践 (impress top gear)

作者: Sebastian Raschka,株式会社クイープ,福島真太朗
出版社/メーカー: インプレス
発売日: 2016/06/30
メディア: 単行本（ソフトカバー）
この商品を含むブログ (4件) を見る

あとは統計として, 本当はpythonを使いたいのだけれども, Rで学ぶデータサイエンスシリーズが優秀すぎると感じたのでこちらを選択.

ベイズ統計データ解析 (Rで学ぶデータサイエンス 3)

作者: 姜興起,金明哲
出版社/メーカー: 共立出版
発売日: 2010/07/24
メディア: 単行本
購入: 5人クリック: 34回
この商品を含むブログ (8件) を見る

その他

MCMCとか時系列解析とかも予約しちゃったけど, 読み切れる自信がない…

データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)

作者: 久保拓弥
出版社/メーカー: 岩波書店
発売日: 2012/05/19
メディア: 単行本
購入: 16人クリック: 163回
この商品を含むブログ (29件) を見る

StanとRでベイズ統計モデリング (Wonderful R)

作者: 松浦健太郎,石田基広
出版社/メーカー: 共立出版
発売日: 2016/10/25
メディア: 単行本
この商品を含むブログ (8件) を見る

優先度としては, 研究 > 統計基礎 > ベイズ > プログラミングで, 疲れたら合間にデータサイエンティスト読本かなぁと. 詰め込みすぎな気もしなくはないが, 目標はそこそこ高めってことで… まぁ今週は期末レポートと勉強会の発表スライドに追われているのであまり読めなさそうですが…

2017-07-16

勉強したもの置き場

勉強したものまとめ

強化学習

研究のメインが強化学習. 制御寄りの研究室ということもあり, 強化学習で制御する, って考え方が好き.

初学

強化学習 “Reinforcement Learning : An Introduction"の邦訳. 深層学習以前の強化学習の基礎がすべて詰まっている.
これからの強化学習 1章は初学者向き, 2章以降は研究者向き？比較的新しい内容. この本だけで強化学習の理解は無理だと思う(笑)

動的計画法

Formal Synthesis of Control Strategies for Dynamical Systems
Optimal Control of Markov Decision Processes With Linear Temporal Logic Constraints
An Approximate Dynamic Programming Approach to Multi-Agent Persistent Monitoring in Stochastic Environments with Temporal Logic Constraints

スーパバイザ制御 + 強化学習

強化学習を用いた離散事象システムのスーパバイザ制御
言語測度を用いた離散事象システムのスーパバイザ制御
強化学習に基づく分散離散事象システムの最適スーパバイザ制御
Decentralized Supervisory Control of Discrete Event Systems Based on Reinforcement Learning

Temporal Logic + 強化学習

DQN

CNN + 強化学習

Value Iteration Networks

RNN + 強化学習

Deep Recurrent Q-Learning for Partially Observable MDPs

階層的強化学習

A3C

Asynchronous Methods for Deep Reinforcement Learning

マルチエージェント

A comprehensive survey of multiagent reinforcement learning

読む予定

深層学習

強化学習 + 深層学習という感じで, ツールとして使いたいので多少勉強している.

深層学習は以下の2冊をやったけど, これ以上は論文読んで実装したほうが勉強になる気がしている.
- 深層学習 (機械学習プロフェッショナルシリーズ)
- ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装
まだLSTM, RNNとGANはよくわかってない

統計的学習手法

参加している勉強会の中心がこの分野なので, こっちも結構やってる.

勉強中

機械学習といえばコレってことでやってるけど難しい. 実装できる気がしない.
- パターン認識と機械学習上
- パターン認識と機械学習下

勉強したいもの

統計学の基本を以下4冊で勉強したい. 統計検定準1級か1級を目標に.
統計を実際にコーディングするならこの本のシリーズかなあ.
統計モデリングもやらなきゃなあと.
- データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
- StanとRでベイズ統計モデリング (Wonderful R)
時系列解析も少し触れたい.
- 経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)
ベイズをやるときにこれがおすすめらしいおすすめらしい.
- ベイズ統計の理論と方法

まだ(勉強会で)手を出していないが手を出す予定のもの

数理計画法
異常検知

プログラミング/ツール

言語
- python
- R
- pyTorch
- TensorBoard(TensorFlow)
アプリケーション
- Docker
- Git

SIer/データサイエンティストを目指す修士blog

勉強したことを徒然とぼやきます