- バックアップ一覧
- 差分 を表示
- 現在との差分 を表示
- ソース を表示
- 強化学習/強化学習 へ行く。
- 1 (2023-12-20 (水) 09:16:44)
- 2 (2023-12-20 (水) 09:27:53)
- 3 (2023-12-21 (木) 11:17:40)
強化学習の勉強を始める人のためのメモ
教科書 †
- Sutton R and Barto A (2022). 強化学習, 第2版. 奥村, 鈴木, 松尾 他監訳, 今井, 川尻, 菊池 他訳. 森北出版. 978-4-627-82662-5
- バイブル的教科書の第2版
- 英語版はここで無料で読める。
- 森村 哲郎 (2019). 強化学習. 講談社サイエンティフィック. 978-4-06-515591-2
- 講談社サイエンティフィックの機械学習プロフェッショナルシリーズ>の1冊として書かれた本
- 講談社サイエンティフィックの機械学習プロフェッショナルシリーズ>の1冊として書かれた本
解説 †
- 森村 哲郎 (2022). 強化学習一般. 人工知能 37(4):455–463. doi: 10.11517/jjsai.37.4_455
- 池本 隼也, 潮 俊光 (2019). 深層ニューラルネットワークを利用した強化学習の制御への応用. 日本神経回路学会誌 26(4):135–144. doi: 10.3902/jnns.26.135
- 深層強化学習の解説
- 計測と制御 リレー解説
- 木村 元 (2013). 強化学習の基礎. 計測と制御 52(1):72–77. doi: 10.11499/sicejl.52.72
- 牧野 貴樹 (2013). 探索と利用のトレードオフとベイズ環境モデル. 計測と制御 52(2):154–161. doi: 10.11499/sicejl.52.154
- 植野 剛, 前田 新一, 川鍋 一晃 (2013). 統計学習の観点から見たTD学習. 計測と制御 52(3):277–283. doi: 10.11499/sicejl.52.277
- 澁谷 長史 (2013). 部分観測マルコフ決定過程と強化学習. 計測と制御 52(4):374–380. doi: 10.11499/sicejl.52.374
- 浅田 稔 (2021). ロボティクスと強化学習. 日本ロボット学会誌 39(7):575–580. doi: 10.7210/jrsj.39.575
- 強化学習のロボット制御への応用に関する解説
- 福井 啓, 河本 献太 (2021). ロボット移動技術と強化学習. 日本ロボット学会誌 39(7):605–608. doi:10.7210/jrsj.39.605
- 強化学習の移動ロボットへの応用に関する解説
コード †
- Gymnasium
- 強化学習の環境
- OpenAI Gymの後継プロジェクト
- Stable-Baselines3
- Gymnasium用深層強化学習アルゴリズム
- TensorFlowで書かれていたStable-BaselinesをPyTorchで書き直したもの
- 私がColaboratoryで書いたサンプル・コード