強化学習の勉強を始める人のためのメモ
*教科書 [#u5da4bbd]
-[[Sutton R and Barto A (2022). ''強化学習'', 第2版. 奥村, 鈴木, 松尾 他監訳, 今井, 川尻, 菊池 他訳. 森北出版. 978-4-627-82662-5>https://www.morikita.co.jp/books/mid/082662]]
--バイブル的教科書の第2版
--英語版は[[ここ>http://incompleteideas.net/book/the-book-2nd.html]]で無料で読める。~
#html{{
<a href="https://www.amazon.co.jp/%E5%BC%B7%E5%8C%96%E5%AD%A6%E7%BF%92%EF%BC%88%E7%AC%AC2%E7%89%88%EF%BC%89-R-Sutton/dp/4627826621?__mk_ja_JP=%E3%82%AB%E3%82%BF%E3%82%AB%E3%83%8A&crid=WEO40T3WE0Y4&keywords=%E5%BC%B7%E5%8C%96%E5%AD%A6%E7%BF%92&qid=1703123772&sprefix=%E5%BC%B7%E5%8C%96%E5%AD%A6%E7%BF%92%2Caps%2C2286&sr=8-5&linkCode=li2&tag=tohgorohmatsu-22&linkId=dd5671836a3d1d054e8849eec807a489&language=ja_JP&ref_=as_li_ss_il" target="_blank"><img border="0" src="//ws-fe.amazon-adsystem.com/widgets/q?_encoding=UTF8&ASIN=4627826621&Format=_SL160_&ID=AsinImage&MarketPlace=JP&ServiceVersion=20070822&WS=1&tag=tohgorohmatsu-22&language=ja_JP" ></a><img src="https://ir-jp.amazon-adsystem.com/e/ir?t=tohgorohmatsu-22&language=ja_JP&l=li2&o=9&a=4627826621" width="1" height="1" border="0" alt="" style="border:none !important; margin:0px !important;" />
}}
-[[森村 哲郎 (2019). ''強化学習''. 講談社サイエンティフィック. 978-4-06-515591-2>https://www.kspub.co.jp/book/detail/5155912.html]]
--講談社サイエンティフィックの[[機械学習プロフェッショナルシリーズ>>https://www.kspub.co.jp/book/series/S043.html]]の1冊として書かれた本~
--講談社サイエンティフィックの[[機械学習プロフェッショナルシリーズ>https://www.kspub.co.jp/book/series/S043.html]]の1冊として書かれた本~
#html{{
<a href="https://www.amazon.co.jp/%E5%BC%B7%E5%8C%96%E5%AD%A6%E7%BF%92-%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92%E3%83%97%E3%83%AD%E3%83%95%E3%82%A7%E3%83%83%E3%82%B7%E3%83%A7%E3%83%8A%E3%83%AB%E3%82%B7%E3%83%AA%E3%83%BC%E3%82%BA-%E6%A3%AE%E6%9D%91-%E5%93%B2%E9%83%8E/dp/4065155916?__mk_ja_JP=%E3%82%AB%E3%82%BF%E3%82%AB%E3%83%8A&crid=WEO40T3WE0Y4&keywords=%E5%BC%B7%E5%8C%96%E5%AD%A6%E7%BF%92&qid=1703123772&sprefix=%E5%BC%B7%E5%8C%96%E5%AD%A6%E7%BF%92%2Caps%2C2286&sr=8-3&linkCode=li2&tag=tohgorohmatsu-22&linkId=aba75b7501696538d39957fda8cfbc2a&language=ja_JP&ref_=as_li_ss_il" target="_blank"><img border="0" src="//ws-fe.amazon-adsystem.com/widgets/q?_encoding=UTF8&ASIN=4065155916&Format=_SL160_&ID=AsinImage&MarketPlace=JP&ServiceVersion=20070822&WS=1&tag=tohgorohmatsu-22&language=ja_JP" ></a><img src="https://ir-jp.amazon-adsystem.com/e/ir?t=tohgorohmatsu-22&language=ja_JP&l=li2&o=9&a=4065155916" width="1" height="1" border="0" alt="" style="border:none !important; margin:0px !important;" />
}}
-[[牧野, 澁谷, 白川 (2016). ''これからの強化学習''. 浅田, 麻生, 荒井 他著. 森北出版. 978-4-627-88031-3>https://www.morikita.co.jp/books/mid/088031]]
--Suttonの教科書第2版が出版される前に書かれた、計測と制御(計測自動制御学会誌)のリレー連載を書籍化したもの~
#html{{
<a href="https://www.amazon.co.jp/%E3%81%93%E3%82%8C%E3%81%8B%E3%82%89%E3%81%AE%E5%BC%B7%E5%8C%96%E5%AD%A6%E7%BF%92-%E7%89%A7%E9%87%8E-%E8%B2%B4%E6%A8%B9/dp/4627880316?__mk_ja_JP=%E3%82%AB%E3%82%BF%E3%82%AB%E3%83%8A&crid=WEO40T3WE0Y4&keywords=%E5%BC%B7%E5%8C%96%E5%AD%A6%E7%BF%92&qid=1703123772&sprefix=%E5%BC%B7%E5%8C%96%E5%AD%A6%E7%BF%92%2Caps%2C2286&sr=8-17&linkCode=li2&tag=tohgorohmatsu-22&linkId=0df49f3478b96e2f25aedfd04bde4f42&language=ja_JP&ref_=as_li_ss_il" target="_blank"><img border="0" src="//ws-fe.amazon-adsystem.com/widgets/q?_encoding=UTF8&ASIN=4627880316&Format=_SL160_&ID=AsinImage&MarketPlace=JP&ServiceVersion=20070822&WS=1&tag=tohgorohmatsu-22&language=ja_JP" ></a><img src="https://ir-jp.amazon-adsystem.com/e/ir?t=tohgorohmatsu-22&language=ja_JP&l=li2&o=9&a=4627880316" width="1" height="1" border="0" alt="" style="border:none !important; margin:0px !important;" />
}}
*解説 [#n50d1519]
-[[森村 哲郎 (2022). ''強化学習一般''. 人工知能 37(4):455–463. doi: 10.11517/jjsai.37.4_455>https://www.jstage.jst.go.jp/article/jjsai/37/4/37_455/_article/-char/ja/]]
-[[池本 隼也, 潮 俊光 (2019). ''深層ニューラルネットワークを利用した強化学習の制御への応用''. 日本神経回路学会誌 26(4):135–144. doi: 10.3902/jnns.26.135>https://www.jstage.jst.go.jp/article/jnns/26/4/26_135/_article/-char/ja/]]
--深層強化学習の解説
-計測と制御(計測自動制御学会誌)のリレー解説
++[[木村 元 (2013). ''強化学習の基礎''. 計測と制御 52(1):72–77. doi: 10.11499/sicejl.52.72>https://www.jstage.jst.go.jp/article/sicejl/52/1/52_72/_article/-char/ja]]
++[[牧野 貴樹 (2013). ''探索と利用のトレードオフとベイズ環境モデル''. 計測と制御 52(2):154–161. doi: 10.11499/sicejl.52.154>https://www.jstage.jst.go.jp/article/sicejl/52/2/52_154/_article/-char/ja]]
++[[植野 剛, 前田 新一, 川鍋 一晃 (2013). ''統計学習の観点から見たTD学習''. 計測と制御 52(3):277–283. doi: 10.11499/sicejl.52.277>https://www.jstage.jst.go.jp/article/sicejl/52/3/52_277/_article/-char/ja]]
++[[澁谷 長史 (2013). ''部分観測マルコフ決定過程と強化学習''. 計測と制御 52(4):374–380. doi: 10.11499/sicejl.52.374>https://www.jstage.jst.go.jp/article/sicejl/52/4/52_374/_article/-char/ja]]
-[[浅田 稔 (2021). ''ロボティクスと強化学習''. 日本ロボット学会誌 39(7):575–580. doi: 10.7210/jrsj.39.575>https://www.jstage.jst.go.jp/article/jrsj/39/7/39_39_575/_article/-char/ja/]]
--強化学習のロボット制御への応用に関する解説
-[[福井 啓, 河本 献太 (2021). ''ロボット移動技術と強化学習''. 日本ロボット学会誌 39(7):605–608. doi:10.7210/jrsj.39.605>https://www.jstage.jst.go.jp/article/jrsj/39/7/39_39_605/_article/-char/ja/]]
--強化学習の移動ロボットへの応用に関する解説
*コード [#i0ed6d60]
-[[''Gymnasium''>https://gymnasium.farama.org/]]
--強化学習の環境
--OpenAI Gymの後継プロジェクト
-[[''Stable-Baselines3''>https://stable-baselines3.readthedocs.io/en/master/]]
--Gymnasium用深層強化学習アルゴリズム
--TensorFlowで書かれていたStable-BaselinesをPyTorchで書き直したもの
-私がColaboratoryで書いたサンプル・コード
--[[DQN で Mountain Car>https://colab.research.google.com/drive/1fIZsmlt3f2tijD9aVingahn93UqFmoFN?usp=sharing]]
--[[DQN で Lunar Lander>https://colab.research.google.com/drive/1tn0gPtyAbQOc6Z2Q7XrntdBLme-G0v8b?usp=sharing]]
--[[PPO で Breakout>https://colab.research.google.com/drive/12OtVQBoYkjwY85uSy0YAKBetX9jeduJX?usp=sharing]]
--[[PPO で Ms. Packman>https://colab.research.google.com/drive/1WOERnOjtN_5yznx61NuXNHCyTwGxz47Q?usp=sharing]]