強化学習/強化学習のバックアップ差分(No.2)

バックアップ一覧
現在との差分を表示
ソースを表示
バックアップを表示
強化学習/強化学習へ行く。
- 1 (2023-12-20 (水) 09:16:44)
- 2 (2023-12-20 (水) 09:27:53)
- 3 (2023-12-21 (木) 11:17:40)

追加された行はこの色です。
削除された行はこの色です。

強化学習の勉強を始める人のためのメモ

*解説 [#n50d1519]


-[[池本 隼也, 潮 俊光 (2019). ''深層ニューラルネットワークを利用した強化学習の制御への応用''. 日本神経回路学会誌 26(4):135–144. https://doi.org/10.3902/jnns.26.135>https://www.jstage.jst.go.jp/article/jnns/26/4/26_135/_article/-char/ja/]]
--深層強化学習の解説
-計測と制御　リレー解説
++[[木村 元 (2013). ''強化学習の基礎''. 計測と制御 52(1):72–77. https://doi.org/10.11499/sicejl.52.72>https://www.jstage.jst.go.jp/article/sicejl/52/1/52_72/_article/-char/ja]]
++[[牧野 貴樹 (2013). ''探索と利用のトレードオフとベイズ環境モデル''. 計測と制御 52(2):154–161. https://doi.org/10.11499/sicejl.52.154>https://www.jstage.jst.go.jp/article/sicejl/52/2/52_154/_article/-char/ja]]
++[[植野 剛, 前田 新一, 川鍋 一晃 (2013). ''統計学習の観点から見たTD学習''. 計測と制御 52(3):277–283. https://doi.org/10.11499/sicejl.52.277>https://www.jstage.jst.go.jp/article/sicejl/52/3/52_277/_article/-char/ja]]
++[[澁谷 長史 (2013). ''部分観測マルコフ決定過程と強化学習''. 計測と制御 52(4):374–380. https://doi.org/10.11499/sicejl.52.374>https://www.jstage.jst.go.jp/article/sicejl/52/4/52_374/_article/-char/ja]]


*コード [#i0ed6d60]
-[[''Gymnasium''>https://gymnasium.farama.org/]]
--強化学習の環境
-[[''Stable Baselines 3''>https://stable-baselines3.readthedocs.io/en/master/]]
--OpenAI Gymの後継プロジェクト
-[[''Stable-Baselines3''>https://stable-baselines3.readthedocs.io/en/master/]]
--Gymnasium用深層強化学習アルゴリズム
--TensorFlowで書かれていたStable-BaselinesをPyTorchで書き直したもの
-私がColaboratoryで書いたサンプル・コード
--[[DQN で Mountain Car>https://colab.research.google.com/drive/1fIZsmlt3f2tijD9aVingahn93UqFmoFN?usp=sharing]]
--[[DQN で Lunar Lander>https://colab.research.google.com/drive/1tn0gPtyAbQOc6Z2Q7XrntdBLme-G0v8b?usp=sharing]]
--[[PPO で Breakout>https://colab.research.google.com/drive/12OtVQBoYkjwY85uSy0YAKBetX9jeduJX?usp=sharing]]
--[[PPO で Ms. Packman>https://colab.research.google.com/drive/1WOERnOjtN_5yznx61NuXNHCyTwGxz47Q?usp=sharing]]

強化学習/強化学習 のバックアップ差分(No.2)

強化学習/強化学習のバックアップ差分(No.2)