強化学習/リスク回避強化学習
をテンプレートにして作成
開始行:
*概要 [#afb55306]
(割引)収益だけでなく,リスクも考慮する強化学習.
リスクの定義は研究によって異なる.
厳密に言うと,リスクの最小化だけを考慮するのが本当のリス...
リスクを大きくすること,つまりrisk neutralやrisk-seeking...
risk-sensitiveの訳はリスク回避,リスク鋭感的,リスク考慮...
*手法 [#h0fe0b3f]
**Q^-Learning [#c36a1622]
Q値が大きくなるときだけ更新し,コストを最小化する.
\[Q(s,a) \leftarrow \max(Q(s,a), r + \gamma \min Q(s',a')...
ここで,[math]r[/math]はコスト.
Qの初期値は取り得る最小の値であり,事前知識がない場合は0.
[math]r[/math]が報酬のときは,Q値が小さくなるときだけ更新...
\[Q(s,a) \leftarrow \min(Q(s,a), r + \gamma \max Q(s',a')...
Qの初期値は取り得る最大の値.
-''Consideration of risk in reinforcement learning''~
M. Heger~
ICML 1994, pp. 105-111 (1994)
**Expected Value minus Variance criterion [#ha27ca1e]
収益の分散をリスクとする.
平均報酬強化学習において,価値関数の定義を収益の期待値か...
\[\mathrm{E}[R] - k \mathrm{V}[R]\]~
と定義.
-[[''Average-Reward Reinforcement Learning for Variance P...
Makoto Sato and Shigenobu Kobayashi~
ICML 2001, pp. 473-480 (2001)
-''Consideration of risk in reinforcement learning''~
M. Heger~
ICML 1994, pp. 105-111 (1994)
**Risk-Sensitive RL (Neuneier) [#efffda24]
モデル・フリーな手法.
リスク選考パラメーター[math]\kappa[/math] ([math]-1 < \ka...
-[[''Risk-Sensitive Reinforcement Learning'':http://www.s...
Oliver Mihatsch and Ralph Neuneier~
Mach Learn, Vol. 49, No. 2-3, pp. 267-290 (2002)
-[[''Risk sensitive reinforcement learning'':http://books...
Ralph Neuneier and Oliver Mihatsch ~
NIPS 1999, pp. 1031-1037 (2000)
**Risk-Sensitive Control [#g58d3653]
コスト関数 [math]c[/math] を導入し,~
\[V(s) = \frac{1}{\lambda} \sum \Pr(s'|s) e^{c(s,s')} V(s...
とする.
-[[''A Learning Algorithm for Risk-Sensitive Cost'':http:...
Arnab Basu, Tirthankar Bhattacharyya, Vivek S. Borkar~
MATHEMATICS OF OPERATIONS RESEARCH, Vol. 33, No. 4, pp. 8...
-[[''Risk-Sensitive Optimal Control for Markov Decision P...
V. S. Borkar, S. P. Meyn~
MATHEMATICS OF OPERATIONS RESEARCH, Vol. 27, No. 1, pp. 1...
-[[''Q-Learning for Risk-Sensitive Control'':http://mor.j...
V. S. Borkar~
MATHEMATICS OF OPERATIONS RESEARCH, Vol. 27, No. 2, pp. 2...
**Rsik-Sensitive RL (Geibel) [#u9a0aac3]
望ましくない(終端)状態を設定し,リスクを望ましくない状...
-[[''Risk-Sensitive Reinforcement Learning Applied to Con...
P. Geibel and F. Wysotzki~
JAIR, Vol. 24, pp. 81-108 (2005)
終了行:
*概要 [#afb55306]
(割引)収益だけでなく,リスクも考慮する強化学習.
リスクの定義は研究によって異なる.
厳密に言うと,リスクの最小化だけを考慮するのが本当のリス...
リスクを大きくすること,つまりrisk neutralやrisk-seeking...
risk-sensitiveの訳はリスク回避,リスク鋭感的,リスク考慮...
*手法 [#h0fe0b3f]
**Q^-Learning [#c36a1622]
Q値が大きくなるときだけ更新し,コストを最小化する.
\[Q(s,a) \leftarrow \max(Q(s,a), r + \gamma \min Q(s',a')...
ここで,[math]r[/math]はコスト.
Qの初期値は取り得る最小の値であり,事前知識がない場合は0.
[math]r[/math]が報酬のときは,Q値が小さくなるときだけ更新...
\[Q(s,a) \leftarrow \min(Q(s,a), r + \gamma \max Q(s',a')...
Qの初期値は取り得る最大の値.
-''Consideration of risk in reinforcement learning''~
M. Heger~
ICML 1994, pp. 105-111 (1994)
**Expected Value minus Variance criterion [#ha27ca1e]
収益の分散をリスクとする.
平均報酬強化学習において,価値関数の定義を収益の期待値か...
\[\mathrm{E}[R] - k \mathrm{V}[R]\]~
と定義.
-[[''Average-Reward Reinforcement Learning for Variance P...
Makoto Sato and Shigenobu Kobayashi~
ICML 2001, pp. 473-480 (2001)
-''Consideration of risk in reinforcement learning''~
M. Heger~
ICML 1994, pp. 105-111 (1994)
**Risk-Sensitive RL (Neuneier) [#efffda24]
モデル・フリーな手法.
リスク選考パラメーター[math]\kappa[/math] ([math]-1 < \ka...
-[[''Risk-Sensitive Reinforcement Learning'':http://www.s...
Oliver Mihatsch and Ralph Neuneier~
Mach Learn, Vol. 49, No. 2-3, pp. 267-290 (2002)
-[[''Risk sensitive reinforcement learning'':http://books...
Ralph Neuneier and Oliver Mihatsch ~
NIPS 1999, pp. 1031-1037 (2000)
**Risk-Sensitive Control [#g58d3653]
コスト関数 [math]c[/math] を導入し,~
\[V(s) = \frac{1}{\lambda} \sum \Pr(s'|s) e^{c(s,s')} V(s...
とする.
-[[''A Learning Algorithm for Risk-Sensitive Cost'':http:...
Arnab Basu, Tirthankar Bhattacharyya, Vivek S. Borkar~
MATHEMATICS OF OPERATIONS RESEARCH, Vol. 33, No. 4, pp. 8...
-[[''Risk-Sensitive Optimal Control for Markov Decision P...
V. S. Borkar, S. P. Meyn~
MATHEMATICS OF OPERATIONS RESEARCH, Vol. 27, No. 1, pp. 1...
-[[''Q-Learning for Risk-Sensitive Control'':http://mor.j...
V. S. Borkar~
MATHEMATICS OF OPERATIONS RESEARCH, Vol. 27, No. 2, pp. 2...
**Rsik-Sensitive RL (Geibel) [#u9a0aac3]
望ましくない(終端)状態を設定し,リスクを望ましくない状...
-[[''Risk-Sensitive Reinforcement Learning Applied to Con...
P. Geibel and F. Wysotzki~
JAIR, Vol. 24, pp. 81-108 (2005)
ページ名: