強化学習/リスク回避強化学習

概要 †

（割引）収益だけでなく，リスクも考慮する強化学習．

リスクの定義は研究によって異なる．

厳密に言うと，リスクの最小化だけを考慮するのが本当のリスク回避（risk-averse）．リスクを大きくすること，つまりrisk neutralやrisk-seekingにもできるのがrisk-sensitive．

risk-sensitiveの訳はリスク回避，リスク鋭感的，リスク考慮とかいろいろあるが，ここではリスク回避とした．

↑

手法 †

↑

Q^-Learning †

Q値が大きくなるときだけ更新し，コストを最小化する．

\[Q(s,a) \leftarrow \max(Q(s,a), r + \gamma \min Q(s',a'))\]

ここで，[math]r[/math]はコスト． Qの初期値は取り得る最小の値であり，事前知識がない場合は0．

[math]r[/math]が報酬のときは，Q値が小さくなるときだけ更新し，収益を最大化する．

\[Q(s,a) \leftarrow \min(Q(s,a), r + \gamma \max Q(s',a'))\]

Qの初期値は取り得る最大の値．

Consideration of risk in reinforcement learning
M. Heger
ICML 1994, pp. 105-111 (1994)

↑

Expected Value minus Variance criterion †

収益の分散をリスクとする．平均報酬強化学習において，価値関数の定義を収益の期待値から収益の分散に係数を掛けたものを引いたもの
\[\mathrm{E}[R] - k \mathrm{V}[R]\]
と定義．

Average-Reward Reinforcement Learning for Variance Penalized Markov Decision Problems
Makoto Sato and Shigenobu Kobayashi
ICML 2001, pp. 473-480 (2001)
Consideration of risk in reinforcement learning
M. Heger
ICML 1994, pp. 105-111 (1994)

↑

Risk-Sensitive RL (Neuneier) †

モデル・フリーな手法．リスク選考パラメーター[math]\kappa[/math] ([math]-1 < \kappa < 1[/math])を用いて，更新量を[math](1-\kappa)[/math]倍（更新量が正のとき）または[math](1+\kappa)[/math]倍（更新量が負のとき）する．

Risk-Sensitive Reinforcement Learning
Oliver Mihatsch and Ralph Neuneier
Mach Learn, Vol. 49, No. 2-3, pp. 267-290 (2002)
Risk sensitive reinforcement learning
Ralph Neuneier and Oliver Mihatsch
NIPS 1999, pp. 1031-1037 (2000)

↑

Risk-Sensitive Control †

コスト関数 [math]c[/math] を導入し，
\[V(s) = \frac{1}{\lambda} \sum \Pr(s'|s) e^{c(s,s')} V(s')\]
とする．

A Learning Algorithm for Risk-Sensitive Cost
Arnab Basu, Tirthankar Bhattacharyya, Vivek S. Borkar
MATHEMATICS OF OPERATIONS RESEARCH, Vol. 33, No. 4, pp. 880-898 (2008)
Risk-Sensitive Optimal Control for Markov Decision Processes with Monotone Cost
V. S. Borkar, S. P. Meyn
MATHEMATICS OF OPERATIONS RESEARCH, Vol. 27, No. 1, pp. 192-209 (2002)
Q-Learning for Risk-Sensitive Control
V. S. Borkar
MATHEMATICS OF OPERATIONS RESEARCH, Vol. 27, No. 2, pp. 294-311 (2002)

↑

Rsik-Sensitive RL (Geibel) †

望ましくない（終端）状態を設定し，リスクを望ましくない状態に到達する確率と定義する．

Risk-Sensitive Reinforcement Learning Applied to Control under Constraints
P. Geibel and F. Wysotzki
JAIR, Vol. 24, pp. 81-108 (2005)

リスク回避強化学習

概要 †

手法 †

Q^-Learning †

Expected Value minus Variance criterion †

Risk-Sensitive RL (Neuneier) †

Risk-Sensitive Control †

Rsik-Sensitive RL (Geibel) †

とうごろう.jp

とうごろぐ（ブログ）

Twitter

Facebook

授業

最新の20件