強化学習/リスク回避強化学習の変更点

追加された行はこの色です。
削除された行はこの色です。
強化学習/リスク回避強化学習へ行く。
強化学習/リスク回避強化学習の差分を削除
*概要 [#afb55306]

（割引）収益だけでなく，リスクも考慮する強化学習．

リスクの定義は研究によって異なる．

厳密に言うと，リスクの最小化だけを考慮するのが本当のリスク回避（risk-averse）．
リスクを大きくすること，つまりrisk neutralやrisk-seekingにもできるのがrisk-sensitive．

risk-sensitiveの訳はリスク回避，リスク鋭感的，リスク考慮とかいろいろあるが，ここではリスク回避とした．


*手法 [#h0fe0b3f]

**Q^-Learning [#c36a1622]

Q値が大きくなるときだけ更新し，コストを最小化する．

\[Q(s,a) \leftarrow \max(Q(s,a), r + \gamma \min Q(s',a'))\]

ここで，[math]r[/math]はコスト．
Qの初期値は取り得る最小の値であり，事前知識がない場合は0．

[math]r[/math]が報酬のときは，Q値が小さくなるときだけ更新し，収益を最大化する．

\[Q(s,a) \leftarrow \min(Q(s,a), r + \gamma \max Q(s',a'))\]

Qの初期値は取り得る最大の値．


-''Consideration of risk in reinforcement learning''~
M. Heger~
ICML 1994, pp. 105-111 (1994)


**Expected Value minus Variance criterion [#ha27ca1e]

収益の分散をリスクとする．
平均報酬強化学習において，価値関数の定義を収益の期待値から収益の分散に係数を掛けたものを引いたもの~
\[\mathrm{E}[R] - k \mathrm{V}[R]\]~
と定義．

-[[''Average-Reward Reinforcement Learning for Variance Penalized Markov Decision Problems'':http://portal.acm.org/citation.cfm?id=645530.757778]]~
Makoto Sato and Shigenobu Kobayashi~
ICML 2001, pp. 473-480 (2001)
-''Consideration of risk in reinforcement learning''~
M. Heger~
ICML 1994, pp. 105-111 (1994)


**Risk-Sensitive RL (Neuneier) [#efffda24]

モデル・フリーな手法．
リスク選考パラメーター[math]\kappa[/math] ([math]-1 \le \kappa \le 1[/math])を用いて，更新量を[math](1-\kappa)[/math]倍（更新量が正のとき）または[math](1+\kappa)[/math]倍（更新量が負のとき）する．
リスク選考パラメーター[math]\kappa[/math] ([math]-1 < \kappa < 1[/math])を用いて，更新量を[math](1-\kappa)[/math]倍（更新量が正のとき）または[math](1+\kappa)[/math]倍（更新量が負のとき）する．

-[[''Risk-Sensitive Reinforcement Learning'':http://www.springerlink.com/content/n2uf0n0nmndxbdp1/]]~
Oliver Mihatsch and Ralph Neuneier~
Mach Learn, Vol. 49, No. 2-3, pp. 267-290 (2002)
-[[''Risk sensitive reinforcement learning'':http://books.nips.cc/nips12.html]]~
Ralph Neuneier and Oliver Mihatsch	~
NIPS 1999, pp. 1031-1037 (2000)


**Risk-Sensitive Control [#g58d3653]

コスト関数 [math]c[/math] を導入し，~
\[V(s) = \frac{1}{\lambda} \sum \Pr(s'|s) e^{c(s,s')} V(s')\]~
とする．

-[[''A Learning Algorithm for Risk-Sensitive Cost'':http://mor.journal.informs.org/cgi/content/abstract/33/4/880]]~
Arnab Basu, Tirthankar Bhattacharyya, Vivek S. Borkar~
MATHEMATICS OF OPERATIONS RESEARCH, Vol. 33, No. 4, pp. 880-898 (2008)
-[[''Risk-Sensitive Optimal Control for Markov Decision Processes with Monotone Cost'':http://mor.journal.informs.org/cgi/content/abstract/27/1/192]]~
V. S. Borkar, S. P. Meyn~
MATHEMATICS OF OPERATIONS RESEARCH, Vol. 27, No. 1, pp. 192-209 (2002)
-[[''Q-Learning for Risk-Sensitive Control'':http://mor.journal.informs.org/cgi/content/abstract/27/2/294]]~
V. S. Borkar~
MATHEMATICS OF OPERATIONS RESEARCH, Vol. 27, No. 2, pp. 294-311 (2002)


**Rsik-Sensitive RL (Geibel) [#u9a0aac3]

望ましくない（終端）状態を設定し，リスクを望ましくない状態に到達する確率と定義する．

-[[''Risk-Sensitive Reinforcement Learning Applied to Control under Constraints'':http://www.jair.org/papers/paper1666.html]]~
P. Geibel and F. Wysotzki~
JAIR, Vol. 24, pp. 81-108 (2005)