強化学習/リスク回避強化学習 のバックアップ(No.2)


概要

(割引)収益だけでなく,リスクも考慮する強化学習.

リスクの定義は研究によって異なる.

厳密に言うと,リスクの最小化だけを考慮するのが本当のリスク回避(risk-averse). リスクを大きくすること,つまりrisk neutralやrisk-seekingにもできるのがrisk-sensitive.

risk-sensitiveの訳はリスク回避,リスク鋭感的,リスク考慮とかいろいろあるが,ここではリスク回避とした.

手法

Q^-Learning

Q値が大きくなるときだけ更新し,コストを最小化する.

\[Q(s,a) \leftarrow \max(Q(s,a), r + \gamma \min Q(s',a'))\]

ここで,[math]r[/math]はコスト. Qの初期値は取り得る最小の値であり,事前知識がない場合は0.

[math]r[/math]が報酬のときは,Q値が小さくなるときだけ更新し,収益を最大化する.

\[Q(s,a) \leftarrow \min(Q(s,a), r + \gamma \max Q(s',a'))\]

Qの初期値は取り得る最大の値.

  • Consideration of risk in reinforcement learning
    M. Heger
    ICML 1994, pp. 105-111 (1994)

Expected Value minus Variance criterion

収益の分散をリスクとする. 平均報酬強化学習において,価値関数の定義を収益の期待値から収益の分散に係数を掛けたものを引いたもの
\[\mathrm{E}[R] - k \mathrm{V}[R]\]
と定義.

Risk-Sensitive RL (Neuneier)

モデル・フリーな手法. リスク選考パラメーター[math]\kappa[/math] ([math]-1 \le \kappa \le 1[/math])を用いて,更新量を[math](1-\kappa)[/math]倍(更新量が正のとき)または[math](1+\kappa)[/math]倍(更新量が負のとき)する.

Risk-Sensitive Control

コスト関数 [math]c[/math] を導入し,
\[V(s) = \frac{1}{\lambda} \sum \Pr(s'|s) e^{c(s,s')} V(s')\]
とする.

Rsik-Sensitive RL (Geibel)

望ましくない(終端)状態を設定し,リスクを望ましくない状態に到達する確率と定義する.

トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS