強化学習/リスク回避強化学習 のバックアップ(No.1)


概要

(割引)収益だけでなく,リスクも考慮する強化学習.

リスクの定義は研究によって異なる.

厳密に言うと,リスクの最小化だけを考慮するのが本当のリスク回避(risk-averse). リスクを大きくすること,つまりrisk neutralやrisk-seekingにもできるのがrisk-sensitive.

risk-sensitiveの訳はリスク回避,リスク鋭感的,リスク考慮とかいろいろあるが,ここではリスク回避とした.

手法

Q^-Learning

最悪な行動を選択した場合の収益を考慮する.

\[Q(s,a) \leftarrow \max(Q(s,a), r + \gamma \min Q(s',a'))\]

  • Consideration of risk in reinforcement learning
    M. Heger
    ICML 1994, pp. 105-111 (1994)

Expected Value minus Variance criterion

収益の分散をリスクとする. 平均報酬強化学習において,価値関数の定義を収益の期待値から収益の分散に係数を掛けたものを引いたもの
\[\mathrm{E}[R] - k \mathrm{V}[R]\]
と定義.

Risk-Sensitive RL (Neuneier)

モデル・フリーな手法. リスク選考パラメーター[math]\kappa[/math] ([math]-1 \le \kappa \le 1[/math])を用いて,更新量を[math](1-\kappa)[/math]倍(更新量が正のとき)または[math](1+\kappa)[/math]倍(更新量が負のとき)する.

Risk-Sensitive Control

コスト関数 [math]c[/math] を導入し,
\[V(s) = \frac{1}{\lambda} \sum \Pr(s'|s) e^{c(s,s')} V(s')\]
とする.

Rsik-Sensitive RL (Geibel)

望ましくない(終端)状態を設定し,リスクを望ましくない状態に到達する確率と定義する.

トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS