強化学習における知識の転移

2024-03-22 (金) 11:58:31 (32d) | Topic path: Top / 強化学習 / 強化学習における知識の転移

まだ書きかけです.

はじめに

現在執筆中の人工知能学会誌の解説記事「強化学習における知識の転移」に関するメモです.

強化学習における知識の転移については,TaylorとStoneが2009年にJMLRに発表したサーベイ論文 [1] があります. また,AAAI学会誌のAI magazine 2011年春号の転移学習の特集の中に,強化学習に関する解説記事が2本あります [2,3].

ここでは,TaylorとStoneによるAI magazine 2011年春号の解説記事[2]に倣い,強化学習における知識の転移の手法を (1) 知識複写,(2) 知識修正,(3) 転移マッピング学習に分類して紹介します.

知識複写

知識複写(knowledge copied)は,元タスクで学習した知識を目標タスクにそのまま転移して用いる手法です.

私は,博士課程のときに,目標タスクにおいて,元タスクで学習した行動規則の事前条件を学習し,元タスクで学習した行動規則が使えない状態でのみ学習をやり直すという手法を提案しました [4,5,6]. これを事前条件学習(learning policy precondition)といいます.

FernándezとVelosoは,目標タスクにおいて学習し直す際に,ソースタスクで獲得した知識を確率的に再利用する方法を提案しています [7]. これを確率的再利用(probabilistic policy reuse)といいます.

また,私たちは,元タスクと目標タスクで状態変数の値域が異なるような問題に対して,状態変数を相対的な値に正規化して観測することで,元タスクで学習した行動規則を目標タスクでも使えるようにする手法を提案しています [8]. これを相対的観測(relative observation)といいます.

知識修正

知識修正(knowledge modified)は,元タスクで学習した知識を修正して目標タスクで用いる手法です.

タスク間マッピング(intertask mapping)は,元タスクのMDPの要素と目標タスクのMDPの要素(目標タスクの行動aと元タスクの行動a'など)を対応付けて,目標タスクの状態行動対に対応する元タスクの状態行動対の行動規則を用います.

価値関数転移(value function transfer)は,行動規則の替わりに価値関数を転移させます.

転移マッピング学習

タスク間マッピングや価値関数転移では対応関係を人間が与えていますが,転移マッピング学習(learning transfer mapping)では経験から対応関係を学習します.

参考文献

  1. Transfer Learning for Reinforcement Learning Domains: A Survey
    Matthew E. Taylor, Peter Stone JMLR 10:1633-1685 (2009)
  2. An Introduction to Intertask Transfer for Reinforcement Learning
    Matthew E. Taylor, Peter Stone
    AI magazine 32(1): 15-34 (2011)
  3. Automatic Discovery and Transfer of Task Hierarchies in Reinforcement Learning
    Neville Mehta, Soumya Ray, Prasad Tadepalli, Thomas Dietterich
    AI magazine 32(1):35-50 (2011)
  4. Learning Preconditions for Control Policies in Reinforcement Learning
    Tohgoroh Matsui, Nobuhiro Inuzuka, and Hirohisa Seki
    Proceedings of the ACIS 2nd International Conference on Software Engineering, Artificial Intelligence, Networking & Parallel/Distributed Computing (SNPD 2001), pp. 47–54 (2001)
  5. Adapting to subsequent changes of environment by learning policy preconditions
    Tohgoroh Matsui, Nobuhiro Inuzuka, and Hirohisa Seki
    International Journal of Computer & Information Science, Vol. 3, No. 1, pp. 49–58 (2002)
  6. 強化学習結果の再構築への概念学習の適用
    松井 藤五郎, 犬塚 信博, 世木 博久, 伊藤 英則
    人工知能学会論文誌, Vol. 17, No. 2, pp. 135–144 (2002)
  7. Probabilistic Policy Reuse in a Reinforcement Learning Agent
    Fernando Fernández and Manuela Veloso
    Proceedings of the Fifth International Conference on Autonomous Agents and Multiagent Systems (AAMAS 2006), pp. 720-727 (2006)
  8. Acquiring a government bond trading strategy using reinforcement learning
    Tohgoroh Matsui, Takashi Goto, and Kiyoshi Izumi
    Journal of Advanced Computational Intelligence and Intelligent Informatics, Vol. 13, No. 6, pp. 691–696 (2009)
トップ   編集 凍結解除 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS