強化学習/強化学習における知識の転移の変更点

追加された行はこの色です。
削除された行はこの色です。
強化学習/強化学習における知識の転移へ行く。
強化学習/強化学習における知識の転移の差分を削除
まだ書きかけです．


*はじめに [#nd749d20]

現在執筆中の人工知能学会誌の解説記事「強化学習における知識の転移」に関するメモです．

強化学習における知識の転移については，TaylorとStoneが2009年にJMLRに発表したサーベイ論文があります．
また，AAAI学会誌のAI magazine 2011年春号の転移学習の特集の中に，強化学習に関する解説記事が2本あります[1,2]．
強化学習における知識の転移については，TaylorとStoneが2009年にJMLRに発表したサーベイ論文 [1] があります．
また，AAAI学会誌のAI magazine 2011年春号の転移学習の特集の中に，強化学習に関する解説記事が2本あります [2,3]．

ここでは，TaylorとStoneによるAI magazine 2011年春号の解説記事[1]に倣い，強化学習における知識の転移の手法を (1) 知識複写，(2) 知識修正，(3) 転移マッピング学習に分類して紹介します．
ここでは，TaylorとStoneによるAI magazine 2011年春号の解説記事[2]に倣い，強化学習における知識の転移の手法を (1) 知識複写，(2) 知識修正，(3) 転移マッピング学習に分類して紹介します．


*知識複写 [#xc047177]

''知識複写''（knowledge copied）は，元タスクで学習した知識を目標タスクにそのまま転移して用いる手法です．

私は，博士課程のときに，目標タスクにおいて，元タスクで学習した行動規則の事前条件を学習し，元タスクで学習した行動規則が使えない状態でのみ学習をやり直すという手法を提案しました [4,5,6]．
これを''事前条件学習''（learning policy precondition）といいます．

FernándezとVelosoは，目標タスクにおいて学習し直す際に，ソースタスクで獲得した知識を確率的に再利用する方法を提案しています [7]． 
これを''確率的再利用''（probabilistic policy reuse）といいます．

また，私たちは，元タスクと目標タスクで状態変数の値域が異なるような問題に対して，状態変数を相対的な値に正規化して観測することで，元タスクで学習した行動規則を目標タスクでも使えるようにする手法を提案しています [8]．
これを''相対的観測''（relative observation）といいます．


*知識修正 [#e2e888e1]

''知識修正''（knowledge modified）は，元タスクで学習した知識を修正して目標タスクで用いる手法です．

''タスク間マッピング''（intertask mapping）は，元タスクのMDPの要素と目標タスクのMDPの要素（目標タスクの行動aと元タスクの行動a'など）を対応付けて，目標タスクの状態行動対に対応する元タスクの状態行動対の行動規則を用います．

''価値関数転移''（value function transfer）は，行動規則の替わりに価値関数を転移させます．


*転移マッピング学習 [#l997c93f]

''転移マッピング学習''（learning transfer mapping）タスク間マッピングや価値関数転移では，対応関係を人間が与えていたが，それを経験から学習します．
タスク間マッピングや価値関数転移では対応関係を人間が与えていますが，''転移マッピング学習''（learning transfer mapping）では経験から対応関係を学習します．


*参考文献 [#e297a944]

+[[''Transfer Learning for Reinforcement Learning Domains: A Survey'':http://jmlr.csail.mit.edu/papers/v10/taylor09a.html]]~
Matthew E. Taylor, Peter Stone
JMLR 10:1633-1685 (2009)
+[[''An Introduction to Intertask Transfer for Reinforcement Learning'':http://www.aaai.org/ojs/index.php/aimagazine/article/view/2329]]~
Matthew E. Taylor, Peter Stone~
AI magazine 32(1): 15-34 (2011)
+[[''Automatic Discovery and Transfer of Task Hierarchies in Reinforcement Learning'':http://www.aaai.org/ojs/index.php/aimagazine/article/view/2342]]~
Neville Mehta, Soumya Ray, Prasad Tadepalli, Thomas Dietterich~
AI magazine 32(1):35-50 (2011)
+[[''Transfer Learning for Reinforcement Learning Domains: A Survey'':http://jmlr.csail.mit.edu/papers/v10/taylor09a.html]]~
Matthew E. Taylor, Peter Stone
JMLR 10:1633-1685 (2009)

+''Learning Preconditions for Control Policies in Reinforcement Learning''~
Tohgoroh Matsui, Nobuhiro Inuzuka, and Hirohisa Seki~
Proceedings of the ACIS 2nd International Conference on Software Engineering, Artificial Intelligence, Networking & Parallel/Distributed Computing (SNPD 2001), pp. 47–54 (2001)
+''Adapting to subsequent changes of environment by learning policy preconditions''~
Tohgoroh Matsui, Nobuhiro Inuzuka, and Hirohisa Seki~
International Journal of Computer & Information Science, Vol. 3, No. 1, pp. 49–58 (2002)
+''[[強化学習結果の再構築への概念学習の適用:http://www.jstage.jst.go.jp/article/tjsai/17/2/17_135/_article/-char/ja/]]''~
松井 藤五郎, 犬塚 信博, 世木 博久, 伊藤 英則~
人工知能学会論文誌, Vol. 17, No. 2, pp. 135–144 (2002)
+''[[Probabilistic Policy Reuse in a Reinforcement Learning Agent:http://dl.acm.org/citation.cfm?id=1160762]]''~
Fernando Fernández and Manuela Veloso~
Proceedings of the Fifth International Conference on Autonomous Agents and Multiagent Systems (AAMAS 2006), pp. 720-727 (2006)
+''[[Acquiring a government bond trading strategy using reinforcement learning:http://www.fujipress.jp/finder/xslt.php?mode=present&inputfile=JACII001300060012.xml]]''~
Tohgoroh Matsui, Takashi Goto, and Kiyoshi Izumi~
Journal of Advanced Computational Intelligence and Intelligent Informatics, Vol. 13, No. 6, pp. 691–696 (2009)