強化学習/強化学習における知識の転移
をテンプレートにして作成
開始行:
まだ書きかけです.
*はじめに [#nd749d20]
現在執筆中の人工知能学会誌の解説記事「強化学習における知...
強化学習における知識の転移については,TaylorとStoneが2009...
また,AAAI学会誌のAI magazine 2011年春号の転移学習の特集...
ここでは,TaylorとStoneによるAI magazine 2011年春号の解説...
*知識複写 [#xc047177]
''知識複写''(knowledge copied)は,元タスクで学習した知...
私は,博士課程のときに,目標タスクにおいて,元タスクで学...
これを''事前条件学習''(learning policy precondition)と...
FernándezとVelosoは,目標タスクにおいて学習し直す際に,ソ...
これを''確率的再利用''(probabilistic policy reuse)とい...
また,私たちは,元タスクと目標タスクで状態変数の値域が異...
これを''相対的観測''(relative observation)といいます.
*知識修正 [#e2e888e1]
''知識修正''(knowledge modified)は,元タスクで学習した...
''タスク間マッピング''(intertask mapping)は,元タスクの...
''価値関数転移''(value function transfer)は,行動規則の...
*転移マッピング学習 [#l997c93f]
タスク間マッピングや価値関数転移では対応関係を人間が与え...
*参考文献 [#e297a944]
+[[''Transfer Learning for Reinforcement Learning Domains...
Matthew E. Taylor, Peter Stone
JMLR 10:1633-1685 (2009)
+[[''An Introduction to Intertask Transfer for Reinforcem...
Matthew E. Taylor, Peter Stone~
AI magazine 32(1): 15-34 (2011)
+[[''Automatic Discovery and Transfer of Task Hierarchies...
Neville Mehta, Soumya Ray, Prasad Tadepalli, Thomas Diett...
AI magazine 32(1):35-50 (2011)
+''Learning Preconditions for Control Policies in Reinfor...
Tohgoroh Matsui, Nobuhiro Inuzuka, and Hirohisa Seki~
Proceedings of the ACIS 2nd International Conference on S...
+''Adapting to subsequent changes of environment by learn...
Tohgoroh Matsui, Nobuhiro Inuzuka, and Hirohisa Seki~
International Journal of Computer & Information Science, ...
+''[[強化学習結果の再構築への概念学習の適用:http://www.js...
松井 藤五郎, 犬塚 信博, 世木 博久, 伊藤 英則~
人工知能学会論文誌, Vol. 17, No. 2, pp. 135–144 (2002)
+''[[Probabilistic Policy Reuse in a Reinforcement Learni...
Fernando Fernández and Manuela Veloso~
Proceedings of the Fifth International Conference on Auto...
+''[[Acquiring a government bond trading strategy using r...
Tohgoroh Matsui, Takashi Goto, and Kiyoshi Izumi~
Journal of Advanced Computational Intelligence and Intell...
終了行:
まだ書きかけです.
*はじめに [#nd749d20]
現在執筆中の人工知能学会誌の解説記事「強化学習における知...
強化学習における知識の転移については,TaylorとStoneが2009...
また,AAAI学会誌のAI magazine 2011年春号の転移学習の特集...
ここでは,TaylorとStoneによるAI magazine 2011年春号の解説...
*知識複写 [#xc047177]
''知識複写''(knowledge copied)は,元タスクで学習した知...
私は,博士課程のときに,目標タスクにおいて,元タスクで学...
これを''事前条件学習''(learning policy precondition)と...
FernándezとVelosoは,目標タスクにおいて学習し直す際に,ソ...
これを''確率的再利用''(probabilistic policy reuse)とい...
また,私たちは,元タスクと目標タスクで状態変数の値域が異...
これを''相対的観測''(relative observation)といいます.
*知識修正 [#e2e888e1]
''知識修正''(knowledge modified)は,元タスクで学習した...
''タスク間マッピング''(intertask mapping)は,元タスクの...
''価値関数転移''(value function transfer)は,行動規則の...
*転移マッピング学習 [#l997c93f]
タスク間マッピングや価値関数転移では対応関係を人間が与え...
*参考文献 [#e297a944]
+[[''Transfer Learning for Reinforcement Learning Domains...
Matthew E. Taylor, Peter Stone
JMLR 10:1633-1685 (2009)
+[[''An Introduction to Intertask Transfer for Reinforcem...
Matthew E. Taylor, Peter Stone~
AI magazine 32(1): 15-34 (2011)
+[[''Automatic Discovery and Transfer of Task Hierarchies...
Neville Mehta, Soumya Ray, Prasad Tadepalli, Thomas Diett...
AI magazine 32(1):35-50 (2011)
+''Learning Preconditions for Control Policies in Reinfor...
Tohgoroh Matsui, Nobuhiro Inuzuka, and Hirohisa Seki~
Proceedings of the ACIS 2nd International Conference on S...
+''Adapting to subsequent changes of environment by learn...
Tohgoroh Matsui, Nobuhiro Inuzuka, and Hirohisa Seki~
International Journal of Computer & Information Science, ...
+''[[強化学習結果の再構築への概念学習の適用:http://www.js...
松井 藤五郎, 犬塚 信博, 世木 博久, 伊藤 英則~
人工知能学会論文誌, Vol. 17, No. 2, pp. 135–144 (2002)
+''[[Probabilistic Policy Reuse in a Reinforcement Learni...
Fernando Fernández and Manuela Veloso~
Proceedings of the Fifth International Conference on Auto...
+''[[Acquiring a government bond trading strategy using r...
Tohgoroh Matsui, Takashi Goto, and Kiyoshi Izumi~
Journal of Advanced Computational Intelligence and Intell...
ページ名: