Zhiyuan Liu, Leheng Li, Yuning Wang, Haotian Lin, Zhizhe Liu, Lei He, Jianqiang Wang 通讯作者:王建强,清华大学车辆与运载学院院长 arXiv: 2409.15135
Less than 1 minute
Zhiyuan Liu, Leheng Li, Yuning Wang, Haotian Lin, Zhizhe Liu, Lei He, Jianqiang Wang 通讯作者:王建强,清华大学车辆与运载学院院长 arXiv: 2409.15135
本文是2021年关于MO RL和MO Planning的一篇综述。
MOMDP是一个六元组。其中,是状态空间,是动作空间,是状态转移函数,是折扣因子,是初始状态的概率分布,是vector-valued reward function,是目标数。
MOMDP下,agent执行策略,其Value function定义为
在这种情况下,价值函数是矢量,不像单目标RL那样,最优的定义并不是显而易见的。定义效用函数(utility function / scalarisation function),将价值函数映射到一个标量:
Shuo Feng, Henry X. Liu*, et. al. 22 March 2023 Nature Vol 615