本文是2021年关于MO RL和MO Planning的一篇综述。
MOMDP
MOMDP是一个六元组。其中,是状态空间,是动作空间,是状态转移函数,是折扣因子,是初始状态的概率分布,是vector-valued reward function,是目标数。
MOMDP下,agent执行策略,其Value function定义为
在这种情况下,价值函数是矢量,不像单目标RL那样,最优的定义并不是显而易见的。定义效用函数(utility function / scalarisation function),将价值函数映射到一个标量:
About 3 min