Tag: MORL

本文是2021年关于MO RL和MO Planning的一篇综述。

MOMDP

MOMDP是一个六元组。其中，是状态空间，是动作空间，是状态转移函数，是折扣因子，是初始状态的概率分布，是vector-valued reward function，是目标数。

MOMDP下，agent执行策略，其Value function定义为

在这种情况下，价值函数是矢量，不像单目标RL那样，最优的定义并不是显而易见的。定义效用函数（utility function / scalarisation function），将价值函数映射到一个标量：