Zhiyuan Liu, Leheng Li, Yuning Wang, Haotian Lin, Zhizhe Liu, Lei He, Jianqiang Wang 通讯作者：王建强，清华大学车辆与运载学院院长 arXiv: 2409.15135

Ruolin WangLess than 1 minute

本文是2021年关于MO RL和MO Planning的一篇综述。

MOMDP

MOMDP是一个六元组。其中，是状态空间，是动作空间，是状态转移函数，是折扣因子，是初始状态的概率分布，是vector-valued reward function，是目标数。

MOMDP下，agent执行策略，其Value function定义为

在这种情况下，价值函数是矢量，不像单目标RL那样，最优的定义并不是显而易见的。定义效用函数（utility function / scalarisation function），将价值函数映射到一个标量：

Shuo Feng, Henry X. Liu*, et. al. 22 March 2023 Nature Vol 615

Motivation

基于RL的自动驾驶测试方法存在以下困难：
- 奖励非常稀疏，绝大部分经验都没什么用处
- 测试环境不是无偏的，只能产生碰撞场景，无法回答：
  - 碰撞场景在现实中发生的可能性有多大
  - 测试环境的测试里程能否代替真实世界的测试里程
真实世界对AV进行测试需要大量测试里程，在现实中几乎不可能满足进一步讲，这是一种罕见奖励的强化学习问题，并且不能用传统的稀疏奖励解决方案（那样就有点类似先开枪再画靶）。它的特点是：==只有极少的状态转移才是有意义的，而大量无意义的状态转移，其实际的价值函数可能几乎等于0。==因为这些无用经验的存在，会导致策略梯度的方差非常之大，使得学习过程很容易被误导。密集强化学习就是在保持无偏性的前提下，尽量减小策略梯度的方差。

Ruolin WangAbout 11 min