Shuo Feng, Henry X. Liu*, et. al. 22 March 2023 Nature Vol 615
Motivation
- 基于RL的自动驾驶测试方法存在以下困难:
- 奖励非常稀疏,绝大部分经验都没什么用处
- 测试环境不是无偏的,只能产生碰撞场景,无法回答:
- 碰撞场景在现实中发生的可能性有多大
- 测试环境的测试里程能否代替真实世界的测试里程
- 真实世界对AV进行测试需要大量测试里程,在现实中几乎不可能满足 进一步讲,这是一种罕见奖励的强化学习问题,并且不能用传统的稀疏奖励解决方案(那样就有点类似先开枪再画靶)。它的特点是:==只有极少的状态转移才是有意义的,而大量无意义的状态转移,其实际的价值函数可能几乎等于0。==因为这些无用经验的存在,会导致策略梯度的方差非常之大,使得学习过程很容易被误导。密集强化学习就是在保持无偏性的前提下,尽量减小策略梯度的方差。
About 11 min