Dense reinforcement learning for safety validation of autonomous vehicles
Dense reinforcement learning for safety validation of autonomous vehicles
Shuo Feng, Henry X. Liu*, et. al. 22 March 2023 Nature Vol 615
Motivation
- 基于RL的自动驾驶测试方法存在以下困难:
- 奖励非常稀疏,绝大部分经验都没什么用处
- 测试环境不是无偏的,只能产生碰撞场景,无法回答:
- 碰撞场景在现实中发生的可能性有多大
- 测试环境的测试里程能否代替真实世界的测试里程
- 真实世界对AV进行测试需要大量测试里程,在现实中几乎不可能满足 进一步讲,这是一种罕见奖励的强化学习问题,并且不能用传统的稀疏奖励解决方案(那样就有点类似先开枪再画靶)。它的特点是:==只有极少的状态转移才是有意义的,而大量无意义的状态转移,其实际的价值函数可能几乎等于0。==因为这些无用经验的存在,会导致策略梯度的方差非常之大,使得学习过程很容易被误导。密集强化学习就是在保持无偏性的前提下,尽量减小策略梯度的方差。
Method:密集强化学习D2RL
原理
1. 无偏性
无偏性保证了使用该环境测试得到的结果与在真实世界中进行测试的结果相当。D2RL采用重要性采样来保证这一点。
Review: 重要性采样
为了在分布
该估计的精确度取决于
如果采用另一个随机变量
那么这个估计的方差为:
我们可以取
就是重要性权重。
Ref: https://artowen.su.domains/mc/
记AV在自然驾驶环境(NDE)中发生碰撞为事件
使用重要性采样:
这里
为了提高重要性采样的效率,应该最小化方差
于是我们有目标函数:
使用式(1)和条件概率公式,可以将(2)变为
注
这就是同轨策略下的目标函数。由于[[#3. 离轨学习机制]]中所述原因,采用了离轨策略,因此需要对式(3)进一步变换。离轨策略下,优化的目标是针对目标策略
于是有奖励函数:
Info
这里也有一点问题。根据原文的图
奖励是有正有负的,但是两个
2. 密集性
D2RL只将触发critical条件的状态作为经验喂给RL去学习:
原始的DRL,策略梯度为:
而D2RL的策略梯度为:
其中
也就是说该状态下采取任何动作,都不会影响未来回报的期望。于是可以定义
定理1
其中
证明参见论文的Supplementary Information 2.c节.
Theo. 1.1表明了排除那些uncritical states不会影响策略梯度(无偏)。Theo. 1.2则证明了这一做法能够减小策略梯度的方差。Theo. 1.3则在一个前提假设下,给出了方差的上界。这个前提假设其实就是说,
基于式(6),PPO算法的优势函数
其中
D2RL的优势函数为:
其中
而
Info
这里其实有点小问题。按照这个
论文的Supplementary Information中给出了更general的适用于罕见奖励的强化学习理论,并指出,式(7)其实是更一般的要求:
的弱化形式。这里
3. 离轨学习机制
为什么选择离轨学习机制呢? 根据重要性采样理论,如果采用分布
而在式(1)中,我们也使用了一次重要性采样。这里的
于是有:
定理2
这也就是说,最优的表观策略与目标策略是成反比的,那么如果采用的是同轨策略,
具体实现
1. 状态与动作
作者进行了两类实验:单纯生成碰撞场景的corner-case generation,和使用D2RL策略构建无偏测试环境的intelligent-testing-environment generation。 CCG没有使用式(5)的奖励函数,而是单纯奖励碰撞(+20)。ITEG同时使用了D2RL和式(5)的奖励函数。 state由AV和周围的8辆BV的位置和速度组成,对于corner-case generation,动作为周围的8量BV采取的动作(每辆车33个离散动作)。对于intelligent-testing-environment generation,动作为一个连续值
2. NDE模型
NDE模型由作者在2021年提出[2]。具体的建模过程我还没有读,本文称他们使用了简化的NDE模型,由经过修改的IDM和MOBIL构成(修改为概率性的模型)。NDE模型可以给出每一步下BV采取各种操作的分布,并与真实数据集的分布保持一致。
基于Markov假设,NDE被用于计算
3. 表观策略
[[#3. 离轨学习机制]]中已经提过,最优的表观策略和目标策略基本上是相反的。本文采用了一个简单的方法:表观策略在训练过程中始终不变。作者采用的表观策略是恒定的
4. criticality measure
式(7)给出了critical states的定义,但实际上很难直接检查这个条件是否满足。作者使用基于特定知识的measure来判断。比如说,如果根据TTC等条件判断当前的状态安全,那么就认为它近似满足式(7),反之亦然。作者使用的criticality measure是[3]中提出的。
实验
作者使用AR技术进行了实体实验,基于修改的SUMO仿真器和AR渲染技术。
这两张图说明了同轨策略的D2RL在训练中能观察到碰撞率提升,但在测试时却表现出碰撞率低于ground truth。而离轨策略则在测试中表现出得碰撞率与ground truth基本一致(经过重要性采样加权),体现出无偏性。
几乎处处:不满足条件的集合是零测的 ↩︎
https://arxiv.org/abs/2101.02828, Distributionally Consistent Simulation of Naturalistic Driving Environment for Autonomous Vehicle Testing; https://www.nature.com/articles/s41467-021-21007-8, Intelligent driving intelligence test for autonomous vehicles with naturalistic and adversarial environment ↩︎
https://arxiv.org/abs/1905.03419, Testing Scenario Library Generation for Connected and Automated Vehicles, Part I: Methodology ↩︎