1.16版本的PX4混控器改版了，Pipeline如下图：其中用于计算各执行器分配量的代码位于src/lib/control_allocation/control_allocation。

控制分配器

控制分配器有两个版本，通过参数CA_METHOD控制。

伪逆法控制分配器

Ruolin WangAbout 6 min

PX4飞控代码阅读（3）姿态环

角度控制器

角度控制器主要代码位于src/modules/mc_att_control/AttitudeControl/AttitudeControl.cpp中，其核心为update函数。

角度控制采取了倾转分离的策略，倾斜（俯仰、偏航）的控制能力较强，而转向（偏航）的控制能力较弱，因此采用了不同的控制增益，将转向的控制量按比例缩小。

首先计算当前姿态和期望姿态分别对应的z轴方向（世界坐标系）：

// calculate reduced desired attitude neglecting vehicle's yaw to prioritize roll and pitch
const Vector3f e_z = q.dcm_z();
const Vector3f e_z_d = qd.dcm_z();

Ruolin WangAbout 6 min

PX4飞控代码阅读（2）位置环

多旋翼控制器结构

整体控制器结构如下

各模块分别位于：

Position Control, Velocity Control, Acceleration&Yaw to Attitude: src\modules\mc_pos_control
Angle Control: src\modules\mc_att_control
Angular Rate Control: src\modules\mc_rate_control
Mixer: src\modules\control_allocator

Ruolin WangAbout 11 min

旋转矩阵与四元数

用旋转矩阵描述旋转

如图所示，坐标系为旋转得到，记其三个单位基向量, , 在系下的坐标表示分别为, , ，则旋转矩阵为：

根据内积的定义，有

绕x, y, z三个轴旋转角的旋转矩阵为：

Info

下文的旋转矩阵、向量、四元数等都用右上标表明是在哪个坐标系下描述的。

旋转矩阵的性质

的各行、各列相互正交，且都是单位向量

Ruolin WangAbout 27 min

PX4飞控代码阅读（1）基本架构

Ruolin WangAbout 7 min

Controllable Traffic Simulation through LLM-Guided Hierarchical Chain-of-Thought Reasoning

Zhiyuan Liu, Leheng Li, Yuning Wang, Haotian Lin, Zhizhe Liu, Lei He, Jianqiang Wang 通讯作者：王建强，清华大学车辆与运载学院院长 arXiv: 2409.15135

Ruolin WangLess than 1 minute

A Practical Guide to Multi-objective Reinforcement Learning and Planning

本文是2021年关于MO RL和MO Planning的一篇综述。

MOMDP

MOMDP是一个六元组。其中，是状态空间，是动作空间，是状态转移函数，是折扣因子，是初始状态的概率分布，是vector-valued reward function，是目标数。

MOMDP下，agent执行策略，其Value function定义为

在这种情况下，价值函数是矢量，不像单目标RL那样，最优的定义并不是显而易见的。定义效用函数（utility function / scalarisation function），将价值函数映射到一个标量：

Ruolin WangAbout 3 min

Dense reinforcement learning for safety validation of autonomous vehicles

Shuo Feng, Henry X. Liu*, et. al. 22 March 2023 Nature Vol 615

Motivation

基于RL的自动驾驶测试方法存在以下困难：
- 奖励非常稀疏，绝大部分经验都没什么用处
- 测试环境不是无偏的，只能产生碰撞场景，无法回答：
  - 碰撞场景在现实中发生的可能性有多大
  - 测试环境的测试里程能否代替真实世界的测试里程
真实世界对AV进行测试需要大量测试里程，在现实中几乎不可能满足进一步讲，这是一种罕见奖励的强化学习问题，并且不能用传统的稀疏奖励解决方案（那样就有点类似先开枪再画靶）。它的特点是：==只有极少的状态转移才是有意义的，而大量无意义的状态转移，其实际的价值函数可能几乎等于0。==因为这些无用经验的存在，会导致策略梯度的方差非常之大，使得学习过程很容易被误导。密集强化学习就是在保持无偏性的前提下，尽量减小策略梯度的方差。

Ruolin WangAbout 11 min

ASP中的否定

ASP遵循“失败即否定（negation as failure, NAF）”原则，即尝试推导某个原子失败时，就否定该原子。

Ruolin WangAbout 3 min

Aggregates聚合语法

Aggregate就是一些在集合上执行的函数，集合通常是依照某些条件构建出来的。

Ruolin WangAbout 4 min