A Practical Guide to Multi-objective Reinforcement Learning and Planning
About 3 min
A Practical Guide to Multi-objective Reinforcement Learning and Planning
本文是2021年关于MO RL和MO Planning的一篇综述。
MOMDP
MOMDP是一个六元组
MOMDP下,agent执行策略
在这种情况下,价值函数是矢量,不像单目标RL那样,最优的定义并不是显而易见的。定义效用函数(utility function / scalarisation function)
此时,MORL的解集有很多种定义:
- undominated set
这一解集中的策略,是在某一效用函数下,效用值最大的策略。即 - coverage set
覆盖集是 的子集,且对于任意效用函数,能够在 中找到其效用值最大的策略(因此称覆盖集) - Pareto Frontier
当采用的效用函数满足: 时,得到的undominated set就是帕累托边界,即不存在另一个策略,在所有目标维度上都等于或优于当前策略。称这样的效用函数单调递增。并且可以定义Pareto-domainates: - Pareto Coverage Set
由于 是一种undominated set,因此相应可以定义对应的coverage set,不再赘述 - convex hull
当效用函数是线性函数(当然也是单调递增的)时,即 ,此时的undomainated set称为凸包 。 - convex coverage set
对应的覆盖集(凸覆盖集)。对于确定性策略,CH和CCS之间的区别通常很小。但对于随机策略,CH通常很大(可能无穷),但CCS通常小得多,当状态和动作都是有限离散时,CCS总是有限的。CCS还可以用来构建PCS[1]。
问题分类
- Single policy VS Multiple policies
- Linear utility function VS monotonically increasing utility function
- Deterministic policy VS Stochastic policy
- Scalarised Expected Return (SER) VS Expected Scalarised Return (ESR)
算法分类
Single Policy
Multi-policy
与其他问题的联系
POMDP
Multi-agent problems
Multi-/auxiliary task RL
Human-aligned agents
MORL性能指标
Vamplew, Peter, et al. "Constructing stochastic mixture policies for episodic multiobjective reinforcement learning tasks." AI 2009: Advances in Artificial Intelligence: 22nd Australasian Joint Conference, Melbourne, Australia, December 1-4, 2009. Proceedings 22. Springer Berlin Heidelberg, 2009. ↩︎