【强化学习与最优控制】笔记（七） Rollout 与 Policy Improvement

王源

分类：机器学习

发布时间 2021.12.22阅读数 4249 评论数 0

上一期笔记，忘记的小伙伴可以复习一下：

王源：【强化学习与最优控制】笔记（六）强化学习中的Decomposition

1 Rollout

Rollout 算法的基本思想就是在未来有限的k步之内采用直接优化的方法（lookahead minimization），而在k步之外采用 base policy 对 Value function 来进行近似。其基本思想如下图所示：

Rollout 的精妙之处在哪里呢？

个人认为主要有2个方面：1 Rollout 算法的框架可以将传统数学优化/启发式算法与动态规划/强化学习相结合。整体上 Rollout 算法就是一个动态规划的架构，但是里边的 base policy 可以采用我们数学优化里边常用的一些方法来得到，例如贪心算法，例如线性规划，例如次模优化等等，如果是面对整数规划的问题还可以用到 Relaxation 和 decomposition 的方法。2 Rollout 算法具有 Policy improvement 的性质，简单来说就是采用了 Rollout 算法就会比以往单纯使用 base policy 要好。那么接下来我们详细来介绍 Policy improvement 的推导证明思路。

2 Policy Improvement

想要严谨的证明 Policy improvement 我们需要 base policy 满足两个条件（至少满足其一即可），即 sequential consistency 和 sequential improvement

2. 1 sequential consistency

sequential consistency 定义：若 base policy 在 $x_k$ 处开始生成的序列为 $\left\{ x_k,x_{k+1},...,x_N \right\}$ 则 base policy 在 $x_{k+1}$ 处开始生成的序列必为 $\left\{ x_{k+1},...,x_N \right\}$ ，则称 base policy 满足 sequential consistency 的性质。

怎么理解这个定义呢？简单来说就是 base policy 只与当前状态有关的话 就一定满足 sequential consistency。例如在TSP问题中的贪婪算法就满足 base policy 的性质，因为每次 base policy 的决策就是和当前所在节点位置最近的节点作为下一个节点，很明显贪婪算法的决策只和当前节点（状态）有关。举个反例就是如果每次都选取和已经经过的所有节点距离之和最近的节点的话则就不满足 sequential consistency 的性质，因为在每步决策的时候都需要考虑历史上所有经过的节点（即所有的历史状态）。

接下来开始论证我们的 Policy improvement 的性质：若 rollout 算法中 base policy 满足 sequential consistency 的性质，则采用 rollout 算法得到的解不会差于单纯使用 base policy 得到的解。

设 rollout policy 为 $\tilde{\pi}=\left\{ \tilde{\mu}_0,...,\tilde{\mu}_N \right\}$ ， $J_{k,\tilde{\pi}}\left( x_k \right)$ 表示从状态 $x_k$ 采用 rollout policy $\tilde{\pi}$ 的 cost function， $H(x_k)$ 表示从状态 $x_k$ 采用 base policy 的 cost function， $\bar{u}_k$ 表示 base policy

我们要证明的是： $J_{k,\tilde{\pi}}\left( x_k \right) \le H_k\left( x_k \right) \ for\ all\ x_k\ and\ k$

证明思路采用的是数学归纳法的思路，先假设对于 $k+1$ 是成立的，然后推导出对于 $k$ 也是成立，同时易知 $J_{N,\tilde{\pi}}=H_N=g_N$

我们有： $J_{k,\tilde{\pi}}\left( x_k \right) =g_k\left( x_k,\tilde{\mu}_k\left( x_k \right) \right) +J_{k+1,\tilde{\pi}}\left( f_k\left( x_k,\tilde{\mu}_k\left( x_k \right) \right) \right)$ (1)

$\leq g_k\left( x_k,\tilde{\mu}_k\left( x_k \right) \right) +H_{k+1}\left( f_k\left( x_k,\tilde{\mu}_k\left( x_k \right) \right) \right)$ (2)

$=\underset{u_k\in U_k\left( x_k \right)}{\min}\left[ g_k\left( x_k,u_k \right) +H_{k+1}\left( f_k\left( x_k,u_k \right) \right) \right]$ (3)

$\le g_k\left( x_k,\bar{u}_k \right) +H_{k+1}\left( f_k\left( x_k,\bar{u}_k \right) \right)$ (4)

$=H_k(x_k)$ (5)

从（1）到（2）是因为我们已经假设了对于 $k+1$ 是成立的。

从（2）到（3）是 rollout 算法的定义

从（3）到（4）是因为式（3）是最优的值，而式（4）是 base policy 得到的值，所以 base policy 得到的值只能是大于等于最优的值。

从（4）到（5）就是 base policy 满足 sequential consistency 的性质。

2. 2 sequential improvement

其实理解了 sequential consistency 的证明过程，sequential improvement 就很好理解了。sequential improvement 可以理解为从证明过程式（3）到式（5）反推得到的。

我们把式（3）到式（5）单独拎出来可得：

$\underset{u_k\in U_k\left( x_k \right)}{\min}\left[ g_k\left( x_k,u_k \right) +H_{k+1}\left( f_k\left( x_k,u_k \right) \right) \right] \leq H_k(x_k)$

根据 Q funcition 的定义上式又可以写为：

$\underset{u_k\in U_k\left( x_k \right)}{\min}\tilde{Q}\left( x_k,u_k \right) \leq H_k\left( x_k \right)$

容易理解 sequential improvement 比 sequential consistency 的条件要弱一些，从上面的论证就可以知道 sequential consistency 可以推出 sequential improvement，反之则不一定成立。所以大家只需要理解 sequential improvement 和 sequential consistency 相比其实只是放宽了对 base policy 的条件而已。

总结：

Rollout 算法的理论保证就在于确实可以起到提升优化得到的解的质量，这就是 Policy improvement 的核心思想。以上的内容主要都是针对确定性问题而言的，对于带有随机性的问题也有相似的结论见教材 95页，我们这里就不再赘述了。

建模仿真强化学习自动控制最优控制动态规划

打赏 0

上一篇：【强化学习与最优控制】笔记（五）强化学习中值空间近似与策略空间近似概述

下一篇：【强化学习与最优控制】笔记（八）模型预测控制（Model Predictive Control）

【强化学习与最优控制】笔记（七） Rollout 与 Policy Improvement

王源

1 Rollout

2 Policy Improvement

2. 1 sequential consistency

2. 2 sequential improvement

总结：

为你推荐

精选【技术分享】Windows10下安装Git

（十）稀疏奖励

Pytorch 1. 介绍(Intro)

深度学习——卷积神经网络来龙去脉和MINST图像识别应用

YOLOV4 windows10系统训练自己的图片数据集（robomaster官方数据集）

使用Msnhnet实现最优化问题(2)一(无约束优化问题)

关于作者

王源

10

0

0

1

【强化学习与最优控制】笔记（一）确定性问题的动态规划

【强化学习与最优控制】笔记（四）强化学习与最优控制的关联与对比

【强化学习与最优控制】笔记（九）值函数，Q函数和策略空间的近似

相关推荐

卷积神经网络CNN

强化学习基础 Ⅵ: DQN 原理与实战

目标检测YOLO算法数据集制作：利用Python将视频切分成图片

(9) 概率分布 Probability Distribution (b) : 高斯分布，混合高斯模型 - PRML && CS229

机器学习基础

Rdkit|分子性质描述符（Descriptors）

热门泡泡

30积分失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

【强化学习与最优控制】笔记（七） Rollout 与 Policy Improvement

王源

1 Rollout

2 Policy Improvement

2. 1 sequential consistency

2. 2 sequential improvement

总结：

为你推荐

精选【技术分享】Windows10下安装Git

（十）稀疏奖励

Pytorch 1. 介绍(Intro)

深度学习——卷积神经网络来龙去脉和MINST图像识别应用

YOLOV4 windows10系统训练自己的图片数据集（robomaster官方数据集）

使用Msnhnet实现最优化问题(2)一(无约束优化问题)

评论（0）

关于作者

王源

10

0

0

1

【强化学习与最优控制】笔记（一）确定性问题的动态规划

【强化学习与最优控制】笔记（四）强化学习与最优控制的关联与对比

【强化学习与最优控制】笔记（九）值函数，Q函数和策略空间的近似

相关推荐

卷积神经网络CNN

强化学习基础 Ⅵ: DQN 原理与实战

目标检测YOLO算法数据集制作：利用Python将视频切分成图片

(9) 概率分布 Probability Distribution (b) : 高斯分布，混合高斯模型 - PRML && CS229

机器学习基础

Rdkit|分子性质描述符（Descriptors）

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板