强化学习入门项目 Spinning up OpenAI (3) RL基本概念

Losgy浩

分类：机器学习

发布时间 2022.02.06阅读数 3198 评论数 0

Key Concepts in RL

本文讨论的内容：

RL中的语言和符号
对强化学习算法的作用的上层解释
RL算法的核心数学公式

简而言之。RL研究agent通过试验和错误（trial and error）来进行学习,它利用奖励或者惩罚agent的行为使其在未来重复或放弃当前的行为。

Key Concepts and Terminology

RL中的主要特点是agent和environment, environment是agent存在和交互的世界，每一步交互，agent都会看到当前世界的状态(或一部分),然后决定采取什么动作，当agent对其进行操作时，环境会发生变化，但也可能会自行发生变化。

agent也从environment中获取reward，它是一个告诉agent当前世界状态好坏的数字，agent的目标是最大化累计reward，称为return, RL算法就是agent用来学习行为并且达成这个目标的方法。

为了进一步说明RL做了什么，我们进一步阐述:

states and observations
action spaces
policies
trajectories
different formulations of return
the RL optimization problem
value functions

states and observations

state s 是对世界状态的完整描述，state的信息是不会隐藏的。 observation o 是状态的部分描述，可能会省略信息。

state是客观存在的，而observation是agent可能部分观察到的

在DRL中，我们几乎总是用实值向量、矩阵或高阶张量来表示states 和 observations。例如，视觉图像可以由其像素值的 RGB 矩阵表示；机器人的状态可以用它的关节角度和速度来表示。当agent能够观察到环境的完整状态时，我们说环境被Fully observed到了。当智能体只能看到部分观察时，我们说环境被partially observed。

Action Spaces

不同的环境允许不同种类的动作。给定环境中所有有效动作的集合通常称为动作空间。一些环境，如 Atari 和 Go，有离散的动作空间，其中只有有限数量的动作可供代理使用。其他环境，例如代理在物理世界中控制机器人的地方，具有连续的动作空间。在连续空间中，动作是实值向量。这种区别对DRL方法有一些非常大的影响。一些算法系列只能应用于离散情况。

Policies

策略是agent决定采取什么动作的规则，他可以是确定性的(deterministic)，表示为： $a_t=\mu(s_t)$

或是随机性的(stochastic):
$a_t\sim\pi(·|s_t)$

因为策略本质上是agent的大脑，所以用“policy”代替“agent”这个词并不少见，例如说“策略试图最大化奖励”。

在RL中，我们处理参数化的policy，其输出是依赖于一组参数（例如神经网络的权重和偏差）的可计算函数，我们可以通过优化算法调整这些参数。

Deterministic policies

下面是确定性策略的连续动作空间 pytorch网络，使用了torch.nn

 pi_net = nn.Sequential(
               nn.Linear(obs_dim, 64),
               nn.Tanh(),
               nn.Linear(64, 64),
               nn.Tanh(),
               nn.Linear(64, act_dim)
             )

它构建了多层感知机(MLP)，通过obs tensor 可以获取动作

 obs_tensor = torch.as_tensor(obs, dtype=torch.float32)
 actions = pi_net(obs_tensor)

Stochastic polices

DRL中两种主要的随即策略是categorical polices(离散动作) 和 diagonal Gaussian polices(连续动作)，以下两种计算对于随即策略是很重要的：

此policy进行动作采样
计算特定动作的对数似然， $log_\theta(a|s)$

下面分别描述categorical和diagonal Gaussian policies

Categorical polices

一个categorical policy就像是离散动作的分类器，为一个categorical policy构建神经网络与构建分类器一样，输入observation，经过隐藏层，最终的线性层为每一个动作提供logits，再通过softmax转换为概率

sampling:

给定动作概率，可以使用Categorical distributions in PyTorch, torch.multinomial, tf.distributions.Categorical, or tf.multinomial.

计算对数似然

表示最后一层的概率 $P_\theta(s)$ ,它是一个向量，无论有多少动作都有多少条目，所以我们可以将动作视为向量的索引。然后可以通过对向量进行索引来获得动作 a 的对数似然。

Diagonal Gaussian Policies

多元高斯分布（或多元正态分布）由均值向量 $\mu$ 和协方差矩阵 $\sigma$ 描述。对角高斯分布是一种特殊情况，其中协方差矩阵仅在对角线上有数据。因此，我们可以用一个向量来表示它。

对角线高斯策略总是有一个神经网络，从observation映射到动作的mean， $\mu_{\theta}(s)$ 。协方差矩阵通常有两种不同的表示方式

第一种

有一个对数标准差向量 $log\sigma$ ，他不是state的function ， $log\sigma$ 有独立的参数

第二种

有一个神经网络把states映射到对数标准差 $log\sigma_\theta(s)$ ,它可以与mean网络共享同样的层。

请注意，在这两种情况下，我们都输出对数标准差而不是直接输出标准差。这是因为 log stds 可以输出 $(-\infty, \infty)$ 中的任何值，而 stds 必须是非负的。

也就是说，一般而言，随机网络输出的最后一个节点是一个动作的均值，而如果动作是从高斯分布中采样，那么还有标准差 $\sigma$ 需要被确定，一种方案就是这个 $\sigma$ 从状态s中独立出来，另一种就是不独立出来。

sampling

给定均值 $\mu_\theta(s)$ 和标准差 $\sigma_\theta(s)$ ，和一个高斯噪声向量z $z,z\sim N(0,1)$ ，动作采样可以被计算为:

$a = \mu_{\theta}(s) + \sigma_{\theta}(s) \odot z$

$\odot$ 表示两个向量元素乘积，标准框架具有生成噪声向量的内置方法，例如 torch.normal 或 tf.random_normal。或者，您可以构建分布对象，例如通过 torch.distributions.Normal 或 tf.distributions.Normal，并使用它们来生成样本。（后一种方法的优点是这些对象还可以为您计算对数似然。）

对数似然

k维动作a的对数似然 $\mu=\mu_\theta(s),$ 标准差 $\sigma=\sigma_\theta(s)$ ，由下式给出：
$\log \pi_{\theta}(a|s) = -\frac{1}{2}\left(\sum_{i=1}^k \left(\frac{(a_i - \mu_i)^2}{\sigma_i^2} + 2 \log \sigma_i \right) + k \log 2\pi \right).$

Trajectories

trajectory $\tau$ 是状态动作的序列： $\tau = (s_0,a_0,s_1,a_1)$

第一个状态s_0 是从初始状态分布随机采样得来的 $s_0\sim\rho_0(·)$

状态转换是由环境得到的，当环境是确定性时： $s_{t+1}=f(s_t,a_t)$

或是随机的，以转移概率进行转换的 $s_{t+1}\sim P(·|s_t,a_t)$

Reward and Return

reward function R, 定义为： $r_t=R(s_t,a_t,s_{t+1})$

通常可以简化为： $r_t=R(s_t)$ 或 $r_t=R(s_t,a_t)$

agent的目标是最大化轨迹的累计reward，一种return是有限时间非折扣回报： $R(\tau)=\sum_{t=0}^Tr_t$

另一种是无限时间折扣回报，其中 $\gamma\in(0,1)$ :

$R(\tau)=\sum_{t=0}^\infin\gamma^tr_t$

使用折扣，一方面体现了越早的奖励最好，另一外面也会使总的奖励在无限时间域上收敛

The RL Problem

无论选择哪种return方式，或者选择哪种policy，RL目标都是为了最大化expected return,首先我们讨论一条轨迹的分布概率，考虑environment transitions 和 policy 都是随即的情况，T步轨迹的分布概率为： $P(\tau|\pi) = \rho_0 (s_0) \prod_{t=0}^{T-1} P(s_{t+1} | s_t, a_t) \pi(a_t | s_t).$

expected return期望回报用 $J(\pi)$ 来表示为： $J(\pi) = \int_{\tau} P(\tau|\pi) R(\tau) = E_{\tau\sim \pi}{R(\tau)}.$

RL优化问题表示为： $\pi^* = \arg \max_{\pi} J(\pi),$

$\pi^*$ 就是最优策略。

Value Functions

了解状态或状态-动作对的价值通常很有用。几乎所有 RL 算法都以某种方式使用值函数。

有四种主要的functions:

The On-Policy Value Functions $V_\pi(s)$

如果从状态 s 开始并始终根据策略\pi $\pi$ 行动，则它会给出预期回报 $V^{\pi}(s) = E_{\tau \sim \pi}({R(\tau)\left| s_0 = s\right.})$

The On-Policy Action-Value Function
从状态 s 开始，执行任意操作 a（可能不是来自策略），然后永远按照策略 $\pi$ 操作，这将给出预期的回报： $Q^{\pi}(s,a) =E_{\tau \sim \pi}({R(\tau)\left| s_0 = s, a_0 = a\right.})$
The Optimal Value Function $V^*(s)$

从状态s开始，总是以最优策略行动 $V^*(s) = \max_{\pi} E_{\tau \sim \pi}({R(\tau)\left| s_0 = s\right.})$

The Optimal Action-Value Function $Q^*(s,a)$

从状态s开始，执行任意动作a, 后续根据最优策略行动

$Q^*(s,a) = \max_{\pi}E_{\tau \sim \pi}({R(\tau)\left| s_0 = s, a_0 = a\right.})$

The Optimal Q-Function and the Optimal Action

最优action-value值函数 $Q^*(s,a)$ 和最优策略选择的动作a之间有重要的联系，即：

$a^*(s) = \arg \max_a Q^* (s,a).$

注意：可能有多个动作使 $Q^*(s,a)$ 最大化，在这种情况下，它们都是最优的，最优策略可能会随机选择其中的任何一个。但是总是有一个最优策略可以确定性地选择一个动作。

Bellman Equations

所有四个值函数都遵循称为贝尔曼方程的特殊自洽方程。贝尔曼方程背后的基本思想是：The value of your starting point is the reward you expect to get from being there, plus the value of wherever you land next.(当前点的价值是，你能从此处获得的期望奖励加上后续状态的价值)

$\begin{align*} V^{\pi}(s) &=E_{a \sim \pi \\ ,s'\sim P}({r(s,a) + \gamma V^{\pi}(s')}), \\ Q^{\pi}(s,a) &=E_{s'\sim P}({r(s,a)) + \gamma E_{a'\sim \pi}({Q^{\pi}(s',a')}}), \end{align*}$

贝尔曼最优函数方程

$\begin{align*} V^*(s) &= \max_a E_{s'\sim P}({r(s,a) + \gamma V^*(s')}), \\ Q^*(s,a) &=E_{s'\sim P}({r(s,a) + \gamma \max_{a'} Q^*(s',a')}). \end{align*}$

on-policy 值函数和最优值函数的 Bellman 方程之间的关键区别在于动作上的 max 是否存在。它反映了这样一个事实，即每当代理选择其动作时，为了采取最佳行动，它必须选择导致最高值的动作。

术语bellman backup 备份一个状态或是状态动作对，是贝尔曼方程的右边，即reward+next value

Advantage Functions

有时在 RL 中，我们不需要描述一个动作在绝对意义上有多好，而只需要描述它平均比其他动作好多少。也就是说，我们想知道那个动作的相对优势。我们通过优势函数使这个概念更加精确。

对应于策略 $\pi$ 的优势函数 $A^{\pi}(s,a)$ 描述了在状态 s 中采取特定动作 a 比根据 $\pi(\cdot|s )$ 选择一个动作的优劣程度，假设以后永远按照 $\pi$ 行动。在数学上，优势函数定义为

$A^{\pi}(s,a) = Q^{\pi}(s,a) - V^{\pi}(s).$

也就是说，当前某个动作的优势，就是保证后续使用了策略\pi的前提下，相对于平均动作的好坏，因为状态值函数本身也是对所有的动作后续奖励求期望，也代表了平均动作的价值。

编辑于 2021-10-10 20:25

人工智能 OpenAI 机器学习深度学习强化学习

打赏 0

上一篇：强化学习入门项目 Spinning up OpenAI (2) 基本使用

下一篇：强化学习入门项目 Spinning up OpenAI (4) RL算法分类

强化学习入门项目 Spinning up OpenAI (3) RL基本概念

Losgy浩

Key Concepts in RL

Key Concepts and Terminology

states and observations

Action Spaces

Policies

Deterministic policies

Stochastic polices

Categorical polices

Diagonal Gaussian Policies

第一种

第二种

Reward and Return

The RL Problem

Value Functions

The Optimal Q-Function and the Optimal Action

Bellman Equations

Advantage Functions

为你推荐

Python中的多进程编程

【强化学习与最优控制】笔记（四）强化学习与最优控制的关联与对比

精选机器学习中的数学——学习曲线如何区别欠拟合与过拟合

CPVT：一个卷积就可以隐式编码位置信息

精选KITTI数据集解析和可视化

Zotero软件与ChatGPT连用模版

评论（0）

关于作者

Losgy浩

8

0

0

2

强化学习入门项目 Spinning up OpenAI (3) RL基本概念

基于Pybullet搭建强化学习机械臂（二）

强化学习入门项目 Spinning up OpenAI (4) RL算法分类

相关推荐

共轭梯度法简介

精选马尔可夫链蒙特卡罗法 (Markov Chain Monte Carlo, MCMC)

行人重识别(15)——代码实践之难样本挖掘三元组损失（TriHard_Loss.py）

精选深度学习PyTorch笔记（10）：PyTorch绘制函数图像及切线

深度学习发展梳理——经典鼻祖LeNet-5

人脸识别之light_cnn

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

TA的专栏

基于Pybullet搭建强化学习机械臂

给作者打赏

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板