强化学习(1): 概述

little_miya

分类：机器学习

发布时间 2022.01.04阅读数 4125 评论数 0

一、强化学习描述

1. 算法定义

强化学习算法是在不确定环境中，通过与环境的不断交互，来不断优化自身策略的算法。

2. 算法特点

数据是序列分布而非独立同分布
agent的行为会影响后续的数据分布
没有supervisor，仅仅是每幕最后的reword
无法立即获得反馈，feedback是延迟的

整个过程是一个序列，比如金融投资，比如控制机器人移动等。整个决策序列最终是要实现综合的reward最大化。无法确定当前的每一步action，是否会在未来的某个时刻给你带来巨大的正向reward。在经过算法训练之后，可能出现牺牲当前的即时reward来谋取未来的长远reward.

强化学习问题定义在马尔可夫决策过程之上。一个MDP是 $<S,A,R,P,\gamma>$ 的五元组。

关于马尔可夫决策模型，我们详细参见博客：link

3. 关于reward

特点

$R_t$ 是可以量化的回馈信号
表示agent在该时刻动作的好坏
agent的任务是最大化累计reward

意义

整个强化学习的基础就是reward hypothesis

当前所有的强化学习研究目标，最终都可以用最大化期望累计reward来表示。

4. 关于state

在这里插入图片描述
agent依据当前环境的观测 $O_t$ + 当前的reward $R_t$ ，选择action $A_t$ 去执行.

环境可以当作是互相博弈的另外一个agent，当 $A_t$ 发生后，环境的state会变化，生成新的 $O_{t+1}$ 、 $R_{t+1}$

state用来表示整个系统当前情况，包括过去发生的所有History，我们分别看下环境和agent的state变化。

对于一辆在路上行驶的车而言，在RL的世界，车本身属于agent，周围所有的其他车，人，建筑物都属于环境。

state通常可以用马尔可夫性进行处理。

4.1 environment state

环境提供的observation与reward的信息的数据表示
环境的state有时并不是agent可见的
即使 $S_t^e$ 对agent可见，其中也包含一些不相关或噪声信息

环境state没那么重要。相反，机器人本身观测到的环境状态才是最重要的。

4.2 agent state

$S^a_t$ 是agent内部状态的表示
agent选择用于action的信息
用于强化学习算法的一些信息
是基于历史information的一个函数 $S^a_t=f(H_t)$

这个agent state才是最重要的。而且，我们到底如何model来实现最优的对环境state的表征，这件事情很难。也就是上述公式中的 $f$ 很难找到最好的符合agent需求的形式。

5. 关于观测

5.1 Fully Observable Environments

$O_t=S^a_t=S^e_t$

通常这是一个MDP的过程。如上说述，state的表征很重要，MDP在这里能够发挥巨大的作用。

5.2 Partially Observable Environments

ange必须自己构建属于自己的 $S^a_t$ ，通常有如下的构建方法：

直接用历史数据（历史是已经发生的，是确定的）： $S^a_t=H_t = O_1,R_1,A_1,...,A_{t-1},O_t,R_t$
使用环境的状态的置信度belief表示： $S^a_t = (P[S^e_t=s^1],...,P[S^e_t=s^n])$
RNN网络： $S^a_t=\sigma(S^a_{t-1}W_s+O_tW_o)$

二、强化学习中智能体的组成部分

第一部分的内容，我们还停留在强化学习的定义上。还在说明强化学习这个武器是怎样与现实生活中的应用场景进行配对的。这部分，我们来深入agent，思考面对建立好的强化学习，agent如何来解决问题。

Agent中可能有的三大组成部分：

Policy：智能体决策函数
Value Function：智能体action评价函数
Model：智能体对环境的建模

注意：三个部分通常不是必须都要有。

1. policy

策略通常用 $\pi$ 来表示，用来表征从state到action的函数映射

$a=\pi(s)$

如果用概率语言来描述的话：
$\pi(a|s)=p[A_t=a|S_t=s]$

2. Value Function

用于评价如果选择不同的action可能对应的不同state的好坏，从而依据状态来选择action. 本质上是在评价选取的策略的好坏。通过尽量把目光放长远来实现最优评价。

可以用如下公式描述：

$v_{\pi}(s)=E_{\pi}[R_{t+1} +\gamma R_{t+2}+\gamma ^2R_{t+3}+...|S_t=s]$

上述公式可以用文字表述：

基于当前状态 $S_t$ ，我们来判断如果选择policy $\pi$ 的话，可能获得的reward的总和。

具体的，我们可以将value function分别对应到state和action上，分别描述当前的state可能对应的value，以及具体采取某种action后对应的value.

需要注意的是，value function关注的总是future.

3. model

模型用来预测agent接下来的状态。其实就是对环境状态的观测 $S^a_t$ ，它反映了从机器人视角出发的在进行action之后，env做出的回馈。用于机器人生成下一次的策略 $\pi$ 。

比如agent是飞机，model通过分析当前的飞机速度朝向，周围环境的风向等因素，判断下一时刻飞机可能的state.

$P$ 表示下一个机器人的状态：
$P^a_{ss'}=P[S_{t+1}=s'|S_t=s,A_t=a]$

R表示下一个状态的对应奖励
$R^a_s=E[R_{t+1}|S_t=s,A_t=a]$

三、强化学习的分类

第二节中，我们详细说明了agent可能有的三大模块：policy，value function，model

依据agent这三部分的有与无，我们可以将强化学习的各类方法做一些大致分类。

在这里插入图片描述

1. value or policy

基于value的RL
表征agent内部state or action的value function.
必须包含着value function，policy可有可无
基于policy的RL
actor critic
既有value 也有policy

2. model or model free

model free 表示我们并不是通过建立model来理解环境。而是直接建立policy或者value function来分析理解环境。

model based 的RL，首先第一步需要建立对整个环境的model，用于说明环境的工作原理。

四、强化学习中的问题

1. learning and planning

在这里插入图片描述
learning问题，首先，在最开始的时候，环境对于agent而言是完全陌生的，agent需要不断与环境进行交互，不断了解、认识、与环境交互来提高policy的效果。

planning(规划)问题，环境的模型对agent是已知的，不变的。我们总是能准确get采取action后对应的环境状态，这其中就没有交互。就可以在第一步实现对整个全局的推演。

2. exploration vs exploitation

举例：

在这里插入图片描述
如何平衡EE是强化学习中的重要问题。

3. prediction and control

prediction：给出一个policy

control：在policy中寻找一个最优秀的

个人理解，control对应着value function，prediction对应着policy的生成。

建模仿真机器学习深度学习强化学习强化学习框架

打赏 0

上一篇：局部路径规划器teb_local_planner详解5：关于 robots models

下一篇：强化学习(2): 马尔可夫过程

强化学习(1): 概述

little_miya

一、强化学习描述

1. 算法定义

2. 算法特点

3. 关于reward

特点

意义

4. 关于state

4.1 environment state

4.2 agent state

5. 关于观测

5.1 Fully Observable Environments

5.2 Partially Observable Environments

二、强化学习中智能体的组成部分

1. policy

2. Value Function

3. model

三、强化学习的分类

1. value or policy

2. model or model free

四、强化学习中的问题

1. learning and planning

2. exploration vs exploitation

3. prediction and control

为你推荐

pytorch实现yolov3(2) 配置文件解析及各layer生成

YOLOX导出onnx文件

yolox 训练自己的数据集 （COCO格式）

人脸检测实战终极：使用 OpenCV 和 Python 进行人脸对齐

[基于Pytorch的MNIST识别02]用户数据集的读取

你知道如何计算CNN感受野吗？这里有一份详细指南

评论（0）

关于作者

little_miya

22

0

0

2

强化学习(2): 马尔可夫过程

强化学习之赌徒问题

强化学习常用的开源框架、库与环境

相关推荐

自然语言处理从入门到应用——预训练模型总览：迁移学习与微调

YOLOv5-v6.0学习笔记

第七十一篇：从ADAS到自动驾驶（四）：车辆检测

深度学习PyTorch笔记（9）：自动求导

精选python自然语言处理（NLP）1------中文分词1，基于规则的中文分词方法

pytorch实现yolov3(1) yolov3基本原理

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

yolox 训练自己的数据集（COCO格式）

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板