强化学习1_Policy-based&Value-based

小何同学冷泡茶

分类：机器学习

发布时间 2022.03.02阅读数 2958 评论数 0

李宏毅ML学习笔记---Reinforcement Learning总结

0. 在学习A3C之前，首先需要了解的前置知识：

RL算法主要基于以下两种方法：

Policy-based：

Key Point: Learning an Actor/Policy (do action)
Main Idea:

STEP1——Define A set of Function 如果你的Function是Neural Network，可以肯定的是，你做的是Deep RL.

Input of NN: Agent(Machine)的观测值，可以用vector描述，也可以用matrix描述；
Output of NN: NN的输出，对应着每个动作，在你的需求中，有几个需要的action，这个NN的Output有着相对应的dimension；也可以理解为对应的每个动作的Probability(Softmax)

Benefits:NN可以“举一反三”，也就是泛化能力(generalized)，即使是没有看过的场景，也可能有很好的Performance.

STEP2——Decide the goodness of the function 定义这个Function的好坏，比如在Supervised Learning里面，我们用Total Loss来定义“好坏”，在RL内，如何定义这个好坏呢？（Goodness of Actor）

Given an actor $π_{\theta}(s)$ with network parameter $\theta$
Use the actor $π_{\theta}(s)$ to play the video game

同过上面的游戏过程，我们可以得到一个Total reward(corresponds to each eposide):

注意：即使是相同的actor/policy， $R_{\theta}$ 每次有可能也不一样（Randomness随机性)
我们期望去maxmize的不是 $R_{\theta}$ ,而是其Expected Value—— $R'_{\theta}$
$R'_{\theta}$ 就衡量了某一个 an actor $π_{\theta}(s)$ 的好坏；

一个eposide对应这一个Trajectory: $\tau$ (代表游戏开始到结束的这一种过程）。

计算Total_reward。

当你使用一个actor去玩某个游戏，每一个 $\tau$ 都有一定的几率被选中。If you use an actor to play the game ，each $\tau$ has a probability to be sampled.
The probability depends on actor parameter $\theta$ : $P(\tau|\theta)$ （当你的parameter是 $\theta$ 的时候， $\tau$ 出现的机率。
最后定义Expected Value of $R_{\theta}$ >>> Sum over all over possible trajectory.

实际处理中，采取下面这个办法：假设某个 $\tau$ 的Probability很大，则其被选中的机率则大了很多。

最终：进行等效代换：

STEP3——Pick the best function选择最好的Actor(How?--->Gradient Ascent类似于GD，但是你不是minimum而是 Maximum，所以是Gradient Ascent)

具体做法如下：（取log是因为）

总结一下，在 $\tau^{n}$ 的时候，当Machine看见 $s_{t}^{n}$ 时采取动作 $a_{t}^{n}$ 时，如果

则我们会倾向于调整parameter $\theta$ 来增加 $p(a_{t}^{n}|s_{t}^{n})$ >> 这个observation采取这样的action的probability变大，反之若是negative，则变小；
P.S..>>>为什么上面蓝色字体，除以 $p(a_{t}^{n}|s_{t}^{n},\theta)$ ？

相当于做一个Normalization，在update时，不会偏向那些出现几率比较高的Action；

Value-based:

Key Point: Learning a Critic (do evaluation)
A critic does not determine the action>>并不决定action;
Given an actor, it evaluates the how good the actor is >> 给定一个actor,critic评估这个actor的好坏；
An actor can be found from a critic(Q-learning)
A critic is a function depending on the actor π it is evaluated；Critic是一个函数，这个函数的用来评估一个observation（s）的好坏

The Function is represented by a Neural Network

State value function $V^{π}(s)$

当使用actor π时，在看到某一observation时，丢进这个V函数中，获得累计的reward。

上述两种方法结合Actor+Critic，就是A3C，也就是要学习的算法

主要可以学习的参考文献：

Textbook:Reinforcement Learning: An Introductionwebdocs.cs.ualberta.ca/~sutton/book/the-book.html

• Lectures of David Silverwww0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.ht

• Lectures of John Schulmanyoutu.be/aUrX-rP_ss4

强化学习 RL

打赏 0

上一篇：机器人学——学习笔记17(LFPB轨迹方法实例）

下一篇：强化学习2_Policy Gradients 代码实现

强化学习1_Policy-based&Value-based

小何同学冷泡茶

李宏毅ML学习笔记---Reinforcement Learning总结

0. 在学习A3C之前，首先需要了解的前置知识：

为你推荐

精选OpenAI官方提示词课（六）文本扩展

【目标检测】kera-yolo3模型计算mAP

【深度学习实战】从零开始深度学习（一）：利用PyTorch开始深度学习

YOLOX导出onnx文件

深入理解one-stage目标检测算法

机器学习中的数学原理——精确率与召回率

关于作者

小何同学冷泡茶

25

0

0

1

机器人学——学习笔记6(Link Transformations)

DCGAN原理及应用

搜索算法(1)——启发式搜索1(GBFS)

相关推荐

YOLO系列之YOLO-Lite：实时运行在CPU上的目标检测算法

精选Google Colab, Kaggle

支持向量机高斯核调参小结

AD4. 感知模块 - 目标检测

k210实现人脸检测（很详细）MaixDock -1

精选经典文献阅读之--A Survey on Generative Diffusion Models(扩散模型最新综述)

热门泡泡

30积分失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

强化学习1_Policy-based&Value-based

小何同学冷泡茶

李宏毅ML学习笔记---Reinforcement Learning总结

0. 在学习A3C之前，首先需要了解的前置知识：

为你推荐

精选OpenAI官方提示词课（六）文本扩展

【目标检测】kera-yolo3模型计算mAP

【深度学习实战】从零开始深度学习（一）：利用PyTorch开始深度学习

YOLOX导出onnx文件

深入理解one-stage目标检测算法

机器学习中的数学原理——精确率与召回率

评论（0）

关于作者

小何同学冷泡茶

25

0

0

1

机器人学——学习笔记6(Link Transformations)

DCGAN原理及应用

搜索算法(1)——启发式搜索1(GBFS)

相关推荐

YOLO系列之YOLO-Lite：实时运行在CPU上的目标检测算法

精选Google Colab, Kaggle

支持向量机高斯核调参小结

AD4. 感知模块 - 目标检测

k210实现人脸检测（很详细）MaixDock -1

精选经典文献阅读之--A Survey on Generative Diffusion Models(扩散模型最新综述)

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板