上一期笔记,忘记的小伙伴可以复习一下: 王源:【强化学习与最优控制】笔记(七) Rollout 与 Policy Improvement 本笔记对应教材中2.5节的内容。 1 模型预测控制的动机(Model Predictive Control) 一句话来概括 Model Predictive Control 就是 Rollout 算法的一种特殊情况,它也是 最优控制 (Optimal Co
———— 凯风自南,吹彼棘心。棘心夭夭,母氏劬劳。 概率论 (Probability Theory) 不确定性 (uncertainty) 是机器学习中一个重要概念,它一般由测量误差,温度漂移等因素引起,也可以由采样数据的有限性引起,在实际应用中有重要的指导意义。这时候就需要概率论的知识来描述模型方法的不确定性,从而提供了⼀个合理的框架来量化计算,同时需要概率分布来描述数据的分布,概率论也因此成
上一期笔记,忘记的小伙伴可以复习一下: 王源:【强化学习与最优控制】笔记(六) 强化学习中的Decomposition 1 Rollout Rollout 算法的基本思想就是 在未来有限的k步之内采用直接优化的方法(lookahead minimization),而在k步之外采用 base policy 对 Value function 来进行近似。其基本思想如下图所示: Rollout 的精妙
基于gym环境搭建机械臂强化学习训练环境 在本系列二中,完成了机械臂的正逆运动学搭建过程,也就是可以指定机械臂的末端到达某一个点了 Losgy浩:基于Pybullet搭建强化学习机械臂(二) 下面的内容将阐述如何利用gym模块来搭建强化学习的训练环境。本文的代码参考的是mujoco中的fetch机器人环境。 本文完整项目地址https://gi
———— 式微,式微,胡不归?微君之故,胡为乎中露? 信息论 机器学习的发展,离不开信息论的推动,两者有千丝万缕的联系。信息论主要研究的是对一个信号包含信息的多少进行量化,最早的应用是在一个含有噪声的信道上,用离散的字母表发送消息,例如通过无线电传输来通信。 在机器学习中,我们也可以把信息论应用于连续型变量,以及将相关的理论知识用于描述数据和模型的不确定性。在第一篇文章曾提到过将随机噪声看做高斯
———— 殷勤昨夜三更雨,又得浮生一日凉。 该部分先讲述一些机器学习的基本概念,然后再引出过拟合等知识点。 机器学习的主要目标是我们的算法必须能够在先前未观测的新输入上表现良好,而不只是在训练集上表现良好。在先前未观测到的输入上表现良好的能力被称为泛化 (generalization)。 当我们训练机器学习模型时,我们可以使用某个训练集,在训练集上计算误差函数被称为训练误差 (training
上一期笔记,忘记的小伙伴可以复习一下: 王源:【强化学习与最优控制】笔记(四)强化学习与最优控制的关联与对比 本笔记对应教材中2.1-2.2节的内容,由于原书中2.1-2.2的内容稍显混乱,我的笔记对这两小节的内容进行了重新梳理,顺序可能会和原书有点变化。 前四期的回顾,没有看或者有点忘记的童鞋可以复习一下: 王源:【强化学习与最优控制】笔记(一)确定性问题的动态规划 王源:【强化学习与最优
人类从外界环境接收的信息80%都来源于眼睛,那对于机器人而言,该如何通过视觉传感器对外界环境进行认知呢?今天我们就一起来学习学习。 移动机器人可以通过摄像头这类典型的视觉传感器,获取外界环境的数字图像信息,并以此对外界环境进行认知。 1.什么是数字图像 通过摄像头获取的图像可以定义为一个二维函数f(x,y),其中x和y是空间坐标,而f在任意一对坐标(x,y)处的幅度称为该点处图像的
———— 山有木兮,沅有芷兮。 神经网络 Neural Networks 神经⽹络 (neural networks) 是人工智能三大学派中联结主义 (connectionism) 的主要研究对象,联结主义又称为仿生学派 (bionicsism),是一门主张使用仿生学,尤其是人脑模型,进行人工智能研究的学派。最初使用电子装置从神经元突触等开始模仿人体神经系统结构功能,第三篇文章所讲的的感知器就是
上一期笔记,忘记的小伙伴可以复习一下: 王源:【强化学习与最优控制】笔记(三)动态规划求解实际问题举例 大家如果留心看强化学习的书或者文献的话会发现有两大类不同的名词,有的时候叫Controller,有的时候叫Agent,有的时候叫Cost,有的时候叫Reward,有的时候叫Control Variable,有的时候叫Action,有的时候叫System Dynamic,有的时候叫Envir
———— 满目山河空念远,落花风雨更伤春,不如怜取眼前人。 Logistic 回归 上一篇文章讨论了几种线性判别函数,这些判别函数都是将分类的推断及决策合而为一的,如果分成两个阶段讨论,针对决策,很自然联想使用概率表示分类的可能性,所以我们可以将分类结果映射到区间 上再决策。在原始输入空间中有很多已知类型的数据点,我们需要建立合适的模型对这些点进行区分。最简单的情况就是这些数据点是线性可分的,
Losgy浩 南开大学 工学硕士在读 5 人赞同了该文章 上节我们已经搭建完成了基本的场景Losgy浩:基于Pybullet搭建强化学习机械臂(一),也就是皮儿,这一节将继续完善机械臂的相关接口 完整项目地址:https://github.com/PiggyCh/RL_arm_under_
基于Pybullet搭建强化学习机械臂(一) 在强化学习中,常用的机器人仿真环境有 mojoco 、gazebo、pybullet 等等,这三个仿真环境中,mojoco一年的通行证费用还是让人望而却步,gazebo是基于ros的一个仿真库,ros的python版本和兼容性又是另一个让人头疼的问题。最后调研了现有的仿真环境,发现pybulle
———— 善不由外来兮,名不可以虚作。 线性分类 (Linear Classification) 在前几篇文章中总结了监督学习中的线性回归问题,现在开始进入线性分类章节。分类问题可以看做线性问题的延伸。回归问题的目标是将输入变量 映射到另一个空间并得到一个具体数值,而分类问题的目标则是输⼊变量 同样通过某种映射得到在另一个空间对应的值,然后将 划分到 个离散的类别 中的某⼀类。对于线性
上一期笔记,忘记的小伙伴可以复习一下: 王源:【强化学习与最优控制】笔记(二)随机性问题的动态规划 本笔记对应教材中1.3节的内容,这一章所有的例子都围绕前面二节所讲的动态规划算法的核心公式: 前两期的回顾,没有看或者忘记的童鞋可以复习一下: 王源:【强化学习与最优控制】笔记(一)确定性问题的动态规划 王源:【强化学习与最优控制】笔记(二)随机性问题的动态规划 1 最短路问题 最短路问
上一期的笔记是确定性问题的动态规划,忘记的小伙伴可以再复习一下: 王源:【强化学习与最优控制】笔记(一)确定性问题的动态规划 0 写在前面的 上周我更新了第一篇关于强化学习与最优控制的笔记,整体反响还不错。我打算大约一周更新一篇文章。不得不说这本教材写得还真是蛮好的,推荐大家购买纸质版的(这个是影印版的,比英文原本要便宜不少),因为电子版的内容不是非常完整。 1 离散时间动态系统(随机性问题
———— 穷且益坚,不坠青云之志。 1. 最小均方误差 (Least Mean Squares) 上回说到,我们利用线性回归模型进行拟合,需要根据训练数据调节参数 的值,使得对于任意训练数据 ,模型的输出 更加接近目标值 ,同时最小化代价函数 (或误差函数) 使之无限趋近于0。由于误差函数是系数 的二次函数(线性回归 本身定义就是针对 的线性函数),所以其导数是关于 的线性函数,误
看到强化学习论文里面这种漂亮的图是不很羡慕。今天就是来看看这种画法。上面这些图中,线条两侧的填充区是置信区间,因为在一个x坐标轴的位置,有很多不同的y值对应,画图程序会自动计算估计的中间值来画线,同时自己添加上置信区间。 今天要说的是seaborn这个库,它虽然基于matplotlib,但是提供了更多的画图功能。Seaborn是Python中使用最广泛的数据可视化库之一,是Matplotlib的扩
广义回归神经网络(GRNN, generalized regression neural network)是美国学者Specht在1991年提出的,是径向基神经网络的一种,GRNN具有很强的非线性映射能力和柔性网络结构以及高度的容错性和鲁棒性,适用于解决非线性问题。GRNN在逼近能力和学习速度上较RBF网络有更强的优势,网络最后收敛于样本量积聚较多的优化回归面,并且在样本数据较少时,预测效果也较好
0 写在前面的 最近在学动态规划和强化学习,主要采用的教材是这本书,Bertsekas D P. Reinforcement learning and optimal control[M]. Belmont, MA: Athena Scientific, 2019. 这本书是最新出的目前网上能找到的只有一个草稿版本(没有电子版教材的可在评论区留言),纸质版在京东有卖的,建议大家将笔记和教材结
第三方账号登入
看不清?点击更换
第三方账号登入
QQ 微博 微信