前言:深度Q网络,又叫DQN 传统的强化学习中存储状态价值或者Q函数都是使用的表格(比如之前的Q表格),学名叫查找表(lookup table)。这个有什么问题吗?一个大问题就是只有离散情况(可穷尽)能够被存在于表格中。对于连续的状态空间怎么办呢? 最气人的就是,现实中还总是连续的状态空间。这个时候就不能够用表格对价值函数进行存储。这时候需要价值函数近似来解决这个问题。 价值函数近似(va
卷积神经网络 迁移学习 迁移学习前言一、经典的卷积神经网络二、迁移学习的目标三、好处四、步骤五、代码 前言 在深度学习训练的过程中,随着网络层数的提升,我们训练的次数,参数都会提高,训练时间相应就会增加,我们今天来了解迁移学习 一、经典的卷积神经网络 在pytorch官网中,我们可以看到许多经典的卷积神经网络。附官网链接:https://pytorch.org/ 这里简单介绍一下经典的
从之前的讨论看,都是有奖励的。哪怕是上一章的稀疏奖励,其实也有奖励。==假如任何奖励都没有怎么办?==本章介绍的就是这种情况的解决办法。什么时候任何奖励都没有。其实还挺常见的,以聊天机器人为例,聊的好不好很难定义奖励。解决这种情况的方法就是模仿学习 模仿学习(imitation learning),有时也叫示范学习或者学徒学习。指有一些专家的示范,通过模仿这些专家来达到目的。专家的示范含义很广,
深度学习 图像识别 三 传送门 本文目录 深度学习 图像识别 三 三、逐行学习代码,熟悉开发环境 1. Pycharm环境熟悉 2. 数据集准备 2.1 通过 keras.dataset 下载 cifar数据集 2.2 npy到底长啥样? 2.3 自制数据集 3. 模型训练 3.1 数据集分割 传送门
经典卷积神经网络——resnet resnet前言一、resnet二、resnet网络结构三、resnet181.导包2.残差模块2.通道数翻倍残差模块3.rensnet18模块4.数据测试5.损失函数,优化器6.加载数据集,数据增强7.训练数据8.保存模型9.加载测试集数据,进行模型测试四、resnet深层对比 前言 随着深度学习的不断发展,从开山之作Alexnet到VGG,网络结构不断优
关于奖励有这么一个问题:很多智能体,有时候根本没办法得到奖励。比如对于一件概率特别小的事情,如果做到了给它奖励为1,做不到就是0。从随机性的角度看,最终的奖励就会是0。没有奖励,机器也学不到什么有价值的东西。 称上面这种情况就叫做稀疏奖励。如果奖励很稀疏,RL的问题就会变得很难解决。一个真正厉害的智能体应该能够在系数奖励的情况下也学会和环境互动。本章就介绍一些解决稀疏奖励问题的方法 1.设计
强化学习近几年成为了研究的热门,AlphaGo的故事家喻户晓。作为一个准研究生,抱着极大的好奇心来学习这门理论,虽然网上已经有了许多参考资料,但知识还不是自己的。希望写这样一个系列的博客,能够在对这个领域有一些浅显的认识。所有文章的角度都会从一个小白出发,希望能给大家提供一些帮助。如有错误,请各位积极帮助指正。 本系列的参考书籍为《Easy RL》,获取原文可点此处。提取码2022。所以整系列
前言:演员-评论员算法又叫actor-critic算法 先从宏观上把握下本章的的内容:之前介绍过actor-critic是一种value base和policy base的结合体。首先要说明各自的缺点,再整体介绍一下actor-critic算法本身。最后会介绍几种基于actor-critic的改进算法。让我们开始吧! actor-critic是一种结合策略梯度(policy base)和时
深度学习 图像识别 〇、一、二 传送门 〇、前言 关于本次竞赛的规则、需要做识别的任务场景、所采用的数据集,请查看卓老师的博文 第十六届智能汽车竞赛AI视觉组分赛区数据集发布第十六届全国大学智能汽车竞赛竞速比赛规则 一、机器学习基础 在开始做软件之前,我通过阅读周志华教授的西瓜书大致了解了一些机器学习的基础概念。 西瓜书的前3章是公共基础。后面4~10
从第一章中了解到强化学习中,智能体通过和环境进行交互获得信息。这个交互过程可以通过马尔可夫决策过程来表示,所以了解一下什么是MDP至关重要。 不过在了解马尔可夫决策过程之前,先要一些预备知识,它们分别叫马尔可夫性质、马尔可夫过程/马尔可夫链、马尔可夫奖励过程。 马尔可夫性质(Markov property):如果一个状态的下一个状态只取决于当前状态,跟它当前状态之前的状态都没有关系。换句话说
经典卷积神经网络——VGG16 VGG16前言一、VGG发展历程二、VGG网络模型三、VGG16代码详解1.VGG网络架构2.VGG16网络验证2.读取数据,进行数据增强3.训练模型,测试准确率四、VGG缺点 前言 我们都知道Alexnet是卷积神经网络的开山之作,但是由于卷积核太大,移动步长大,无填充,所以14年提出的VGG网络解决了这一问题 一、VGG发展历程 VGG网络由牛津大学在
目录 1 SENet 1.1 SENet原理 1.2 SENet代码(Pytorch) 1.3 YOLOv5中加入SE模块 1.3.1 common.py配置 1.3.2 yolo.py配置 1.3.3 创建添加RepVGG模块的YOLOv5的yaml配置文件 2 CBAM 2.1 CBAM原理 2.2 CBAM代码(Pytorch) 2.3 YOLOv5
卷积神经网络resent网络实践 文章目录 前言一、技术介绍二、实现途径三、总结 前言 上篇文章,讲了经典卷积神经网络-resnet,这篇文章通过resnet网络,做一些具体的事情。 一、技术介绍 总的来说,第一步首先要加载数据集,对数据进行一些处理,第二步,调整学习率一些参数,训练好resnet网络模型,第三步输入图片或者视频通过训练好的模型,得到结果。 二、实现途径 1.加载数
深度学习 1. 神经网络 1. 概述 引例:生物神经网络作用机理 生物神经网络的基本工作原理:一个神经元的输入端有多个树突,主要是用来接收输入信息的。输入信息经过突触处理,将输入的信息累加,当处理后的输入信息大于某一个特定的阈值,就会把信息通过轴突传输出去,这时称神经元被激活。相反,当处理后的输入信息小于阈值时,神经元就处于抑制状态,它不会像其他神经元传递信息。或者传递很小的信息。
深度学习PyTorch笔记(12):线性神经网络——softmax回归 6 线性神经网络——softmax回归 6.1 softmax回归 6.1.1 概念 6.1.2 softmax运算 6.2 图像分类数据集(Fashion-MNIST) 6.2.1 读取数据集 6.2.2 读取小批量 6.2.3 整合所有组件 6.3 softmax回归的
深度学习计算机视觉理论基础(PyTorch) 1 神经网络与cv 1.1 经典的人工神经元模型:M-P 模型 1.2 感知机(Perceptron)的诞生 1.3 计算机视觉 2 深度神经网络基础 2.1 监督学习和无监督学习 2.1.1 监督学习(Supervised Learning) 2.1.2 无监督学习(Unsupervised Learnin
深度学习PyTorch笔记(13):多层感知机 7 多层感知机 7.1 隐藏层 7.2 激活函数(activation function) 7.2.1 ReLU函数(修正线性单元Rectified linear unit,ReLU) 7.2.1.1 pReLU 7.2.2 sigmoid函数(挤压函数,squashing function)
前言 模型剪枝(Model Pruning)是一种用于减少神经网络模型尺寸和计算复杂度的技术。通过剪枝,可以去除模型中冗余的参数和连接,从而减小模型的存储需求和推理时间,同时保持模型的性能。 模型剪枝的一般步骤: 训练初始模型:训练一个初始的神经网络模型 评估参数重要性:计算每个参数的重要性指标来评估参数的贡献程度 剪枝冗余参数:根据阈值将参数置零,或者直接将对应的连接删除,从而
前言 SVM算法在在1995年正式发表,在针对中小型数据规模的分类任务上有着卓越的效果,同时有着完整的理论证明,在20世纪末的几年和21世纪初的10年完胜神经网络,吴恩达在其2003年的《Machien learning》公开课上用两节课的时间对其进行讲解,而神经网络讲解了20min左右。就是这个算法把神经网络按在地上摩擦了大概15年的时间,直到深度学习的兴起。但即便这样,现在SVM算法依旧被广
0. 基本介绍 SmoothL1Loss是一种常用的损失函数,通常用于回归任务中,其相对于均方差(MSE)损失函数的优势在于对异常值(如过大或过小的离群点)的惩罚更小,从而使模型更加健壮。 SmoothL1Loss的公式为: 其中,x和y分别为模型的输出和标签,|x-y|表示它们之间的差异。当|x-y|小于1时,采用平方误差;否则采用线性误差。这使得SmoothL1Loss相比于
第三方账号登入
看不清?点击更换
第三方账号登入
QQ 微博 微信