Paper 9. Human-level control through deep reinforcement learning

TIM

发布时间 2022.07.14阅读数 2708 评论数 0

本文是上一篇论文 Playing Atari with Deep Reinforcement Learning 的拓展，得益于更大量的实验数据和精美的配图，本最终于 2015 在 Nature 上发表。这也是 DeepMind 在 Nature 上的第一篇文章，随后 DeepMind 就成了 Nature 的常客。

本篇文章的基本思路与其 13 年发表的论文类似。但多了很多精美的图和视频。这里主要挑出这些图片进行讲解。

首先是神经网络可视化表示：

与上一篇文章 Playing Atari with Deep Reinforcement Learning 的方法一致，不过使用了更好看的图来展示。

然后使用了一张表展示了他们的实验成果，有 49 款游戏使用 DQN 可以达到甚至超越人类玩家的水平。

下图展示了在不同画面情况下的价值函数大小。这里就是告诉我们 AI 已经成功的发现了，在 BreakOut 这款游戏中，挖出通道的奖励是很大的。比较明显的是在 2 和 4 处。2 处时，AI 已经打出了一些比较深的洞后，再击打到最外层的砖块，agent 就受到了 Value 函数下降的惩罚。而 4 点，agent 把小球打通洞了之后，Value 函数到达了顶峰。

下图展示了使用 Q value 来提供游戏控制策略的图片。

这里AI学习到了一种非常极端的策略，即使用板子的边缘击球。如图 2，3 所示，在绿色板子击中球之前，agent 建议的控制策略都是向着球的方向移动。而当完成击打，并打出好球好，所有的操作都有较高的 Q 值，即胜率。

本文使用 Zhihu On VSCode 创作并发布

人工智能机器学习深度学习神经网络自动驾驶

打赏 0

上一篇：Paper 7. 自动驾驶汽车的影响

下一篇：ADP0. Carla 初体验

Paper 9. Human-level control through deep reinforcement learning

TIM

为你推荐

机器学习损失函数——python实现

小白也能学，从0到部署yolov5教程，Windows Linux PC arm Jeston全平台部署-(上)

姿态导纳强化学习控制---测试样本

SwinIR实战：如何使用SwinIR和预训练模型实现图片的超分

[MNIST02]损失函数

手写Momentum动量法以及NAG梯度下降

关于作者

TIM

38

0

0

3

基于Matlab的机器人学习日志 -- 4

ML5. 支持向量机 (Support Vector Machine)

Paper 9. Human-level control through deep reinforcement learning

相关推荐

强化学习工具包stable_baseline快速搭建模型

卷积神经网络（LeNet）识别Fashion-MNIST数据集（Pytorch版）

widerperson数据集转化为YOLOv5训练格式，并加入到crowdhuman中

Python自动发邮件

Faster RCNN训练过程、训练结果展示

BP神经网络的伪代码分析

热门泡泡

30积分失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

Paper 9. Human-level control through deep reinforcement learning

TIM

为你推荐

机器学习 损失函数——python实现

小白也能学，从0到部署yolov5教程，Windows Linux PC arm Jeston全平台部署-(上)

姿态导纳强化学习控制---测试样本

SwinIR实战：如何使用SwinIR和预训练模型实现图片的超分

[MNIST02]损失函数

手写Momentum动量法以及NAG梯度下降

评论（0）

关于作者

TIM

38

0

0

3

基于Matlab的机器人学习日志 -- 4

ML5. 支持向量机 (Support Vector Machine)

Paper 9. Human-level control through deep reinforcement learning

相关推荐

强化学习工具包stable_baseline快速搭建模型

卷积神经网络（LeNet）识别Fashion-MNIST数据集（Pytorch版）

widerperson数据集转化为YOLOv5训练格式，并加入到crowdhuman中

Python自动发邮件

Faster RCNN训练过程、训练结果展示

BP神经网络的伪代码分析

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

机器学习损失函数——python实现

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板