Deep Deterministic Policy Gradient (DDPG) - off-policy- Actor-Critic structure Sequential Decision Principle DDPG 简单来说就是 DQN + Actor-Critic DDPG 结合了之前获得成功的 DQN 结构, 提高了 Actor-Critic 的稳定性和收敛性。为了体现DQN的思
- on-policy - Actor-Critic structure Sequential Decision点个赞啊亲,写的很累的啊 刘浚嘉:强化学习基础 Ⅳ: State-of-the-art 强化学习经典算法汇总221 赞同 · 17 评论文章 Vanilla Actor-Critic Principle a Critic that measures how good the actio
点个赞啊亲,写的很累的啊 PPO (Proximal Policy Optimization) - on-policy - either discrete or continuous action spaces- Policy-based Sequential Decision Theory Same as the TRPO, the central idea of Proximal Polic
点个赞啊亲,写的很累的啊 TRPO (Trust Region Policy Optimization) - on-policy - either discrete or continuous action spaces- Policy-based Sequential Decision Principle TRPO译为信赖域策略优化,TRPO的出现是要解决VPG存在的问题的:VPG的更新步长 是
Policy-based Sequential Decision 别看底下有英文,真的很简单,不信你读 点个赞啊亲,写的很累的啊 刘浚嘉:强化学习基础 Ⅳ: State-of-the-art 强化学习经典算法汇总 做Reinforcement Learning方向的,要明确其目标: 找到可以让agent获得最优回报的最优行为策略 ,所以对策略直接进行建模并按照梯度提升就是一个很自然的想法了。
Double DQN & Dueling DQN Value-based Sequential Decision 刘浚嘉:强化学习基础 Ⅳ: State-of-the-art 强化学习经典算法汇总221 赞同 · 17 评论文章 Implement TODO Double DQN 因为我们的神经网络预测 Qmax 本来就有误差, 每次也向着最大误差的 Q现实 改进神经网络, 就是
Deep Q Network Value-based Sequential Decision 刘浚嘉:强化学习基础 Ⅳ: State-of-the-art 强化学习经典算法汇总 Principle 抛弃Q表这种Q值记录方式,使用神经网络生成Q值,在状态较多的情况下格外有效率 2. Q估计:通过NN预测出的 的最大值 Q现实:Q 估计中最大值的动作来换取环境中的奖励
Q learning (Tabular) Value-based Sequential Decision 刘浚嘉:强化学习基础 Ⅳ: State-of-the-art 强化学习经典算法汇总 Principle 根据 表对下一时刻的动作进行选择,下图是 表的更新方式 此时, 并未进行下一次的动作,而是预估了一下后果,由此来更新 的 表。 其中, 是学习速率, 是选择
封面是OpenAI在 spinning up 中给出的分类,然而这已不足以囊括现有的SOTA算法,再次感慨AI领域发paper的速度。(然而在智能方面好像也没有推进很多,不过不积跬步无以至千里嘛) 为了让大家对 RL 的 SOTA 算法有一个直观的概念,我重新整理了一下 SOTA 算法目录,有些我已经在self-implement,有些写了相关的paper reading. Model-f
Preliminary of RL Ⅲ: on-policy, off-policy & Model-based, Model-free & Rollout on-policy & off-policy On-policy methods attempt to evaluate or improve the policy that is used to make dec
Preliminary of RL Ⅱ:DP, MC & TD 这篇post主要讲一下 MDP 问题的求解方法。上文讲过,MDP问题是具有延迟回报性质的,即当前状态下的最优动作不一定具有长远利益。在序列决策问题中,必须要求智能体具有长远的眼光。MDP基本的解法有三种:- 动态规划法(dynamic programming methods)- 蒙特卡罗方法(Monte Carlo meth
Preliminary of RL Ⅰ:Markov & Value function 马尔可夫决策过程MDP 马尔可夫模型的几类子模型 各种马尔可夫子模型的关系: 马尔可夫决策过程 一个马尔可夫决策过程由一个五元组构成 : S: 表示状态集(states),有 , 表示第i步的状态。 A: 表示一组动作(actions),有 , 表示第i步的动
TD3 (Twin Delayed DDPG) off-policy only continuous action spaces Actor-Critic structure Sequential Decision 刘浚嘉:强化学习基础 Ⅳ: State-of-the-art 强化学习经典算法汇总 Principle 尽管DDPG有时可以实现出色的性能,但它在超参数和其他类型的调整方面通常很脆
Deep Deterministic Policy Gradient (DDPG) - off-policy - Actor-Critic structure Sequential Decision 刘浚嘉:强化学习基础 Ⅳ: State-of-the-art 强化学习经典算法汇总 Principle DDPG 简单来说就是 DQN + Actor-Critic DDPG 结合了之前获得成功的 D
- on-policy - Actor-Critic structure Sequential Decision 点个赞啊亲,写的很累的啊 刘浚嘉:强化学习基础 Ⅳ: State-of-the-art 强化学习经典算法汇总 Vanilla Actor-Critic Principle a Critic that measures how good the action taken is (val
点个赞啊亲,写的很累的啊 PPO (Proximal Policy Optimization) - on-policy - either discrete or continuous action spaces Theory Same as the TRPO, the central idea of Proximal Policy Optimization is to avoid having t
点个赞啊亲,写的很累的啊 TRPO (Trust Region Policy Optimization) - on-policy- either discrete or continuous action spaces Principle TRPO译为信赖域策略优化,TRPO的出现是要解决VPG存在的问题的:VPG的更新步长 是个固定值,很容易产生从一个不好的策略'提升'到另一个更差的策略上。 这
Policy-based Sequential Decision别看底下有英文,真的很简单,不信你读 点个赞啊亲,写的很累的啊 做Reinforcement Learning方向的,要明确其目标: 找到可以让agent获得最优回报的最优行为策略 ,所以对策略直接进行建模并按照梯度提升就是一个很自然的想法了。 Vanilla Policy Gradient / REINFORCE - on-po
Double DQN & Dueling DQN Value-based Sequential Decision Implement TODO Double DQN 因为我们的神经网络预测 Qmax 本来就有误差, 每次也向着最大误差的 Q现实 改进神经网络, 就是因为这个 Qmax 导致了 overestimate(过估计)。 As a consequence, at the begin
Deep Q Network Value-based Sequential Decision Principle 抛弃Q表这种Q值记录方式,使用神经网络生成Q值,在状态较多的情况下格外有效率 2. Q估计:通过NN预测出的 的最大值 Q现实:Q 估计中最大值的动作来换取环境中的奖励 reward+ 下一步 中通过NN预测出的 的最大值 3. DQN两大利器: Experie
Q learning (Tabular) Value-based Sequential Decision Principle 根据 Q 表对下一时刻的动作进行选择,下图是 Q 表的更新方式 此时, 并未进行下一次的动作,而是预估了一下后果,由此来更新 的 Q 表。 其中, 是学习速率, 是选择 Q 表最大值的概率。若 ,则 概率选择 Q 表最大值即最优动作,
积分
粉丝
勋章
TA还没有专栏噢
第三方账号登入
看不清?点击更换
第三方账号登入
QQ 微博 微信