首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
盐的甜
掘友等级
研究生
修之于身,其德乃真
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
6
文章 6
沸点 0
赞
6
返回
|
搜索文章
盐的甜
研究生
·
3年前
关注
# 强化学习 14 —— TD3 算法详解与tensorflow 2.0 实现
上篇文章 强化学习 13 —— DDPG算法详解 中介绍了DDPG算法,本篇介绍TD3算法。TD3的全称为 Twin Delayed Deep Deterministic ...
1
评论
分享
盐的甜
研究生
·
3年前
关注
强化学习13——Deep Deterministic Policy Gradient(DDPG)原理与实现
与确定性策略对应的是随机性策略,就是神经网络输出的是动作的分布,在确定每一步动作时,我们需要得到的策略分布进行采样,对于某些高纬的连续值动作,频繁的在高维空间对动作进行采样...
赞
评论
分享
盐的甜
研究生
·
3年前
关注
强化学习 12 —— Actor-Critic 算法详解与 Tensorflow 2.0 实现
其中 $G_t$ 就表示当前采取的行为,到episode结束一共能获得的奖励。对于 $G_t$ 是使用 MC 采样得到的 sample,只有到达最终状态才能逆序计算 $G_...
2
2
分享
盐的甜
研究生
·
3年前
关注
强化学习 11 —— REINFORCE 算法 Tensorflow 2.0 实现
对于这个式子,我们是基于 MC 采样的方法得来的。对于MC采样的轨迹是没有偏差的。但是因为是采样,所以每条轨迹获得的奖励非常不稳定,造成有比较高的方差。为了减少方差,这里有...
赞
评论
分享
盐的甜
研究生
·
3年前
关注
强化学习 10 —— Policy Gradient 推导
前面几篇文章价值函数近似、DQN算法、DQN改进算法DDQN和Dueling DQN我们学习了 DQN 算法以及其改进算法 DDQN 和 Dueling DQN 。他们都是...
赞
评论
分享
盐的甜
研究生
·
3年前
关注
强化学习 9 —— DQN 改进算法 DDQN、Dueling DQN 详解
其中的 $max$ 操作使得估计的值函数比值函数的真实值大,因为DQN是一种off-policy的方法,每次学习时,不是使用下一次交互的真实动作,而是使用当前认为价值最大的...
2
1
分享
盐的甜
研究生
·
3年前
关注
强化学习 8 —— DQN 代码 Tensorflow 2.0 实现
在上一篇文章强化学习——DQN介绍 中我们详细介绍了DQN 的来源,以及对于强化学习难以收敛的问题DQN算法提出的两个处理方法:经验回放和固定目标值。这篇文章我们就用代码来...
5
1
分享
盐的甜
研究生
·
3年前
关注
强化学习 7 —— 一文详解 DQN 算法
上篇文章强化学习——状态价值函数逼近介绍了价值函数逼近(Value Function Approximation,VFA)的理论,本篇文章介绍大名鼎鼎的DQN算法。DQN算...
2
评论
分享
盐的甜
研究生
·
3年前
关注
强化学习 6 —— 价值函数逼近
上篇文章强化学习——时序差分 (TD) 控制算法 Sarsa 和 Q-Learning我们主要介绍了 Sarsa 和 Q-Learning 两种时序差分控制算法,在这两种算...
2
评论
分享
盐的甜
研究生
·
3年前
关注
强化学习 5 —— SARSA 和 Q-Learning 代码实现与详解
上篇文章 强化学习——时序差分 (TD) --- SARSA and Q-Learning 我们介绍了时序差分TD算法解决强化学习的评估和控制问题,TD对比MC有很多优势,...
2
评论
分享
盐的甜
研究生
·
3年前
关注
强化学习 4 —— 时序差分法(TD)的 预测与控制
对于MC采样法,如果我们没有完整的状态序列,那么就无法使用蒙特卡罗法求解了。当获取不到完整状态序列时, 可以使用时序差分法(Temporal-Difference, TD)...
2
评论
分享
盐的甜
研究生
·
3年前
关注
强化学习 3 —— 蒙特卡洛法(MC)解决无模型问题的预测与控制
可以发现,对于这两个算法,有一个前提条件是奖励 R 和状态转移矩阵 P 我们是知道的,因此我们可以使用策略迭代和价值迭代算法。对于这种情况我们叫做 Model base。同...
1
评论
分享
盐的甜
研究生
·
3年前
关注
强化学习 2 —— 用动态规划求解 MDP 问题(Policy Iteration and Value Iteration)
在上一篇文章 强化学习 1 —— 一文读懂马尔科夫决策过程 MDP 介绍了马尔科夫过程,本篇接着来介绍如何使用动态规划方法来求解。 一是问题的最优解可以由若干小问题的最优解...
1
评论
分享
盐的甜
研究生
·
3年前
关注
强化学习 1 --- 马尔科夫决策过程(MDP)
根据上图,agent(智能体)在进行某个任务时,首先与environment进行交互,产生新的状态state,同时环境给出奖励reward,如此循环下去,agent和e...
1
评论
分享
盐的甜
研究生
·
3年前
关注
深度卷积生成对抗网络(DCGAN)---- tensorflow 实现
固定判别器,让生成器不断生成假数据,给判别器判别,开始生成器很弱,但是随着不断的训练,生成器不断提升,最终骗过判别器。此时判别器判断假数据的概率为50% 固定生成器,训练判...
赞
评论
分享
盐的甜
赞了这篇文章
wendux
前端技术负责人 @字节跳动
·
5年前
关注
Flutter教程(一) Flutter简介
Flutter是谷歌的移动UI框架,可以快速在iOS和Android上构建高质量的原生用户界面。 Flutter可以与现有的代码一起工作。在全世界,Flutter正在被越来...
373
33
分享
盐的甜
关注了
wendux
研究生
盐的甜
关注了
KenXu
研究生
盐的甜
赞了这篇文章
一颗香菜
运营 @前掘金
·
5年前
关注
我看完掘金上的227篇文章,总结出一份 Flutter 入门教程
本文致力于整理 Flutter 的入门的文章。作为自己学习 Flutter 的学习笔记。同时希望这篇文章能帮助小伙伴入门 Flutter 。 如果你第一次接触 Flutte...
1.5k
50
分享
盐的甜
赞了这篇文章
技术胖
程序员 @40岁去当保安了
·
5年前
关注
Flutter 44集免费基础视频教程
Flutter在2019年非常耀眼,身边所有的人都在学习Flutter,前端程序员在学,Android程序员在学,IOS程序员也在学,好像不学你就落伍了一样。为了打消小伙伴...
961
78
分享
下一页
个人成就
文章被点赞
55
文章被阅读
57,660
掘力值
1,006
关注了
7
关注者
70
收藏集
3
关注标签
22
加入于
2018-08-29