前阵子有人和我反馈说,我写的大部分算法都有点难度,好多都是没听说过的,有点冷门,不过,写的很不错。不过说实话,我好像写的大部分算法、都不是那么的常见,也具有一定的难度,也都不是热门算法。主要是我觉得,那些热门的算法,例如二分查找、链表逆序、深度遍历等各种,对应的文章太多了,感觉你们应该都看过,应该也都懂,所以我就没打算写了。不过,可能是我想多了,我问了一些人,发现还是挺多人对很多热门算法不是很懂的
分类:
编程语言 时间:
2020-12-01 12:43:52
阅读次数:
20
前面总结了马尔科夫决策过程之MarkovProcesses(马尔科夫过程),见下文:马尔科夫决策过程之MarkovProcesses(马尔科夫过程)马尔科夫决策过程之MarkovRewardProcess(马尔科夫奖励过程),见下文:马尔科夫决策过程之MarkovRewardProcess(马尔科夫奖励过程)本文总结一下马尔科夫决策过程之BellmanEquation(贝尔曼方程)1Bellman
分类:
其他好文 时间:
2020-11-30 15:35:59
阅读次数:
6
传统的强化学习算法具有很强的决策能力,但难以用于高维空间任务中,需要结合深度学习的高感知能力,因此延展出深度强化学习,最经典的就是DQN(Deep Q-Learning)。 DQN 2013 DQN的主要思想是训练CNN拟合出Q-Learning算法,以此让智能体在复杂的RL环境中从原始视频数据学到 ...
分类:
其他好文 时间:
2020-11-06 01:12:42
阅读次数:
18
本文主要研究了分布式强化学习,利用价值分布(value distribution)的思想,求出回报$Z$的概率分布,从而取代期望值(即$Q$值)。 Q-Learning Q-Learning的目标是近似Q函数,即在策略$\pi$下回报$Z_t$的期望值: \(Q^{\pi}(s,a)=\mathbb ...
分类:
其他好文 时间:
2020-11-06 01:12:19
阅读次数:
18
有点像行政 v.s. 立法,一个 Q 只能负责提案,一个Q只能负责执行 不需要 sample 所有的 (s,a) pair;你可以用非常 efficient 的方式去 estimate 一个 Q-val 出来; --> 这里用个什么隐向量啥的岂不是更好 --> 参数加 noise 的方式很值得深入研 ...
分类:
其他好文 时间:
2020-09-15 20:55:08
阅读次数:
55
上篇文章 强化学习——时序差分 (TD) SARSA and Q-Learning 我们介绍了时序差分TD算法解决强化学习的评估和控制问题,TD对比MC有很多优势,比如TD有更低方差,可以学习不完整的序列。所以我们可以在策略控制循环中使用TD来代替MC。优于TD算法的诸多优点,因此现在主流的强化学习 ...
分类:
编程语言 时间:
2020-08-10 15:45:57
阅读次数:
77
DQN Adventure: from Zero to State of the Art ...
分类:
其他好文 时间:
2020-08-08 17:48:15
阅读次数:
92
上一讲笔者和大家简单介绍了强化学习的相关概念,了解了Q-Learning算法及其简单实现实例。本节笔者将在上一讲的基础上,将强化学习回归到深度学习的主题上。 深度强化学习 强化学习+深度学习的一个结果就是形成了深度强化学习这样的新领域,本节我们先简单介绍一下深度强化学习,然后来看一下深度神经网络是如 ...
分类:
其他好文 时间:
2020-08-05 14:24:05
阅读次数:
68
暴雪在API测试中的应用 强化学习例子 问题:1 a,c,d,f。这里的d->f 是怎么计算的,我计算的是0.2*[4+ 0.8*(-1) - 0.6] 是这值 还要加上原 Q(S,A) = 0.56+ 0.6= 1.16=1.2 (图2 DF为什么是1.2) 2 关于结果相加 不是两个动作相加 而 ...
概述传统的控制:将任务分解成多个任务的串并联,设计(子)控制器机器学习:将控制器压缩成黑盒Black box强化学习不同于 监督、非监督学习(与静态数据交互),与环境产生交互,产生最优结果的动作序列。强化学习架构Agent: 由Policy 和 RL_Alg构成Enviroment:关键定义Rewa... ...
分类:
其他好文 时间:
2020-07-22 16:27:19
阅读次数:
132