码迷,mamicode.com
首页 >  
搜索关键字:强化学习    ( 328个结果
ML-Agents(二)创建一个学习环境
ML Agents(二)创建一个学习环境 一、前言 上一节我们讲了如何配置ML Agents环境,这一节我们创建一个示例,主要利用Reinforcement Learning(强化学习)。 如上图,本示例将训练一个球滚动找到随机放置的立方体,而且要避免从平台上掉下去。 本示例是基于ML Agents ...
分类:其他好文   时间:2020-03-16 23:11:42    阅读次数:67
(十三)从零开始学人工智能-强化学习:值函数近似和策略梯度
强化学习 值函数近似和策略梯度 [toc] 前两节内容都是强化学习的一些基础理论 ,只能解决一些中小规模的问题,实际情况下很多价值函数需要一张大表来存储,获取某一状态或动作价值的时候通常需要一个查表操作,这对于某些状态或动作空间很大的问题几乎无法求解,而许多实际问题拥有大量状态或动作,甚至是连续的状 ...
分类:其他好文   时间:2020-03-12 09:49:06    阅读次数:93
机器学习基本概念
机器学习可分为:有监督(Supervised Learning)、无监督(Unsupervised Learning)、强化学习(Reinforcement Learning) 1. 有监督学习:数据集包含样本 x 与标签 y ,训练时,通过计算模型的预测值与真实标签 y 之间的误差来优化网络参数 ...
分类:其他好文   时间:2020-03-05 13:54:23    阅读次数:72
机器学习总结(参考源码ml.hpp)
依据机器学习算法如何学习数据可分为3类: 有监督学习:从有标签的数据学习,得到模型参数,对测试数据正确分类; 无监督学习:没有标签,计算机自己寻找输入数据可能的模型; 强化学习(reinforcement learning):计算机与动态环境交互,学习错误反馈达到更优的目的。 依据机器学习期望结果来 ...
分类:其他好文   时间:2020-02-28 11:57:59    阅读次数:60
论文阅读 | Event Identification as a Decision Process with Non-linear Representation of Text
一、摘要 提供了一种新的篇章级别的事件识别模型scale-free Identifier Network (sfIN),能够更有效地处理长文档。模型采用监督学习和强化学习结合的方法训练。 二、架构 与LSTM-crf等基于神经网络的模型不同,mRR将文本编码到一个分层的存储栈中,使整个文本能进行更复 ...
分类:其他好文   时间:2020-02-20 13:29:35    阅读次数:63
<强化学习> on policy VS off policy
默认价值函数为Q(s,a),策略迭代更新为pai <—— epsilon-greedy(Q) policy是agent的属性,决定了agent面对某状态s时会选择哪个行为a value是agent的感觉,代表着agent对某个(s,a)的感觉,感觉它好感觉它不好 强化学习迭代过程中, policy- ...
分类:其他好文   时间:2020-02-20 13:23:09    阅读次数:102
<强化学习>基于采样迭代优化agent
前面介绍了三种采样求均值的算法 ——MC ——TD ——TD(lamda) 下面我们基于这几种方法来 迭代优化agent 传统的强化学习算法 || ν ν 已经知道完整MDP——使用价值函数V(s) 没有给出完整MDP——使用价值函数Q(s,a) 可见我们的目标就是确定下来最优策略和最优价值函数 | ...
分类:其他好文   时间:2020-02-14 20:25:06    阅读次数:71
无监督、弱监督、半监督、强化、多示例学习是什么
什么是监督学习、无监督学习、强化学习、弱监督学习、半监督学习、多示例学习?随着机器学习问题不断深入人心,人们也将现实中遇到不同的问题分为不同的学习方式,其中,最基础的应属监督学习,无监督学习和强化学习了。 监督学习(supervised learning):已知数据和其一一对应的标签,训练一个智能算 ...
分类:其他好文   时间:2020-02-14 18:04:37    阅读次数:307
2020年最具潜力44个顶级开源项目,涵盖11类 AI 学习框架、平台
包含:经典机器学习、深度学习、强化学习、计算机视觉、分布式训练、自动建模、平台 1 . 适用于经典机器学习的工具 一、SciKit-learn star 39.2k fork 19.2k scikit-learn 是一种强大的基于 Python 语言的机器学习算法库(https://scikit-l ...
分类:其他好文   时间:2020-02-12 22:32:06    阅读次数:114
<强化学习>马尔可夫决策过程MDP
1.MDP / NFA :马尔可夫模型和不确定型有限状态机的不同 状态自动机:https://www.cnblogs.com/AndyEvans/p/10240790.html MDP和NFA唯一相似的地方就是它们都有状态转移,抛掉这一点两者就八竿子打不着了。 2.MP -> MRP -> MDP ...
分类:其他好文   时间:2020-02-12 11:23:07    阅读次数:95
328条   上一页 1 ... 5 6 7 8 9 ... 33 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!