搜索关键字：强化学习，搜索到328个结果！码迷,mamicode.com！

ML-Agents（二）创建一个学习环境

ML Agents（二）创建一个学习环境一、前言上一节我们讲了如何配置ML Agents环境，这一节我们创建一个示例，主要利用Reinforcement Learning（强化学习）。如上图，本示例将训练一个球滚动找到随机放置的立方体，而且要避免从平台上掉下去。本示例是基于ML Agents ...

分类：其他好文时间：2020-03-16 23:11:42 阅读次数：67

（十三）从零开始学人工智能-强化学习:值函数近似和策略梯度

强化学习值函数近似和策略梯度 [toc] 前两节内容都是强化学习的一些基础理论，只能解决一些中小规模的问题，实际情况下很多价值函数需要一张大表来存储，获取某一状态或动作价值的时候通常需要一个查表操作，这对于某些状态或动作空间很大的问题几乎无法求解，而许多实际问题拥有大量状态或动作，甚至是连续的状 ...

分类：其他好文时间：2020-03-12 09:49:06 阅读次数：93

机器学习基本概念

机器学习可分为：有监督（Supervised Learning）、无监督（Unsupervised Learning）、强化学习(Reinforcement Learning) 1. 有监督学习：数据集包含样本 x 与标签 y ，训练时，通过计算模型的预测值与真实标签 y 之间的误差来优化网络参数 ...

分类：其他好文时间：2020-03-05 13:54:23 阅读次数：72

机器学习总结（参考源码ml.hpp）

依据机器学习算法如何学习数据可分为3类：有监督学习：从有标签的数据学习，得到模型参数，对测试数据正确分类；无监督学习：没有标签，计算机自己寻找输入数据可能的模型；强化学习（reinforcement learning）：计算机与动态环境交互，学习错误反馈达到更优的目的。依据机器学习期望结果来 ...

分类：其他好文时间：2020-02-28 11:57:59 阅读次数：60

论文阅读 | Event Identification as a Decision Process with Non-linear Representation of Text

一、摘要提供了一种新的篇章级别的事件识别模型scale-free Identifier Network (sfIN)，能够更有效地处理长文档。模型采用监督学习和强化学习结合的方法训练。二、架构与LSTM-crf等基于神经网络的模型不同，mRR将文本编码到一个分层的存储栈中，使整个文本能进行更复 ...

分类：其他好文时间：2020-02-20 13:29:35 阅读次数：63

<强化学习> on policy VS off policy

默认价值函数为Q(s,a)，策略迭代更新为pai <—— epsilon-greedy(Q) policy是agent的属性，决定了agent面对某状态s时会选择哪个行为a value是agent的感觉，代表着agent对某个(s,a)的感觉，感觉它好感觉它不好强化学习迭代过程中， policy- ...

分类：其他好文时间：2020-02-20 13:23:09 阅读次数：102

<强化学习>基于采样迭代优化agent

前面介绍了三种采样求均值的算法 ——MC ——TD ——TD(lamda) 下面我们基于这几种方法来迭代优化agent 传统的强化学习算法 || ν ν 已经知道完整MDP——使用价值函数V（s）没有给出完整MDP——使用价值函数Q（s，a）可见我们的目标就是确定下来最优策略和最优价值函数 | ...

分类：其他好文时间：2020-02-14 20:25:06 阅读次数：71

无监督、弱监督、半监督、强化、多示例学习是什么

什么是监督学习、无监督学习、强化学习、弱监督学习、半监督学习、多示例学习？随着机器学习问题不断深入人心，人们也将现实中遇到不同的问题分为不同的学习方式，其中，最基础的应属监督学习，无监督学习和强化学习了。监督学习(supervised learning)：已知数据和其一一对应的标签，训练一个智能算 ...

分类：其他好文时间：2020-02-14 18:04:37 阅读次数：307

2020年最具潜力44个顶级开源项目，涵盖11类 AI 学习框架、平台

包含：经典机器学习、深度学习、强化学习、计算机视觉、分布式训练、自动建模、平台 1 . 适用于经典机器学习的工具一、SciKit-learn star 39.2k fork 19.2k scikit-learn 是一种强大的基于 Python 语言的机器学习算法库（https://scikit-l ...

分类：其他好文时间：2020-02-12 22:32:06 阅读次数：114

<强化学习>马尔可夫决策过程MDP

1.MDP / NFA ：马尔可夫模型和不确定型有限状态机的不同状态自动机：https://www.cnblogs.com/AndyEvans/p/10240790.html MDP和NFA唯一相似的地方就是它们都有状态转移，抛掉这一点两者就八竿子打不着了。 2.MP -> MRP -> MDP ...

分类：其他好文时间：2020-02-12 11:23:07 阅读次数：95

共328条上一页 1 ... 5 6 7 8 9 ... 33 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)