1、书 《An introduction to Reforcement Learning》Sutton and Barto, 1998,400页 《Algorithms for Reforcement Learning》Szepesvari,2010,偏数学,不到100页 2、强化学习的特点 不存在 ...
分类:
其他好文 时间:
2017-10-20 21:34:53
阅读次数:
248
依据机器学习算法如何学习数据可分为3类:有监督学习:从有标签的数据学习,得到模型参数,对测试数据正确分类;无监督学习:没有标签,计算机自己寻找输入数据可能的模型;强化学习(reinforcement learning):计算机与动态环境交互,学习错误反馈达到更优的目的。 依据机器学习期望结果来分类: ...
分类:
其他好文 时间:
2017-10-13 19:04:33
阅读次数:
171
学习的分类: 根据输出空间Y:分类(二分类、多分类)、回归、结构化(监督学习+输出空间有结构); 根据标签y:监督学习、无监督学习(聚类、密度估计、异常点检测)、半监督学习(标注成本高时)、强化学习; 根据数据喂给方式:批、在线(PLA、强化学习)、主动学习; 根据输入空间X:具体(相关物理意义)、 ...
分类:
其他好文 时间:
2017-10-07 19:38:44
阅读次数:
150
前言 2017.10.2博客园的第一篇文章,Mark。 由于实验室做的是NLP和医疗相关的内容,因此开始啃NLP这个硬骨头,希望能学有所成。后续将关注知识图谱,深度强化学习等内容。 进入正题,该文章是用神经网络处理NLP问题的Introduciton。希望读完此文能够对自然语言处理(using NN ...
分类:
Web程序 时间:
2017-10-03 17:50:37
阅读次数:
464
https://www.cs.cmu.edu/afs/cs/project/jair/pub/volume4/kaelbling96a-html/node24.html 【旧知-新知 强化学习:对新知、旧知的综合】 The adaptive heuristic critic algorithm is ...
分类:
其他好文 时间:
2017-09-30 19:35:29
阅读次数:
238
一、任务与奖赏 我们执行某个操作a时,仅能得到一个当前的反馈r(可以假设服从某种分布),这个过程抽象出来就是“强化学习”。 强化学习任务通常用马尔可夫决策过程MDP来描述: 强化学习任务的四要素 E = <X, A, P, R> E:机器处于的环境 X:状态空间 A:动作空间 P:状态转移概率 R: ...
分类:
其他好文 时间:
2017-09-17 17:27:07
阅读次数:
223
今天课程不多,内容却相当的繁琐,大多都是需要我们记忆的东西,各种属性的相互配合与各种属性的格式都需要注意。 通过对div的命名然后用选择器修改div的样子,包括大小、位置、颜色、等各种小变化。其中需要各种代码来完成,代码是非常繁多的。需要我们多多记忆来强化学习。 还有边框与边界。其中有三个比较常用有 ...
分类:
其他好文 时间:
2017-09-14 00:35:55
阅读次数:
135
引用自知乎,原文链接 https://www.zhihu.com/question/41775291 ...
分类:
其他好文 时间:
2017-09-10 20:51:33
阅读次数:
114
论文: https://einstein.ai/static/images/layouts/research/seq2sql/seq2sql.pdf 数据集:https://github.com/salesforce/WikiSQL Seq2SQL属于natural language interfa... ...
分类:
数据库 时间:
2017-09-07 17:05:55
阅读次数:
310
背景 背景 强化学习 强化学习 神经网络 神经网络 环境搭建 环境搭建 实验 实验 ...
分类:
移动开发 时间:
2017-09-03 01:13:25
阅读次数:
291