机器学习按照学习方式的不同,分为很多的类型,主要的类型分为 监督学习 非监督学习 强化学习 半监督学习 什么是监督学习? 利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练。 正如下图中给出了好多鸭子的特征那样,指示出那些是鸭子哪些不是鸭子,然后让计算机进行学习,计算机 ...
分类:
其他好文 时间:
2018-12-21 22:48:41
阅读次数:
302
将例二改写成面向对象模式,并加了环境! 不过更新环境的过程中,用到了清屏命令,play()的时候,会有点问题。learn()的时候可以勉强看到:P 0.效果图 1.完整代码 相对于例一,修改的地方: Agent 五处:states, actions, rewards, get_valid_actio ...
分类:
编程语言 时间:
2018-12-18 21:47:59
阅读次数:
268
在前面讲到的DQN系列强化学习算法中,我们主要对价值函数进行了近似表示,基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用,但是Value Based强化学习方法也有很多局限性,因此在另一些场景下我们需要其他的方法,比如本篇讨论的策略梯度(Policy Gradien ...
分类:
其他好文 时间:
2018-12-18 19:49:21
阅读次数:
353
问题情境 一个2*2的迷宫,一个入口,一个出口,还有一个陷阱。如图 这是一个二维的问题,不过我们可以把这个降维,变为一维的问题。 0.相关参数 1.状态集 探索者的状态,即其可到达的位置,有4个。所以定义 那么,在某个状态下执行某个动作之后,到达的下一个状态如何确定呢? 2.动作集 探索者处于每个状 ...
分类:
编程语言 时间:
2018-12-18 11:00:19
阅读次数:
271
最近学习了慕课的python进阶强化训练,将学习的内容记录到这里,同时也增加了很多相关知识。 主要分为以下九个模块: 1. 基本使用 2. 迭代器和生成器 3. 字符串 4. 文件IO操作 5. 自定义类和类的继承 6. 函数装饰器和类的装饰器 7. 进程和线程 8. 内存管理和垃圾回收机制 基本使 ...
分类:
编程语言 时间:
2018-12-13 12:43:56
阅读次数:
232
这是一个允许你在几乎任何街机游戏中训练你的强化学习算法的Python库,它目前在Linux系统上可用。通过这个工具包,你可以定制算法逐步完成游戏过程,同时接收每一帧的数据和内部存储器地址值以跟踪游戏状态,以及发送与游戏交互的动作。
分类:
编程语言 时间:
2018-12-06 14:22:34
阅读次数:
229
容器魔方对AWS Re:Invent 2018的完整解读,如果大家有不同的观点,或者想容器魔方为您详细解读某个产品或技术趋势,请在文章下留言
分类:
其他好文 时间:
2018-12-05 18:37:14
阅读次数:
242
近年来,计算机视觉取得了很大进展。这些是我将在这里提到的主题内容: 技术: 应用: 关注的人: 重要的深度学习创始人:Andrew ng,Yann lecun,Bengio yoshua,Hinton joffrey 课程 : 相关领域: 深度强化学习:使用cnn作为输入层,查看ppo和dqn 与n ...
分类:
其他好文 时间:
2018-11-30 15:37:05
阅读次数:
186