码迷,mamicode.com
首页 >  
搜索关键字:强化学习    ( 328个结果
什么是监督学习非监督学习,强化学习
机器学习按照学习方式的不同,分为很多的类型,主要的类型分为 监督学习 非监督学习 强化学习 半监督学习 什么是监督学习? 利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练。 正如下图中给出了好多鸭子的特征那样,指示出那些是鸭子哪些不是鸭子,然后让计算机进行学习,计算机 ...
分类:其他好文   时间:2018-12-21 22:48:41    阅读次数:302
【强化学习】python 实现 q-learning 例四(例二改写)
将例二改写成面向对象模式,并加了环境! 不过更新环境的过程中,用到了清屏命令,play()的时候,会有点问题。learn()的时候可以勉强看到:P 0.效果图 1.完整代码 相对于例一,修改的地方: Agent 五处:states, actions, rewards, get_valid_actio ...
分类:编程语言   时间:2018-12-18 21:47:59    阅读次数:268
强化学习(十三) 策略梯度(Policy Gradient)
在前面讲到的DQN系列强化学习算法中,我们主要对价值函数进行了近似表示,基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用,但是Value Based强化学习方法也有很多局限性,因此在另一些场景下我们需要其他的方法,比如本篇讨论的策略梯度(Policy Gradien ...
分类:其他好文   时间:2018-12-18 19:49:21    阅读次数:353
分享《揭秘深度强化学习》+彭伟
揭秘深度强化学习
分类:其他好文   时间:2018-12-18 12:12:25    阅读次数:246
【强化学习】python 实现 q-learning 例二
问题情境 一个2*2的迷宫,一个入口,一个出口,还有一个陷阱。如图 这是一个二维的问题,不过我们可以把这个降维,变为一维的问题。 0.相关参数 1.状态集 探索者的状态,即其可到达的位置,有4个。所以定义 那么,在某个状态下执行某个动作之后,到达的下一个状态如何确定呢? 2.动作集 探索者处于每个状 ...
分类:编程语言   时间:2018-12-18 11:00:19    阅读次数:271
python进阶强化学习
最近学习了慕课的python进阶强化训练,将学习的内容记录到这里,同时也增加了很多相关知识。 主要分为以下九个模块: 1. 基本使用 2. 迭代器和生成器 3. 字符串 4. 文件IO操作 5. 自定义类和类的继承 6. 函数装饰器和类的装饰器 7. 进程和线程 8. 内存管理和垃圾回收机制 基本使 ...
分类:编程语言   时间:2018-12-13 12:43:56    阅读次数:232
跟我学算法-强化学习16宫格(向唐老师看齐)
强化学习:当前的奖励值: ...
分类:编程语言   时间:2018-12-07 12:59:44    阅读次数:597
python玩转街机游戏,操作亲民!
这是一个允许你在几乎任何街机游戏中训练你的强化学习算法的Python库,它目前在Linux系统上可用。通过这个工具包,你可以定制算法逐步完成游戏过程,同时接收每一帧的数据和内部存储器地址值以跟踪游戏状态,以及发送与游戏交互的动作。
分类:编程语言   时间:2018-12-06 14:22:34    阅读次数:229
【容器魔方解读】AWS Re:Invent 2018大会
容器魔方对AWS Re:Invent 2018的完整解读,如果大家有不同的观点,或者想容器魔方为您详细解读某个产品或技术趋势,请在文章下留言
分类:其他好文   时间:2018-12-05 18:37:14    阅读次数:242
计算机视觉入门:我推荐你这样学习!【转】
近年来,计算机视觉取得了很大进展。这些是我将在这里提到的主题内容: 技术: 应用: 关注的人: 重要的深度学习创始人:Andrew ng,Yann lecun,Bengio yoshua,Hinton joffrey 课程 : 相关领域: 深度强化学习:使用cnn作为输入层,查看ppo和dqn 与n ...
分类:其他好文   时间:2018-11-30 15:37:05    阅读次数:186
328条   上一页 1 ... 15 16 17 18 19 ... 33 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!