搜索关键字：强化学习，搜索到328个结果！码迷,mamicode.com！

什么是监督学习非监督学习，强化学习

机器学习按照学习方式的不同，分为很多的类型，主要的类型分为监督学习非监督学习强化学习半监督学习什么是监督学习？利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练。正如下图中给出了好多鸭子的特征那样，指示出那些是鸭子哪些不是鸭子，然后让计算机进行学习，计算机 ...

分类：其他好文时间：2018-12-21 22:48:41 阅读次数：302

【强化学习】python 实现 q-learning 例四（例二改写）

将例二改写成面向对象模式，并加了环境！不过更新环境的过程中，用到了清屏命令，play()的时候，会有点问题。learn()的时候可以勉强看到:P 0.效果图 1.完整代码相对于例一，修改的地方： Agent 五处：states, actions, rewards, get_valid_actio ...

分类：编程语言时间：2018-12-18 21:47:59 阅读次数：268

强化学习(十三) 策略梯度(Policy Gradient)

在前面讲到的DQN系列强化学习算法中，我们主要对价值函数进行了近似表示，基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用，但是Value Based强化学习方法也有很多局限性，因此在另一些场景下我们需要其他的方法，比如本篇讨论的策略梯度(Policy Gradien ...

分类：其他好文时间：2018-12-18 19:49:21 阅读次数：353

分享《揭秘深度强化学习》+彭伟

揭秘深度强化学习

分类：其他好文时间：2018-12-18 12:12:25 阅读次数：246

【强化学习】python 实现 q-learning 例二

问题情境一个2*2的迷宫，一个入口，一个出口，还有一个陷阱。如图这是一个二维的问题，不过我们可以把这个降维，变为一维的问题。 0.相关参数 1.状态集探索者的状态，即其可到达的位置，有4个。所以定义那么，在某个状态下执行某个动作之后，到达的下一个状态如何确定呢？ 2.动作集探索者处于每个状 ...

分类：编程语言时间：2018-12-18 11:00:19 阅读次数：271

python进阶强化学习

最近学习了慕课的python进阶强化训练，将学习的内容记录到这里，同时也增加了很多相关知识。主要分为以下九个模块： 1. 基本使用 2. 迭代器和生成器 3. 字符串 4. 文件IO操作 5. 自定义类和类的继承 6. 函数装饰器和类的装饰器 7. 进程和线程 8. 内存管理和垃圾回收机制基本使 ...

分类：编程语言时间：2018-12-13 12:43:56 阅读次数：232

跟我学算法-强化学习16宫格(向唐老师看齐)

强化学习：当前的奖励值: ...

分类：编程语言时间：2018-12-07 12:59:44 阅读次数：597

python玩转街机游戏，操作亲民！

这是一个允许你在几乎任何街机游戏中训练你的强化学习算法的Python库，它目前在Linux系统上可用。通过这个工具包，你可以定制算法逐步完成游戏过程，同时接收每一帧的数据和内部存储器地址值以跟踪游戏状态，以及发送与游戏交互的动作。

分类：编程语言时间：2018-12-06 14:22:34 阅读次数：229

【容器魔方解读】AWS Re:Invent 2018大会

容器魔方对AWS Re:Invent 2018的完整解读，如果大家有不同的观点，或者想容器魔方为您详细解读某个产品或技术趋势，请在文章下留言

分类：其他好文时间：2018-12-05 18:37:14 阅读次数：242

计算机视觉入门：我推荐你这样学习！【转】

近年来，计算机视觉取得了很大进展。这些是我将在这里提到的主题内容：技术：应用：关注的人：重要的深度学习创始人：Andrew ng，Yann lecun，Bengio yoshua，Hinton joffrey 课程：相关领域：深度强化学习：使用cnn作为输入层，查看ppo和dqn 与n ...

分类：其他好文时间：2018-11-30 15:37:05 阅读次数：186

共328条上一页 1 ... 15 16 17 18 19 ... 33 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)