码迷,mamicode.com
首页 >  
搜索关键字:强化学习    ( 328个结果
亲测可用的 Linux(Ubuntu18.04下)可运行的超级玛丽奥(gym-super-mario-bros)游戏的仿真环境—————————可用于强化学习算法的游戏模拟器环境
与前文中的俄罗斯方块游戏一样都是可以用于强化学习算法的游戏模拟器,这里介绍的是超级玛丽奥(gym-super-mario-bros)游戏的仿真环境。 Python库,代码地址: https://gitee.com/devilmaycry812839668/gym-super-mario-bros ...
分类:编程语言   时间:2021-07-05 17:33:37    阅读次数:0
DQN和DDPG
因工作需要遇到了DQN和DDPG。在这里详细介绍下这两种强化学习方法。 首先先说DQN。 DQN就是deep q network,谷歌设计的很多智能玩游戏的机器人基于这个算法,用表格存储每个状态的state以及这个state下每个action所拥有的q值实在太多了,需要占用太大的内存并不合理。我们可 ...
分类:其他好文   时间:2021-06-07 20:43:32    阅读次数:0
推荐系统(10)—— 进化算法、强化学习
1、进化策略(ES:evolution strategy) 在一定的抽象程度上,进化方法可被视为这样一个过程:从个体构成的群体中采样并让其中成功的个体引导未来后代的分布。但是,其数学细节在生物进化方法的基础上实现了很大的抽象,我们最好将进化策略看作是一类黑箱的随机优化技术。 策略作用方式以交叉熵CE ...
分类:编程语言   时间:2021-06-02 15:13:50    阅读次数:0
强化学习(8)------动态规划
一、动态规划 当问题具有下列两个性质时,通常可以考虑使用动态规划来求解: 一个复杂问题的最优解由数个小问题的最优解构成,可以通过寻找子问题的最优解来得到复杂问题的最优解 子问题在复杂问题内重复出现,使得子问题的解可以被存储起来重复利用 马尔科夫决策过程具有上述两个属性:贝尔曼方程把问题递归为求解子问 ...
分类:其他好文   时间:2021-06-02 13:25:23    阅读次数:0
目标检测(1)-Selective Search
基于region proposal的RCNN系列:RCNN、Fast RCNN、Faster RCNN 基于区域划分的YOLO、SSD 基于强化学习的AttentionNet等,还有最新的Mask RCNN。 我们将用一周时间先详细介绍每个模型然后通过Tensorflow跑一遍模型。 说到基于reg ...
分类:其他好文   时间:2021-04-12 12:04:29    阅读次数:0
【深度强化学习】9. Policy Gradient实现中核心部分torch.distributions
【导语】:在深度强化学习第四篇中,讲了Policy Gradient的理论。通过最终推导得到的公式,本文用PyTorch简单实现以下,并且尽可能搞清楚torch.distribution的使用方法。代码参考了LeeDeepRl-Notes中的实现。 1. 复习 \[ \theta \leftarro ...
分类:其他好文   时间:2021-01-16 12:16:36    阅读次数:0
MFMARL(Mean Field Multi-Agent Reinforcement Learning)实现
Mean Field Multi-Agent Reinforcement Learning(MFMARL) 是伦敦大学学院(UCL)计算机科学系教授汪军提出的一个多智能体强化学习算法。主要致力于极大规模的多智能体强化学习问题,解决大规模智能体之间的交互及计算困难。由于多智能体强化学习问题不仅有环境交 ...
分类:其他好文   时间:2021-01-13 10:55:25    阅读次数:0
关于知识图谱,我们接下来该研究什么?斯坦福教授们给出了答案
本文整理了斯坦福大学CS520知识图谱研讨会课程的第10集的内容,主要是关于知识图谱未来的研究方向,推荐给研究知识图谱的同学们~1使用强化学习进行多跳知识图谱推理第一位演讲者:RichardSocharRichard认为知识图谱未来的一个重要研究方向是使用强化学习进行多跳知识图谱推理。知识图谱的缺陷之一是不完整性,即知识图谱能存储的事实是有限的。对于知识图谱的重要应用——聊天机器人(Chatbot
分类:其他好文   时间:2020-12-29 11:04:55    阅读次数:0
[顶会论文]IROS2019机器人学习相关论文汇总
1.3D Deformable Object Manipulation Using Deep Neural Networks 摘要:由于其高二维性,可变形对象操纵是机器人技术中的一个难题。在本文中,我们提出了一种基于深度神经网络的控制器,以伺服控制具有未知变形特性的可变形物体的位置和形状。特别是,使 ...
分类:其他好文   时间:2020-12-28 10:51:58    阅读次数:0
基于深度强化学习的局内战斗自动化测试探索
游戏项目研发时,期望搭建自动化测试平台,发现局内bug,避免重复劳动、提高测试效率以及避免人为的操作错误。其中环境要求使用项目需要使用Airtest、poco对接强化学习的服务器,实现Airtest将状态信息发送给服务器,服务器返回下一步的决策。 1. 前期准备工作 了解Airtest、poco、强 ...
分类:其他好文   时间:2020-12-15 12:57:54    阅读次数:10
328条   1 2 3 4 ... 33 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!