一、初识强化学习 1. 强化学习和蒙特卡洛树搜索 因为这两周学习了蒙特卡洛树搜索算法,当时看了相关资料介绍,蒙特卡洛方法属于强化学习的范畴,所以我就去看了西瓜书的最后一章强化学习。我看书的时候就觉得蒙特卡洛树搜索算法和强化学习有着非常紧密的联系,书上提到的 exploration和exploitat ...
分类:
其他好文 时间:
2019-10-28 23:49:19
阅读次数:
386
Tic-Tac-Toe游戏为3*3格子里轮流下棋,一方先有3子成直线的为赢家。 参考代码如下,我只删除了几个没用的地方: State状态类简要描述:每个状态用自定义hash值描述,主要方法为get_all_states(运行一次得到所有状态)和next_state(下一次棋,返回新的状态) 裁判:监 ...
分类:
其他好文 时间:
2019-10-16 21:40:10
阅读次数:
82
中文文档 TensorFlow 2 / 2.0 中文文档 知乎专栏 欢迎关注知乎专栏 https://zhuanlan.zhihu.com/geektutu 一、实战教程之强化学习 TensorFlow 2.0 (九) - 强化学习 70行代码实战 Policy Gradient TensorFlo ...
分类:
其他好文 时间:
2019-10-15 19:20:46
阅读次数:
193
强化学习基本要素
马尔科夫决策过程
策略学习(Policy Learning)
时序差分方法(TD method)
Q-Learning算法
Actor-Critic方法
DQN
DDPG
推荐系统强化学习建模
附录 ...
分类:
编程语言 时间:
2019-10-13 12:45:44
阅读次数:
105
马尔可夫决策过程 MDP 基于模型的动态规划方法(Model-Based,DP) 策略搜索 策略迭代 值迭代 无模型的强化学习方法(Model-Free) 蒙特卡洛方法(MC):效率不高,但是能够展现 model-free 类算法的特性; 时序差分方法(TD,Important):直接从 episo ...
分类:
其他好文 时间:
2019-10-08 23:58:32
阅读次数:
199
我的工程实践选题是《基于深度强化学习的智能控制系统设计》,通过搭建Tensorflow、ROS等深度学习和机器人仿真平台,将人工智能理论用于机器人、自动驾驶领域的决策与规划,通过深度强化学习来训练机器人的行为,实现航迹动态规划和智能避障等应用。可能用到的开发工具有Python,C/C++,Linux ...
分类:
其他好文 时间:
2019-10-08 22:25:17
阅读次数:
129
机器学习简介: 特征向量 目标函数 机器学习分类: 有监督学习:分类问题(如人脸识别、字符识别、语音识别)、回归问题 无监督学习:聚类问题、数据降维 强化学习:根据当前状态预测下一个状态,回报最大化,回报具有延迟性,如无人驾驶、下围棋 深度学习数学知识:微积分、线性代数、概率论、最优化方法 一元函数 ...
分类:
其他好文 时间:
2019-10-03 12:58:27
阅读次数:
120
问题定义 问题的定义 ? 在邹欣老师的博客有游戏介绍: "创新的时机 – 黄金点游戏" ? N个玩家,每人写一个或两个0~100之间的有理数 (不包括0或100),提交给服务器,服务器在当前回合结束时算出所有数字的平均值,然后乘以0.618(所谓黄金分割常数),得到G值。提交的数字最靠近G(取绝对值 ...
分类:
其他好文 时间:
2019-09-21 19:08:36
阅读次数:
117
1、策略迭代、价值迭代、泛化迭代的前提条件:智能体知道环境的状态转移概率,即是基于模型的问题 2、蒙特卡洛方法采样:随机采样估计期望值,通过样本序列逼近真实的期望值。 成立原因:大数定理。 3、探索和利用,探索指的是不拘于当前的表现,选择不同于当前策略的行动;利用是持续使用当前的最优策略,尽可能的获 ...
分类:
其他好文 时间:
2019-09-16 11:55:04
阅读次数:
88
1、梯度下降选择固定步长可能产生的情况:收敛、发散、重复的在两个数之间跳跃 2、np.zeros_like(x) 生成一个shape和x一样的全为0的数组 3、plt.counter画等高线图 4、tensorflow的scope 变量命名空间 (1)若tf.Variable(初始值,name=' ...
分类:
其他好文 时间:
2019-09-14 17:19:58
阅读次数:
121