1. 蒙特卡洛方法的基本思想 蒙特卡罗方法又叫统计模拟方法,它使用随机数(或伪随机数)来解决计算的问题,是一类重要的数值计算方法。该方法的名字来源于世界著名的赌城蒙特卡罗,而蒙特卡罗方法正是以概率为基础的方法。 一个简单的例子可以解释蒙特卡罗方法,假设我们需要计算一个不规则图形的面积,那么图形的不规 ...
分类:
编程语言 时间:
2020-06-16 23:10:27
阅读次数:
67
圆周率的近似计算方法 使用蒙特卡洛方法估算圆周率,具体思路如下: 思考一个边长为 s 的正方形,它的内接圆和正方形的面积之比为 πr2/4 r2 = π/4。由此可以在正方形的面积范围内产生大量(n 个,需要足够大)随机的点,再统计这些点在圆的范围内的数量 m。则π/4 = m/n,由此可估算 π ...
分类:
其他好文 时间:
2020-04-27 15:49:06
阅读次数:
97
目录 蒙特卡洛方法概述 采样方法 小结 从名字我们可以看出,MCMC由两个MC组成,即蒙特卡罗方法(Monte Carlo Simulation,简称MC)和马尔科夫链(Markov Chain ,也简称MC)。这个因为受限玻尔兹曼机(RBM)中需要应用,所以先学习下其原理。本文先讲解蒙特卡洛方法。 ...
分类:
其他好文 时间:
2020-04-19 00:37:47
阅读次数:
73
一、初识强化学习 1. 强化学习和蒙特卡洛树搜索 因为这两周学习了蒙特卡洛树搜索算法,当时看了相关资料介绍,蒙特卡洛方法属于强化学习的范畴,所以我就去看了西瓜书的最后一章强化学习。我看书的时候就觉得蒙特卡洛树搜索算法和强化学习有着非常紧密的联系,书上提到的 exploration和exploitat ...
分类:
其他好文 时间:
2019-10-28 23:49:19
阅读次数:
386
马尔可夫决策过程 MDP 基于模型的动态规划方法(Model-Based,DP) 策略搜索 策略迭代 值迭代 无模型的强化学习方法(Model-Free) 蒙特卡洛方法(MC):效率不高,但是能够展现 model-free 类算法的特性; 时序差分方法(TD,Important):直接从 episo ...
分类:
其他好文 时间:
2019-10-08 23:58:32
阅读次数:
199
1、策略迭代、价值迭代、泛化迭代的前提条件:智能体知道环境的状态转移概率,即是基于模型的问题 2、蒙特卡洛方法采样:随机采样估计期望值,通过样本序列逼近真实的期望值。 成立原因:大数定理。 3、探索和利用,探索指的是不拘于当前的表现,选择不同于当前策略的行动;利用是持续使用当前的最优策略,尽可能的获 ...
分类:
其他好文 时间:
2019-09-16 11:55:04
阅读次数:
88
蒙特卡洛方法也称为统计模拟法、随机抽样技术、计算机随机模拟方法,以概率和统计理论方法为基础的一种计算方法,是使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。它源于世界著名的赌城—摩纳哥的Monte Carlo(蒙特卡洛)。将所求解的问题同一定的概率模型相联系,用电子计算机实现统计模拟或抽样 ...
分类:
编程语言 时间:
2019-08-13 15:24:43
阅读次数:
91
e的定义如下: 求解它有两种方法: 一是公式法, 取一个很大的数代入。 python代码如下: 二是蒙特卡洛方法 (题目本身不难,重点的是这种思维模式) ...
分类:
其他好文 时间:
2019-07-30 18:47:45
阅读次数:
128
蒙特卡洛方法求Π python import random count = 0 for i in range(1000000): x, y = random.random(), random.random() dist = pow(x 2 + y 2, 0.5) if dist ...
分类:
其他好文 时间:
2019-07-17 18:50:47
阅读次数:
159
一、π的介绍: π是数学和物理学普遍存在的常数之一,它定义了一个标准圆周长与直径之比。π是一个无理数,精确求解π是几何学、物理学和很多工程学科的关键。 二、π的计算方法: 蒙特卡洛方法 三、代码:(书中的) 四、运行结果: ...
分类:
其他好文 时间:
2019-03-21 00:44:26
阅读次数:
154