这篇博客只是为了自己记录,思路比较跳跃。 Policy Gradients 不估计局面的价值,转而预测选取每个动作的概率。因为某些游戏中我们可能会需要在相同的状态下做出随机行为,比如说某些资源有限的游戏,我们不可能一直在某一个地方一直获取资源。 更新函数是$\theta_{t+1}=\theta_t ...
分类:
其他好文 时间:
2019-03-17 01:13:20
阅读次数:
195
目的,写下面的表格: 如果下面这样写: 结果就是: 应该下面这样写: ...
分类:
其他好文 时间:
2019-03-16 21:59:39
阅读次数:
278
1 #include 2 #include 3 int n,m;//并查集。 4 int a[100000]; 5 void creat()//用来给每个单位赋值的,每个单位的值代表他们的上一级。 6 { 7 int i; 8 for(i=1; i<=n; i++) 9 { 10 a[i]=i; 1... ...
分类:
其他好文 时间:
2019-03-16 19:20:14
阅读次数:
138
1、原理 分为三个阶段: -Divide:整个问题划分成多个子问题 -Conquer:求解各子问题的解 -Merge:合并子问题的解,形成原始问题的解 2、示例 (1)整数乘法 输入:n位二进制整数X,Y 输出:X、Y的乘积 通常计算X*Y时间复杂性是O(n2),现给出一个时间复杂性为O(n1.59 ...
分类:
编程语言 时间:
2019-03-16 16:52:21
阅读次数:
258
comBox的几种状态图如下: 图1:ui->comboBox->setEditable(true); 图2:ui->comboBox->setEditable(false); 图1:ui->comboBox->setMaxVisibleItems(3); 图2:ui->comboBox->setM ...
分类:
其他好文 时间:
2019-03-16 15:33:35
阅读次数:
587
题目描述 给出一个区间的集合,请合并所有重叠的区间。 示例 1: 示例 2: 解题思路 定义一个比较器,按照区间的起始值排序 使用上述比较器对区间集合进行排序 遍历区间集合,使用一个链表 保存合并后的结果 如果当前区间和结果链表的尾部 没有 交集,就直接加入结果链表 如果当前区间和结果链表的尾部 有 ...
分类:
其他好文 时间:
2019-03-15 16:04:22
阅读次数:
190
raid 常用步骤 1.ctrl+R 进入raid设置界面 2.F2 相当于右键功能 3.箭头 → 是下一个选项功能 4.ctrl+n是下一页,ctrl+p是前一页 5.Esc退出。最后ctrl+alt+del重启服务器 1 开机根据屏幕提示按ctrl+R进入raid设置界面 2 光标移动到sas3 ...
分类:
系统相关 时间:
2019-03-12 18:16:01
阅读次数:
334
1. accelerate 加速、促进 2. penetrate 穿过、看穿 3. operate 操作、动手术 4. liberate 解放 5. classify 分类、分级 6. purify 净化、提纯 7. simplify 简化 6. qualify 证明合格、使有资格 7. quant ...
分类:
其他好文 时间:
2019-03-11 01:14:12
阅读次数:
145
Now an emergent task for you is to open a password lock. The password is consisted of four digits. Each digit is numbered from 1 to 9. Each time, you ...
分类:
其他好文 时间:
2019-03-10 12:19:56
阅读次数:
150
1 -------------------------------------------------------------------------- 2 分支操作 3 ----------------------------------------------------------------... ...
分类:
其他好文 时间:
2019-03-07 20:53:33
阅读次数:
186