green bar is the reward function, blue curve is the possibility of differenct trajectories if green bars are equally increased to yellow bars, the res ...
分类:
其他好文 时间:
2018-05-25 00:27:41
阅读次数:
421
in policy gradient, "a" is replaced by "u" usually. use this new form to estimate how good the update is. If all three path show positive reward, shou ...
分类:
其他好文 时间:
2018-04-30 21:07:36
阅读次数:
131
题目链接:https://vjudge.net/contest/218427#problem/C 题目大意: 老板要给很多员工发奖金, 但是部分员工有个虚伪心态, 认为自己的奖金必须比某些人高才心理平衡; 但是老板很人道, 想满足所有人的要求, 并且很吝啬,想画的钱最少 输入若干个关系 a b a ...
分类:
编程语言 时间:
2018-04-11 00:17:45
阅读次数:
182
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=3613 题目大意: 题目大意就是将字符串s分成两部分子串,若子串是回文串则需计算价值,否则价值为0,求分割字符串s能获得的最大价值。 解题思路: 用manacher算法计算出p[i],每次计算p[i]是顺 ...
分类:
其他好文 时间:
2018-03-04 01:14:00
阅读次数:
204
题目链接: http://acm.hdu.edu.cn/showproblem.php?pid=3613 题目大意: 大意就是将字符串s分成两部分子串,若子串是回文串则需计算价值,否则价值为0,求分割字符串s能获得的最大价值。 解题思路:将原串s反转得到rs,然后进行rs,s扩展KMP匹配,得到ex ...
分类:
其他好文 时间:
2018-03-04 01:07:50
阅读次数:
176
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=2647 题目: Problem Description Dandelion's uncle is a boss of a factory. As the spring festival is coming ...
分类:
编程语言 时间:
2018-02-22 16:06:05
阅读次数:
213
var revenue = [350,450,550,650,850,1000,1100,1250,1500]; var reward = [0,30,40,50,100,200,240,300,400]; /* 根据指定的值,在revenue查找第一个比它大的值,返回对应的索引,通过索引在rewa... ...
分类:
Web程序 时间:
2018-01-26 12:38:43
阅读次数:
292
If you don't know where you are going, you might not get there. 如果你不知道自己要去哪里,你可能永远到不了那里。 The reward of one duty is the power to fulfill another. 完成一个任 ...
分类:
其他好文 时间:
2017-12-31 12:49:15
阅读次数:
117
(没太听明白,下次重新听) 1. 增强学习 有一个 Agent 和 Environment 交互。在 t 时刻,Agent 获知状态是 st,做出动作是 at;Environment 一方面给出 Reward 信号 rt,另一方面改变状态至 st+1;Agent 获得 rt 和 st+1。目标是 A ...
分类:
编程语言 时间:
2017-12-10 19:33:47
阅读次数:
215
深度强化学习之:模仿学习(imitation learning) 2017.12.10 本文所涉及到的 模仿学习,则是从给定的展示中进行学习。机器在这个过程中,也和环境进行交互,但是,并没有显示的得到 reward。在某些任务上,也很难定义 reward。如:自动驾驶,撞死一人,reward为多少, ...
分类:
其他好文 时间:
2017-12-10 13:08:51
阅读次数:
675