标签:sha -- alt order distrib ros png noi inf
有点像行政 v.s. 立法,一个 Q 只能负责提案,一个Q只能负责执行
不需要 sample 所有的 (s,a) pair;你可以用非常 efficient 的方式去 estimate 一个 Q-val 出来;
--> 这里用个什么隐向量啥的岂不是更好
--> 参数加 noise 的方式很值得深入研究
类似 adversarial attack 的研究
Distributional Q-func 在实作中大家follow 得不多,可能原因是因为实作困难
distributional 不会有比较大的 overestimate 的原因:类似特征工程里面的离散化。。。
标签:sha -- alt order distrib ros png noi inf
原文地址:https://www.cnblogs.com/cx2016/p/13598653.html