码迷,mamicode.com
首页 > 其他好文 > 详细

博弈论

时间:2016-06-05 18:52:25      阅读:194      评论:0      收藏:0      [点我收藏+]

标签:

为啥a有4个策略而b有3个策略?

技术分享

看到下面(树->矩阵)这个就了然了:

技术分享

强化学习的根本目的在于最大化奖励【optimize your long term expected reward(获得更多的奖励)】

MiniMAx

假设所有人都在寻求最优,达到最大化奖励

来吧,再加点不确定性进来~~愉快的玩耍吧~~~:

技术分享

Von Neumann冯·诺依曼提出的,哇塞,大牛就是腻害!!无处不在~~

ok,之前都是纯策略问题,下面再来看看综合策略问题~上图

技术分享

 

博弈论

标签:

原文地址:http://www.cnblogs.com/sxbjdl/p/5561319.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!