码迷,mamicode.com
首页 > 其他好文 > 详细

强化学习基本概念

时间:2020-04-02 01:14:19      阅读:92      评论:0      收藏:0      [点我收藏+]

标签:智能   cti   最大化   否则   最大   执行   棋盘   占地面积   转换   

智能体(agent)

例如alpha-go中的棋盘,用于产生动作的主体就是智能体。

状态(state)

l例如当前棋盘中的局势就是状态,表示的是主体执行动作之前需要考虑的外部环境

动作(action)

例如下围棋中的落子,表示智能体在某个状态下采取的一个行为

奖励(reward)

例如当某一步有利于最后取得胜利,那么奖励记为1,否则记为-1。奖励是智能体用来决策在当前状态应该采取什么动作的参考标准。智能体的动作应该朝着未来奖励最大化方向行动。

策略(policy)

理解为目标。例如下围棋的策略就是占地面积比对方大。

 

他们的转换关系如下图

技术图片

 

强化学习基本概念

标签:智能   cti   最大化   否则   最大   执行   棋盘   占地面积   转换   

原文地址:https://www.cnblogs.com/loubin/p/12616989.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!