码迷,mamicode.com
首页 > 编程语言 > 详细

推荐系统(10)—— 进化算法、强化学习

时间:2021-06-02 15:13:50      阅读:0      评论:0      收藏:0      [点我收藏+]

标签:ima   训练   作用   gen   深度学习   environ   影响   推荐系统   方式   

1、进化策略(ES:evolution strategy)

  在一定的抽象程度上,进化方法可被视为这样一个过程:从个体构成的群体中采样并让其中成功的个体引导未来后代的分布。但是,其数学细节在生物进化方法的基础上实现了很大的抽象,我们最好将进化策略看作是一类黑箱的随机优化技术。

  策略作用方式以交叉熵CEM(一种进化算法)为例:算法先随机初始化参数和确定根据参数生成解的规则,根据参数生成N组解并评价每组解的好坏,选出评估结果在前百分之ρ的解并根据这些精英解采取重要性采样方法更新参数,新参数被用作下一轮生成N组解,如此循环直到收敛~

  特别的几点包括:进化策略的实现更加简单(不需要反向传播),更容易在分布式环境中扩展,不会受到奖励稀疏的影响,有更少的超参数。这个结果令人吃惊,因为进化策略就好像是在一个高维空间中简单地爬山,每一步都沿着一些随机的方向实现一些有限的差异。

  进化算法的目标与强化学习优化的目标都是预期奖励。但是,强化学习是将噪声注入动作空间并使用反向传播来计算参数更新,而进化策略则是直接向参数空间注入噪声。换个说话,强化学习是在「猜测然后检验」动作,而进化策略则是在「猜测然后检验」参数。因为我们是在向参数注入噪声,所以就有可能使用确定性的策略(而且我们在实验中也确实是这么做的)。也有可能同时将噪声注入到动作和参数中,这样就有可能实现两种方法的结合。

进化策略和强化学习区别:

  1. RL通过与环境交互来进行学习,而EA通过种群迭代来进行学习;
  2. 强化学习一般在动作空间(Action Space)进行探索(Exploration)。而相应的Credit或者奖励,必须在动作空间起作用,因此,存在梯度回传(back propagation)。进化算法直接在参数空间探索,不关心动作空间多大,以及对动作空间造成多大影响。

  3. RL通过最大化累计回报来解决序列问题,而EAs通过最大化适应函数(Fitness Function)来寻求单步最优;
  4. RL对于state过于依赖,而EA在agent不能准确感知环境的状态类问题上也能适用。

2、强化学习(Reinforcement Learning)

  本质是:基于环境而行动,以取得最大化的预期收益。

  强化学习具有高分导向性,和监督学习中的标签有些类似。但是又有些区别,区别就在于数据和标签一开始都不存在,需要模型自己来不断摸索。通过不断尝试,找到那些能带来高分的行为。

  

 技术图片

强化学习与有监督学习区别:

  • 有监督学习的训练样本是有标签的,强化学习的训练是没有标签的,它是通过环境给出的奖惩来学习;
  • 有监督学习的学习过程是静态的,强化学习的学习过程是动态的。这里静态与动态的区别在于是否会与环境进行交互,有监督学习是给什么样本就学什么,而强化学习是要和环境进行交互,再通过环境给出的奖惩来学习;
  • 有监督学习解决的更多是感知问题,尤其是深度学习,强化学习解决的主要是决策问题。因此有监督学习更像是五官,而强化学习更像大脑。

监督学习:

  • Open loop
  • Learning from labeled data
  • Passive data

强化学习:

  • Closed loop
  • Learning from decayed reward
  • Explore environment

技术图片

 

 

参考文献:

强化学习与监督学习区别

 

推荐系统(10)—— 进化算法、强化学习

标签:ima   训练   作用   gen   深度学习   environ   影响   推荐系统   方式   

原文地址:https://www.cnblogs.com/eilearn/p/14824174.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!