推荐系统（10）—— 进化算法、强化学习

时间：2021-06-02 15:13:50 阅读：0 评论：0 收藏：0 [点我收藏+]

1、进化策略（ES：evolution strategy）

　　在一定的抽象程度上，进化方法可被视为这样一个过程：从个体构成的群体中采样并让其中成功的个体引导未来后代的分布。但是，其数学细节在生物进化方法的基础上实现了很大的抽象，我们最好将进化策略看作是一类黑箱的随机优化技术。

　　策略作用方式以交叉熵CEM（一种进化算法）为例：算法先随机初始化参数和确定根据参数生成解的规则，根据参数生成N组解并评价每组解的好坏，选出评估结果在前百分之ρ的解并根据这些精英解采取重要性采样方法更新参数，新参数被用作下一轮生成N组解，如此循环直到收敛~

　　特别的几点包括：进化策略的实现更加简单（不需要反向传播），更容易在分布式环境中扩展，不会受到奖励稀疏的影响，有更少的超参数。这个结果令人吃惊，因为进化策略就好像是在一个高维空间中简单地爬山，每一步都沿着一些随机的方向实现一些有限的差异。

　　进化算法的目标与强化学习优化的目标都是预期奖励。但是，强化学习是将噪声注入动作空间并使用反向传播来计算参数更新，而进化策略则是直接向参数空间注入噪声。换个说话，强化学习是在「猜测然后检验」动作，而进化策略则是在「猜测然后检验」参数。因为我们是在向参数注入噪声，所以就有可能使用确定性的策略（而且我们在实验中也确实是这么做的）。也有可能同时将噪声注入到动作和参数中，这样就有可能实现两种方法的结合。

进化策略和强化学习区别：

RL通过与环境交互来进行学习，而EA通过种群迭代来进行学习；
强化学习一般在动作空间（Action Space）进行探索（Exploration）。而相应的Credit或者奖励，必须在动作空间起作用，因此，存在梯度回传（back propagation）。进化算法直接在参数空间探索，不关心动作空间多大，以及对动作空间造成多大影响。
RL通过最大化累计回报来解决序列问题，而EAs通过最大化适应函数（Fitness Function）来寻求单步最优；
RL对于state过于依赖，而EA在agent不能准确感知环境的状态类问题上也能适用。

2、强化学习（Reinforcement Learning）

　　本质是：基于环境而行动，以取得最大化的预期收益。

　　强化学习具有高分导向性，和监督学习中的标签有些类似。但是又有些区别，区别就在于数据和标签一开始都不存在，需要模型自己来不断摸索。通过不断尝试，找到那些能带来高分的行为。

技术图片

强化学习与有监督学习区别：

有监督学习的训练样本是有标签的，强化学习的训练是没有标签的，它是通过环境给出的奖惩来学习；
有监督学习的学习过程是静态的，强化学习的学习过程是动态的。这里静态与动态的区别在于是否会与环境进行交互，有监督学习是给什么样本就学什么，而强化学习是要和环境进行交互，再通过环境给出的奖惩来学习；
有监督学习解决的更多是感知问题，尤其是深度学习，强化学习解决的主要是决策问题。因此有监督学习更像是五官，而强化学习更像大脑。

监督学习：

Open loop
Learning from labeled data
Passive data

强化学习：

Closed loop
Learning from decayed reward
Explore environment

技术图片

参考文献：

强化学习与监督学习区别

推荐系统（10）—— 进化算法、强化学习

标签：ima 训练作用 gen 深度学习 environ 影响推荐系统方式

原文地址：https://www.cnblogs.com/eilearn/p/14824174.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行