Collaborative Filtering with Temporal Dynamics------Yehuda Koren

时间：2014-09-04 16:42:49 阅读：346 评论：0 收藏：0 [点我收藏+]

标签：des style blog http color os io 使用 ar

　　个体用户的喜好可能会随着时间有所改变，我们称之为concept drift（观念转移），推荐系统的一大任务就是出去暂时性的喜好的影响，而获取到用户长期喜好的features。concept drift包括新物品或新服务的出现（特定的节假日，季节性周期变化）---这些变化是群体性的变化（即大家都会有所转变）；还有一些是各体性的变化（家庭结构的转变，用户的成长影响对电影，商品的喜好）---这些变化不能别建立在用户群级别上的模型所抓取。因此，我们旨在对每个用户建立concept drift模型，获取用户在时间轴上的行为转变。

　　对每个用户建立模型，必然会产生行为数据少的问题（模型的建立仅基于当前用户行为数据），因此，抛弃或者分配低权重给古老的评分数据是不合适的，而需要在整个历史行为中提取出long-term（persistent signal），删除noise。

　　以电影系统为例，以前用“3”表示不喜欢也不讨厌的用户，现在可能用“3”表示不喜欢了。另外，很多系统不能识别单设备多用户问题，简单的解决方案可能是用时间来划分使用者。

　　Netflix数据集：从31 December,1999到31 December,2005，收集了480,000位用户在17,700部电影上超过100 million的评分记录，每部影片平均得到5,600条评分，每个用户平均给出208条评分。Netflix数据中的两个temporal effects：04年的时候平均评分从3.4上升到了3.6；随着电影年龄的增长，所获得的评分也在上升（老电影比新电影获得更高的评分）：

bubuko.com,布布扣

　　RMSE作为评分标准：RMSE上很小的进步对推荐系统top-N质量有很大的提升。

解决concept drift问题：

　　1.instance selection：使用time-window(时间窗口)，问题在于仅考虑窗口内的instances（且这些instances的significance都相同），同时抛弃了所有窗口外的　　instances。

　　2.instance weighting：估计instance的相关性给它一定的权重。使用时间衰减函数（time decay function），为过去的instances赋权。

　　3.ensemble learning（集成学习）：集成许多predictors，根据predictor与当前时间的相关性为predictor赋权（predictors that were more successful on recent instances get higher weights）。

principles：　

　　1.需要一个能解释用户在整个时间轴上行为变化的模型，而不仅仅包括当前的行为。这是在每个时间片上提取signal，并且删除noise的基本条件。

　　2.多种concepts变化需要捕捉，包括user-dependent，item-dependent，gradual以及sudden。

　　3.essential to combine all those concepts within a single framework. This allows modeling interactions crossing users and items thereby identifying higher level patterns.

　　4.不需要去推测用户未来可能的偏好（在稀疏数据下，这项工作很难），而是需要在历史数据中isolate persistent signal from transient noise。

4. TIME-AWARE FACTOR MODEL

　　The baseline predictor：

　　 bubuko.com,布布扣

　　The factor model:

　　　 bubuko.com,布布扣

　　完整的模型（包括隐式数据）：

　　　 bubuko.com,布布扣

　　we would not expect a signi?cant temporal variation of item characteristics,More speci?cally, we identify the following effects: (1) user biases(bu) change over time; (2) Item biases (bi) change over time; (3)User preferences (pu) change over time.

4.2 Time changing baseline predictors

　　baseline predictors中两个主要关联的时间因素为：1.item的popularity会随着时间改变；2.用户的平均评分会随着时间改变。新的模型baseline predictor：

　　 bubuko.com,布布扣

　　首先处理b_i(t)，由于我们不期望影片的bias会在短期内有很大的改变（不像用户一样），因此我们将整个时间片进行划分（小的时间片可以有更好的性能，大的时间片每个片内有更多的数据），以10周为一片，共划分为30片，对每个时间t，赋予一个Bin(t)（即1到30之间的整数），这样就可以把b_i(t)分为static以及time changing两部分：

　　　 bubuko.com,布布扣

　　对于b_u(t)，我们需要能够检测到短暂的temporal effect（用户bias可以在短时间内发生比较大的变化）；另外，我们不期望将用户也像物品一样分片（因为没有足够的评分数据）。

　　首先定义一个线性模型的时间偏移量函数，表示当前评分时间与平均评分时间之间的距离，如下（本文算法中β=0.4）：

　　 bubuko.com,布布扣

　　给每个用户分配一个αu，因此得到一个模型（简单的线性模型，需要学习b_u以及α_u两个参数）：

　　 bubuko.com,布布扣

　　另外提供一个曲线式模型：

　　 bubuko.com,布布扣

　　这个模型只能捕获到gradual concept drift，而Netflix数据集中，有些用户在特定日子的评分趋向同一个值，这可以被描述成用户当天的心情。因此，为了解决这种short lived effects，分配给每个用户每天一个参数b_u,t，用于吸收day-speci?c variability。

　　Notice that in some applications the basic primitive time unit to work with can be shorter or longer than a day. E.g., our notion of day can be exchanged with a notion of a user session.

　　Netflix数据集中，每个用户平均在40天有过评分，因此user bias平均需要40个参数，加入到模型中：

　　 bubuko.com,布布扣

　　采用stochastic gradient descent学习参数（需要20-30个iterations，λ=0.01）：

　　 bubuko.com,布布扣

　　下表比较各种不同的baseline predictors之间的性能（用户bias比物品bias时间偏移显著，day-speci?c variability影响最大）：

　　 bubuko.com,布布扣

　　periodic effects:有些物品可能在特定季节或特定节日比较热门；电视节目在一天的不同时段热门度也不同（dayparting）；用户可能在周末更加表现出购物的欲望等等。解决方法是可以分配一个参数给物品或用户，这样，原式变成（由于未找到影片推荐系统中的periodic effects，因此文章不采用）：

　　 bubuko.com,布布扣