码迷,mamicode.com
首页 > 其他好文 > 详细

推荐系统架构-(附ppt&代码)

时间:2017-10-23 18:05:05      阅读:192      评论:0      收藏:0      [点我收藏+]

标签:数据监控   target   amp   开发   用户   统计   eva   曝光   files   

Part1.乐视网视频推荐系统 

推荐系统:和传统的推荐系统架构无异(基础建模+规则)

数据模块特点:用户反馈服务数据-》kv 缓存-》log存储

                         行为日志-》解析/聚合-》session log-》cf/用户模型

系统推荐流程:

     召回:聚类算法;tensorflow(topN);分类,top个性化标签(微软lda);cf/als;人工干预

     排序:时效+相似度+gbdt/ LR

     过滤

     策略调整:分类多样性

调优—提升较明显的组合:

    1.分类+标签倒排排序

    2.itemcf+als召回+分类多样性

    3.itemcf召回优化排序+此召回的用户反馈调权占比40%

    4.item召回打分引入曝光

短视频冷启动:排序未点击的会马上落下

 

Part2.RoadMap of YouTube isrecommendation System(Ke Wang)PPT

Youtube推荐系统的发展历程:

    1.get tags:user共现图/pagerank思想 && 引用视频相关视频中top tags

    2.基于user兴趣推荐多级相关视频

    3.视频排序:质量,多样性,多频道源

    4.相关视频推荐优化:避免cf缺点(cf缺点:新鲜性 and 长尾)

        1)retrieval with weighted topic(短期内观看视频中大众类型标签推荐计算)

        2)防止(1),learning topic transitions

        用户行为去拟合topic的权重大小

  5.优化应用:deep learning

召回建模中的策略

    deep learning输入embedding:历史搜索+观看+用户特征,最后输出概率;

    显性反馈没有隐含反馈重要;

    用户最近100条兴趣 better than  最近100天用户的兴趣;

    feed流中:放弃序列输入 防止过拟合用户模块

    新用户的兴趣挖掘:时序行为挖掘 better 随机行为

ranking 建模:(用户观看时长为指标)

    dnn架构和召回类似。

    dnn输入:视频,视频均值,用户语言,视频语言,距离上次观看时间开方,原值,平方;先前的印象原值,开方,平方;等embedding

输出:加权lr(正样本评估加权)

 

Part3 58同城智能推荐系统的演进和实践 詹坤林

评价指标:推荐点击占比,推荐转化比,点击率,转化率,覆盖率(评价长尾)

特点:用户标签和帖子标签很完善

用户标签挖掘:

     标签会有分类:购房偏好,租房偏好,购车偏好,通用属性(时间,质量分,关键词,图片),动态属性(pv、uv、阅读时长)等

召回:

     兴趣召回(基于兴趣标签检索),热门召回(统计ctr,平滑处理),地域召回,关联规则,协同过滤(实时itemCF),SVD(效果一般),DNN

召回融合:

    1)分级先后顺序融合

    2)调制融合(比例融合)

排序模型:

    单一模型LR/XGBoost/FM

    融合模型:XGBoost+LR/FM

    深度模型:FNN(提升2%) / Wide deep/CNN

多目标优化(多权):

    点击率,转化率,停留时长预估(回归,分类)

学习平台:

    深度学习在kubernets中融合tensorflow,caffe,Distribute tensor flow

    机器学习:Yarn融合MLib,DMc

    深度学习和机器学习平台通过hdfs打通

规则迭代(AB test):

    去重策略/打散列表/产品逻辑/页面展示迭代

    A/Btest(有web操作页面,可供全公司配置实验)

请求分流/数据监控

A/B多层实验架构

系统优点:

     耦合性低,扩展性佳;协同开发,快速迭代;

关键技术

    58自研RPC框架SCF

系统立体监控:

    业务总体监控/关键模块监控(请求量,失败量,平均延时,最大值,最小值)+告警阈值

数据监控:

    推荐埋点设计:每一次曝光seqNo,进入点击click标志链式关联;沟通时长决定是否打上埋点commucate

埋点开发测试流程:

    埋点文档沉淀+EtL抽取文档

效果数据统计:

     hive上用Kylin(多维数据)做可视化,邮件报警和监控

推荐效果:

    推荐占比20%~30%,流量2亿,响应30ms

 

Part4 58个性化推荐push系统 

推送的作用:

    服务用户,提高日活和留存,活动运营和推广

推送点击率预估&效果数据监控

原策略bug:条数限制,先来先推,精准度差,干扰性大

推送控制系统:

     机制化推送+运营推送—》通用推送平台—〉消息总线—》推送平台

推送点击率预估:样本(推送点击1;推送未点击0);特征工程(用户行为特征,推送上下文环境特征:周几,推送信息特征:软文);模型算法:xgboost(分布式版)

模型离线评价:批次召回率 整体召回率

推荐系统架构-(附ppt&代码)

标签:数据监控   target   amp   开发   用户   统计   eva   曝光   files   

原文地址:http://www.cnblogs.com/AngelaSunny/p/7717846.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!