标签:短信 sdn class lda infoq 选择 hadoop ref 数据结构
此次技术沙龙是由百度的高级架构师陈天健和豆瓣首席科学家王守崑为主讲,大主题是推荐系统。
陈天健的主要话题是百度推荐引擎计算平台架构中的流式计算架构。中间有一种因为几个短信有点错过,等视频出来再听一遍,这个笔记基本没啥整理,主要是个备档,感兴趣的同学可以直接去InfoQ看视频。下面把记的笔记抄上来:
NLP---当前分析热点;
传统架构以Hadoop为主,流式计算加速数据处理;
QueueWorker;
流式计算系统,拓扑S4、DAG;
多样索引
及时计算获得用户访问成倍增长。
整个工程引擎化----这部分需要重听
推荐系统的很多东西需要验证改进
百度的推荐引擎计算平台可能会公开服务
下面是豆瓣首席科学家王守崑的部分,他的主要是围绕算法本身的选择。
算法复杂度选择
增量更新
算法根据用户群、产品、计算框架改变
早期用户群和大众用户群有所区别
豆瓣的推荐存在一个item饱和期-----这个只是我现场想到的,非演讲内容。
缺失值数据也有其作用
矩阵分解和生成模型
文本分析:生成模型、隐马模型、高斯混合模型、贝叶斯模型那个、LDA、RBM。
条目增长趋于稳定
长期指标的改进靠人
从传统媒体信息经济走向现代App体验经济
信息逐渐私有和封闭,要么是平台,要么是平台的一部分。
标签:短信 sdn class lda infoq 选择 hadoop ref 数据结构
原文地址:http://www.cnblogs.com/dhcn/p/7105479.html