根据用户人群数据记录,建立人群属性分类模型,根绝用户特点,将用户标记为特定类别。据此进行精准定向服务,并进行效果评估。主要分类方法:
1.采用模糊数学综合判定理论,构建关系矩阵,判定类别属性的映射关系。采样真实数据,模拟真实数据分布,统计属性取值的概率分布,作为概率的估计值,另外,将广告类别的点击次数作为权重矩阵R。构建映射关系公式:
R是关系矩阵,W是出现次数矩阵,C是计算结果的类别判定矩阵。
2. 采用分类器算法构建分类模型。根据数据特点,利用数据挖掘和机器学习
相关的分类器算法,如na?ve bayes,决策树,uncertain data learning,clustering algorithm,SVM,CART,adaBoost等,结合数据的分布,建立综合分类器,权衡各种分类器性能,建立综合行的人群分类模型。
用户标记人群类别后,测试合理性。进一步我们将人群分类模型不断精细化,复杂化。结合云平台和大数据,使模型达到最佳的分类效果。从而,挖掘用户兴趣,以及行为习惯。据此,我们将为用户提供个性化的定制服务。
未来,我们将尝试和高校合作,进行机器学习,模式识别等方向上的探索和研究。争取进一步深入挖掘大数据价值。
我们的目标是建立个性化推荐平台,基于长尾理论(longtail),通过构建用户的兴趣模型,将有效信息从海量数据中提取出来,提供给用户,满足用户的信息需求,推荐相关信息(包括活动信息,可能购买的物品推荐,广告)。
目前业界的推荐技术有很多,主要有:
(1)contextad:google AdSense,根据用户正在浏览的网页内容,推荐与网页内容相关ad
(2)searchad:Google AdWords和百度,分析用户当前搜索记录,判断目的,推荐与目的相关ad
(3)personalizingdisplay ad:雅虎,根据用户历史行为,找出兴趣,在用户浏览某个网站时,展示兴趣相关广告。
(4)协同过滤:根据用户的历史行为,建立兴趣模型,推荐相关性高的物品信息,分为基于物品,基于项集等等。如亚马逊,hulu,neflix等公司使用
(5)社会化网络模型推荐(如facebook,微博,人人发现兴趣共性,建立兴趣模型推荐信息)。
未来我们将尝试在平台上实现协同过滤的推荐方式。通过用户行为数据构建兴趣模型,并将推荐信息有效分类,实现推荐。目前,我们正在通过多种方式获得大量网络数据,将数据有效组织在一起,识别同一用户,针对每一个用户建立唯一信息集。构建具有处理复杂大数据能力的DMP平台,合理的存储和使用大数据,为推荐系统提供后台支持。
未来,我们将实现多种复合的推荐算法,采用综合性的推荐方案,将平台设计成为多渠道,多功能的复合型数据应用平台。
推荐系统评估是一项专业度高,难度大的工作。常用的评分指标有RMSE(均方根误差),MAE(平均绝对误差)。但只通过评分标准很难估量系统优劣。目前常用方法:
(1)评测指标:重要指标(没有之一)是预测准确度。比如,判断用户买java书,推荐后发生购买行为。有直接结果反馈信息,方便通过离线计算出结果。但其衡量也不全面,比如例子中,用户可能早打算买java书,无论是否推荐,都将购买。而这个推荐行为没有让用户买更多的书,仅是让原来必将发生的行为在此刻发生,推荐结果对用户不新颖,没能增加潜在购买人数。所以这属于失败的推荐。
除了上述共同指标,不同领域有各自不同的评测指标,如广告推荐系统通常使用ROI,CTR,CR等。现实,谷歌的免费转换跟踪工具可以让你看到哪些关键字和广告的效果最好,时间和资源获得了最高价值。将广告预算聚焦在高效的关键词上。而我们应该将广告预算聚焦在广告内容上。
(2)用户满意度调查:上线测试,抽样用户保持用户真实分布,在线收集用户满意度反馈。保持双盲实验,不让执行人员和用户知道测试目标。这样做的优点是反馈信息真实有效,直接反应用户主观感受。缺点是成本太高,无法组织大规模测试用户,而且造成用户负担,降低用户体验,如果雇佣用户完成测试,代价会非常大。
(3)划分AB组,完成对照实验。推荐系统上线,切分流量,对老系统和新系统进行对照测试,直接比较性能。这样做效果直接,但设计和实现过程复杂,造成人力成本投入太高,而且实验多方面因素都要考虑到,试验环境和条件比较复杂,比如用户要选择独立具有可参照性的,但相互影响的因素是不可避免的。
(4)离线实验:这是高校等研究机构的科研方法,采样数据集模拟数据真实分布,作为训练数据集。训练模型后,利用十重交叉验证模型性能。(缺点:缺少商业指标,CTR,TR计算不出,只从理论上验证,不能衡量真实的商业价值)。
总之,系统评估,要全面的衡量三方利益,比如推荐系统中,三个参与者分别是用户、物品供应商、推荐系统的所有者)。要设法收集高质量反馈,增加用户交互。从不用角度,不同指标如准确度,覆盖度,信任度,支持率,透明度等等。
此外模型评估的标准方案为(KDD cup 2012评估方案)
大数据发挥协同效应需要产业链各个环节的企业达成竞争与合作的平衡。项目平台的目的是让大数据更好的发挥价值,将提供服务变为可能。
机遇与挑战:
1.数据收集和提取的合法性。数据采集要多渠道,多来源,但要具有合法性,不能暴露用户隐私。
2.大数据要存储成合理的组织结构,方便使用,才能有效的发发挥大数据价值,实现服务功能。这就是平台中DMP的设计目标。
3.领域专家建模。针对大数据的挖掘,单纯的数学和计算机背景是不够的,还需要深入的领域背景知识,才能构建合理模型。目前,国内公司重数据,轻建模,很多工作其实不合理,更加毫无章法可循。而很多研究机构缺少领域的业务知识,不能面向实际应用,建模缺乏目的性,应用性。
我们的工作:
1.数据收集。我们将利用自身的优势,合法的收集各种信息。目前,我们可以利用各种产品收集的互联网用户行为信息,监测日志的数据达到PB量级。而我们同时,将采用合作,主动爬取等方式,获得其它网站的公开信息,如新浪微博,淘宝,腾讯,百度等。将数据整合成为统一形式,识别同一用户信息,最终可以建立全网的用户行为信息,形成网络综合行为记录信息。
2.DMP平台的数据服务。针对获取的大数据集,利用合理的组织结构存储,利用云平台工具,如,hive,hbase,storm,spark,drill,impala等,以及相关数据处理工具,完成ETL,OLAP等工作,管理数据完成相关计算,使平台能提供多样化的数据服务。
3.大数据挖掘。数据分析的前提是数据分布,比如自然界广泛存在的两种数学分布:幂次法则分布和高斯分布。很多数据挖掘理论必须要求数据满足一定的分布条件(如高斯或拉普拉斯分布),否则不能使用。而大数据复杂度高,难以估计出分布。所以我们将结合大数据的特点,进行数据挖掘的研究。大数据特点有海量性(Volume)、多样性(Variety)、快速性(Velocity)、价值化(Value)这4V特征。目前挖掘工作方向分两个:
(1)面向宏观,从大量数据中通过数据分析方法找到总体规律与趋势,一般用统计学知识构建相关计算模型,计算相关结果,得出综合性的结论.
(2)面向微观,从数据中分析出个别数据的特征规律,预测个别数据可能的行为规律,并指定决策。
大数据研究不仅需要良好的理论知识,还需要丰富的领域背景知识。我们将结合自身优势研究和探索大数据的挖掘工作。
研究过程:
第一步、领域专家讨论、预建模。
第二步、小范围采集、分析
第三步、领域专家讨论、修正模型
第四步、大范围采集、分析
第五步、得出结果
第六步、验证
第七步、应用
最终目标是让大数据成为条件,而不再是负担。挖掘大数据价值,进行全网信息资源整合,为互联网客户提供服务而不是广告。建立健康,有效的互联网数据生态环境。
基于大数据收集和数据挖掘技术,我们将开展兴趣模型的构建以及社会网络分析相关工作。
通过收集的用户大数据,采用理论和背景知识相结合,挖掘出用户在互联网上的行为信息,找到用户的兴趣特征,构建合理的用户兴趣模型。主要方法有TF/IDF,PCA,svm,传统数据挖掘中分类器算法,如决策树,贝叶斯,以及聚类算法,如k-means等。
最终,计算各项衡量指标,验证兴趣模型的可用性。从而,依据用户的兴趣,提供相关信息服务,方便用户的生活。当然,也可以实现定向广告投放,依据用户兴趣模型,找出相关性最高的广告,提高广告CTR,实现价值最大化,常用方法有logistic回归模型,泊松分布等等。
同时,基于目前行业内已存在的社会网络分析技术,我们将结合微博现有的社会网络分析模型,同我们自身DMP内的大数据特点相结合,进行社会网络分析,如舆情分析,竞争情报分析,人际传播问题,小世界理论,六度空间分割理论,流动关系,相似关系,距离关系,等等。通过社会网络分析,更好的发现用户之间的关联性,用户的网络行为和兴趣分布,甚至,发现信息在互联网的传播方式,通过何种途径,达到何种规模。从而可以建立一个信息传媒渠道,帮助商品做推广。
实时竞价模型RTB(RealTime Bidding):根据展示位(SSP)的价格估计,实时发出展示请求,买方(DSP)实时竞拍出价,双方通过adexchange平台交互完成,最终由出价第二个高的用户拍得,并展示广告。售卖的不仅仅是传统意义上的广告位,而是访问这个广告位的具体用户,根据根据访问用户的兴趣爱好,甚至包括年龄大小,地域以及网上的浏览习惯,对什么样的产品感兴趣,系统推荐相关度高的广告,投其所好就能产生最大的收益。RTB强调精准投放,放大了网络广告的指向性和精准度,使需求方的效益最大化。
RTB最大突破莫过于让广告主购买“受众”,广告通过“竞价”购买,比如某一个用户可能是两个广告投放的目标人群,则二者必须出价竞买,多人同时出价,则出价第二高的获得展示机会。以后广告主将可以作出以下的投放要求“25-34岁的妇女、生活在亚洲、对奢侈品时尚服装抱有浓厚兴趣、在过去2个月曾经进行在线购买、现正关注2012的春/夏季商品”。通过RTB投放广告﹐广告主不再需要考虑广告渠道与位置,因为通过RTB你的广告会精确的展示在你的目标客户眼前。
目前Google的AdWords已经接入RTB,还有百度,腾讯,阿里等等。
原文地址:http://blog.csdn.net/longshenlmj/article/details/41122061