码迷,mamicode.com
首页 > 其他好文 > 详细

广告预测相关话题

时间:2018-03-28 15:35:13      阅读:86      评论:0      收藏:0      [点我收藏+]

标签:业务   pid   答案   baidu   结果   特征提取   提取   亦或   数据   

1.  在实际中,如果我们的变量之间有关系的话,那么加入回归项能更好地是模型反映变量之间的关系。即为交互项

2.  Factorization Machine:https://baijiahao.baidu.com/s?id=1582877172983486897&wfr=spider&for=pc  

3.  如何用一个好的方法把原始数据表达成一组有代表意义的特征向量,这便是特征提取的任务,也是这个比赛占了大部分内容的地方

4.  统计点击时间(clicktime)之前的一些特征能够很好的提高预测效果。例如统计clicktime之前的用户点击量,app安装数量之类的种种。

5.  III.trick:喜闻乐见的环节,由于网速之类的问题,用户可能在很短的时间类不断的点击一个同一个广告,利用这里连续的记录是很有效的。具体使用方法举个例子,对短时间类重复的点击记录编号(1,2,3....),记录当前点击与前一次点击,后一次点击的时间差,亦或者同统段时间内用户的点击量(如1分钟内)。

*这儿必须要提一点,那就是数据泄露问题,简而言之,就是你用了未来的数据预测当前的转化率,或者直接用了和label相关性很强的特征来训练模型。后者危险性极大,直接造成线下结果超神,线上GG.很好理解,你等于用了答案在做题目-_-||||。但是前者就有意思了,理论上,实际业务你是无法提取这种特征的,但是,这是比赛,你懂得。用户是否重复点击,与后一条记录的时间差,这都是未卜先知的操作,而且这些泄露特征也是有风险的。具体自行操作感受。

6.  但是我用了第30天的数据并且得到了提高。第30天其实是非常重要的一天,因为广告具有很强的实效性,第30天是和第31天隔得最近的。它最能捕获31天的趋势,尽管不精确,但是30天究竟能不能用这和你的特征有关

7.  我个人测试的结果(不保证正确):如果大量使用统计特征,请不要用第30天来训练。

8.  *一个大佬告诉我的骚操作(我没试过):给分类器设一堆随机种子,然后训练出一堆结果加权

9.  另外,如果你发现了两组强特,他们相关性很强,可以尝试用他们分别训练模型然后融合,可以得到不错的效果。(理论上)

10.  

https://blog.csdn.net/haphapyear/article/details/75057407/

广告预测相关话题

标签:业务   pid   答案   baidu   结果   特征提取   提取   亦或   数据   

原文地址:https://www.cnblogs.com/Wanglei-Isreal/p/8663621.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!