赛题地址:http://tianchi.aliyun.com/competition/information.htm?spm=5176.100067.5678.2.VZW16k&raceId=3
登录即可下载数据
题目一句话:根据13年7月到14年8月的申购赎回数据预测14年9月每一条的申购赎回数据。
算法问题:此题可以使用线性回归和时间序列预测,只要特征好效果都还可以。我们使用的是R下面的随机森林+LM ,决赛只有4次提交机会,第一次我们26名,后面每天都降,这些火箭简直太可怕了,最后天我们运气好稳定在了47名。后来问过那些火箭才知道他们使用的是STL时间序列预测,因为这个方法预测的值偏大,刚好答案也是偏大。所以会出现大量火箭。
预处理问题:题目给出的是每天用户的操作数据,我们需要按日期汇总为申购赎回数据,因为提交结果也是按天的
汇总下来好像是427条,观察之后可以发现13年到14年前期都不太稳定,所以我们可以取稳定后的数据,3-8或者4-8月都可以。
另外既然取了3-8月的数据,就代表没有去年国庆前期的数据了,这个问题比较大,因为需要预测14年9月的,9月末的数据跟13年9月的数据趋势有相关性。但是13年9月的数据变化比较剧烈,由于比赛不准单点,没法自己去插入14年9月30号这天的数据,怎么办呢?我们前期测了下20140930的值,和9月29的值比例大概是11:9-11:8的样子。所以我们手动在训练集中插入了一调20130930的申购赎回数据来拟合14年预测结果。不知道这样还算不算调单点?
特征问题:官方给出的baseline是使用了星期的7个特征使用LM建模。我们分析过数据后发现跟星期并没强烈相关性,反而更上班休假有强烈相关性(第一赛季其实是跟股票有强烈相关,第二赛季数据量大倒没多大影响了)
所以我们设计了如下特征:
--一周正常第1/5天上班, 周末第1/2天,休假第1/3天,休假前/后正常上班的一天
--上班前一天休假,工作日,休假,月初月中月末(10天周期),每月第一天
--上一个波峰/波谷是几天前
--上班最后天后要放几天假(2-3,7 3个01特征)
--上班第一天前放了几天假(2-3 2个01特征)
--两天的假,三天的假
--周日补班
-- 股票波浪理论,135浪
其中19个特征在part1的时候纯lm可以达到203分
所有特征在PART2的时候lm+RF可以达到201分
版权声明:本文为博主原创文章,未经博主允许不得转载。
原文地址:http://blog.csdn.net/bryan__/article/details/47114165