码迷,mamicode.com
首页 > 其他好文 > 详细

【天池竞赛系列】资金流入流出预测思路

时间:2015-07-29 01:04:51      阅读:234      评论:0      收藏:0      [点我收藏+]

标签:天池大赛   资金流入流出预测   

赛题地址:http://tianchi.aliyun.com/competition/information.htm?spm=5176.100067.5678.2.VZW16k&raceId=3

登录即可下载数据


题目一句话:根据13年7月到14年8月的申购赎回数据预测14年9月每一条的申购赎回数据。


算法问题:此题可以使用线性回归和时间序列预测,只要特征好效果都还可以。我们使用的是R下面的随机森林+LM  ,决赛只有4次提交机会,第一次我们26名,后面每天都降,这些火箭简直太可怕了,最后天我们运气好稳定在了47名。后来问过那些火箭才知道他们使用的是STL时间序列预测,因为这个方法预测的值偏大,刚好答案也是偏大。所以会出现大量火箭。


预处理问题:题目给出的是每天用户的操作数据,我们需要按日期汇总为申购赎回数据,因为提交结果也是按天的

汇总下来好像是427条,观察之后可以发现13年到14年前期都不太稳定,所以我们可以取稳定后的数据,3-8或者4-8月都可以。

另外既然取了3-8月的数据,就代表没有去年国庆前期的数据了,这个问题比较大,因为需要预测14年9月的,9月末的数据跟13年9月的数据趋势有相关性。但是13年9月的数据变化比较剧烈,由于比赛不准单点,没法自己去插入14年9月30号这天的数据,怎么办呢?我们前期测了下20140930的值,和9月29的值比例大概是11:9-11:8的样子。所以我们手动在训练集中插入了一调20130930的申购赎回数据来拟合14年预测结果。不知道这样还算不算调单点?


特征问题:官方给出的baseline是使用了星期的7个特征使用LM建模。我们分析过数据后发现跟星期并没强烈相关性,反而更上班休假有强烈相关性(第一赛季其实是跟股票有强烈相关,第二赛季数据量大倒没多大影响了)

所以我们设计了如下特征:

--一周正常第1/5天上班, 周末第1/2天,休假第1/3天,休假前/后正常上班的一天
--上班前一天休假,工作日,休假,月初月中月末(10天周期),每月第一天
--上一个波峰/波谷是几天前
--上班最后天后要放几天假(2-3,7 3个01特征)
--上班第一天前放了几天假(2-3 2个01特征)
--两天的假,三天的假
--周日补班
-- 股票波浪理论,135浪

其中19个特征在part1的时候纯lm可以达到203分

所有特征在PART2的时候lm+RF可以达到201分


版权声明:本文为博主原创文章,未经博主允许不得转载。

【天池竞赛系列】资金流入流出预测思路

标签:天池大赛   资金流入流出预测   

原文地址:http://blog.csdn.net/bryan__/article/details/47114165

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!