标签:info round 数据 alt https red code count size
赛题目标:通过用户历史订单数据,预测用户下一次购买的商品。
赛题数据:数据保存为四个文件中,训练数据(Antai_AE_round1_train_20190626.csv)、测试数据(Antai_AE_round1_test_20190626.csv)、商品信息(Antai_AE_round1_item_attr_20190626.csv)、提交示例(Antai_AE_round1_submit_20190715.csv)
训练数据:用户每次购买的商品id,订单日期以及用户国家标识
测试数据:较于训练数据,测试数据剔除了用户需要预测最后一次购买记录
商品信息:商品id、品类id、店铺id和商品价格
提交示例:预测用户购买商品Top30的item_id依概率从高到低排序,buyer_admin_id,predict 1,predict 2,…,predict 30
训练集样本量是 12868509
测试集样本量是 166832
样本比例为: 77.13453653975256
源数据中都木有空值,但是由于某些商品,不在商品表,因此缺少了一些价格、品类信息。
数据探查
1.buyer_country_id 国家编号
本次比赛给出若干日内来自成熟国家的部分用户的行为数据,以及来自待成熟国家的A部分用户的行为数据,以及待成熟国家的B部分用户的行为数据去除每个用户的最后一条购买数据,让参赛人预测B部分用户的最后一条行为数据。
2.buyer_admin_id 用户编号
训练集中用户数量 809213
测试集中用户数量 11398
同时在训练集测试集出现的有6位用户,id如下: [12647969, 13000419, 3106927, 12858772, 12929117, 12368445]
3.用户记录数分布
用户记录数进行了一波简单的探查:
Notes: 验证集中用户最少仅有7条,是因为最后一条记录被抹去
用户记录数进一步探查结论:
* 不管是训练集还是验证集,99%的用户购买记录都在50条内,这是比较符合正常逻辑
* TODO:对于发生大量购买行为的用户,后面再单独探查,是否有其他规律或疑似刷单现象
4.item_id 商品编号
商品表中商品数: 2832669
训练集中商品数: 2812048
测试集中商品数: 104735
仅训练集有的商品数: 2735801
仅测试集有的商品数: 28488
训练集测试集共同商品数: 76247
训练集中不在商品表的商品数: 7733
测试集中不在商品表的商品数: 313
初步数据发现:
很明显:
来自知乎:https://zhuanlan.zhihu.com/p/74661459
标签:info round 数据 alt https red code count size
原文地址:https://www.cnblogs.com/USTC-ZCC/p/11297341.html