===============================================================================================
上面的建模部分,如果一开始就用较多较复杂的算法来做,可能会耗时间比较多。建议选用一个简单的算法,先用上面的步骤试试,看看结果怎样?是有overfitting还是underfitting,这需要判断Etesting和Etrain之间的gap是不是很大。不过,多大算大呢...
一个方法是画一下Learning Curve,即Eval, Etrain vs Training size的曲线,具体内容可以去看课程的课件,大概就是说如果是overfitting,随着Training size的增加,Eval和Etrain之间的gap会逐渐的减小,而如果是underfitting,就不会。
构建learning curve的方法是,随机的从training set中抽取i个数据的subset,在上面进行建模,然后将模型用在这个subset和整个validation set上进行验证得到Etrain和Eval,这个过程重复20到50次,最后的平均作为i个数据的代表。之后测试i+1,i+2.....
不过,这貌似只适用于single validation,cross validation的情况下要怎么做还不清楚。不过,也许也没必要在这个问题上考虑cross validation,毕竟这只是一个dirty approach,看看大概是怎么个情况。
===================================================================
另一个问题,如果是需要对数据集(已经是分割过的数据集train-test split中的train)做Sampling来处理imbalanced data的情况下做cross validation,那么应该做如下的处理(假设是5 fold):
1、选出一个fold做validation set,剩下的四个set做training
2、对training做sampling的处理,训练并得到一个hypothesis
这个东西貌似很容易就做成了错误的方法:拿着整个train数据集做了Sampling,再去做cross validation。不对哦!!!简而言之,如果是要对数据分布做变化的操作,都要小心这个问题。