码迷,mamicode.com
首页 > 其他好文 > 详细

机器学习中数据的划分,N折交叉验证

时间:2019-01-17 15:10:50      阅读:196      评论:0      收藏:0      [点我收藏+]

标签:model   分配   leave   series   shuff   select   shuffle   target   www.   

1:对于分类数据来说,它们的target可能分配是不均匀的,比如在医疗数据当中得癌症的人比不得癌症的人少很多,这个时候,使用的数据划分方法有  StratifiedKFold  ,StratifiedShuffleSplit

2:对于分组数据来说,它的划分方法是不一样的,主要的方法有 GroupKFold,LeaveOneGroupOut,LeavePGroupOut,GroupShuffleSplit

3:对于时间关联的数据,方法有TimeSeriesSplit

eg:

采用StratifiedKFold做划分:

clf = XGBClassifier()
scores = cross_val_score(clf, iris.data, iris.target, cv=10)

采用StratifiedShuffleSplit做自定义划分:
from sklearn.model_selection import ShuffleSplit
my_cv = ShuffleSplit(n_splits=3, test_size=0.3, random_state=0)
scores = cross_val_score(clf, iris.data, iris.target, cv=my_cv)
 

参考:https://www.cnblogs.com/jiaxin359/p/8552800.html

机器学习中数据的划分,N折交叉验证

标签:model   分配   leave   series   shuff   select   shuffle   target   www.   

原文地址:https://www.cnblogs.com/xhslovecx/p/10233643.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!