码迷,mamicode.com
首页 > 其他好文 > 详细

数据挖掘学习与实践

时间:2020-12-18 13:19:35      阅读:4      评论:0      收藏:0      [点我收藏+]

标签:预处理   target   pos   image   通过   精确   回归   targe   line   

学习

数据挖掘的流程

数据预处理->数据探索->模型训练->模型选择->模型评估

模型选择

模型选择是对超参数的选择,通过校验集,来看看模型那一组超参数有更好的效果

模型评估

参考资料
分类:分类问题的常用评估指标有准确率(accuracy)、精确率(precision)、召回率(recall)、F1_score、ROC曲线()等等,它们都可以基于混淆矩阵(confusion matrix)来进行计算
(1)混淆矩阵:二分类问题混淆矩阵如图所示:
技术图片
P为Positive正类的意思,N为Negative负类的意思,T为True真的意思、F为False假的意思,举个例子,TP就是预测结果为Positive,同时预测结果为真(真实结果也为positive)。下面为混淆矩阵的代码实现:

#混淆矩阵
To do.....

(2)准确率、精确率、召回率:有了混淆矩阵后,就可以计算一些指标了。准确率公式为\(Accuracy = /frac{TP+TN}{TP+TN+FP+FN}\); 精确率公式为\(Precision = /frac{TP}{TP+FN}\); 召回率的公式为\(Recall = /frac{TP}{TP+FN}\)。下面为具体的代码实现:

#准确率、精确率、召回率

(3)F1_score:往往精确率和召回率是不可兼得的事情,所以我们需要一个综合两者的指标F1_score,为什么选择F1_score,而不选择mean呢?原因。其公式为\(F1_score = /frac{2/cdot p/cdot r}{p + r}\)。下面为具体的代码实现:


回归

实践

泰坦尼克号分类

数据挖掘学习与实践

标签:预处理   target   pos   image   通过   精确   回归   targe   line   

原文地址:https://www.cnblogs.com/Serenaxy/p/14131489.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!