分类模型的评估与选择

时间：2020-07-03 19:24:56 阅读：78 评论：0 收藏：0 [点我收藏+]

标签：lock precision 表示 lod height receive cte 一起抽样

1.应用背景

在进行分类器构建后，要对其分类性能进行评估，或新构建的分类器相对于其他分类器对数据集的分类效果进行评估，这时就会用到相应的评估方法

2.常见的评估方法

2.1评估分类器性能的度量

基本概念理解：

正元组：在一个分类问题中我们感兴趣的元组；
负元组：其他元组；
真比例/真阳性(TP)：指被分类器正确划分的正元组，令TP为真阳性的个数；
真负例/真阴性(TN)：指被分类器正确划分的负元组，令TN为真阴性的个数；
假正例/假阳性(FP)：被错误地标记为正元组的负元组；令FP为假阳性的个数；
假负例/假阴性(FN)：被错误地标记为负元组的正元组；令FN为假阴性的个数；
混淆矩阵：是一个分析分类器识别不同元组的一种有用工具，TP、TN可以表示分类器正确分类，FN、FP表示分类器错误分类，一个好的分类器，混淆矩阵中值应大部分集中于对角线上。混淆矩阵是一个至少为m*m的表（m≥2）表中CM_ij，表示i类被分为j类的数目。下图表示一个二分类模型的混淆矩阵

技术图片

准确率：被分类器正确分类的元组所占百分比

$accuracy=\frac{TP+TN}{P+N}$

错误率（误分率）：1-accuracy

$error rate=\frac{FP+FN}{P+N}$

类不平衡问题：指在一次分类任务中，感兴趣的类是少的，如，在电子欺诈中，我们感兴趣的类为欺诈（正类），相比于正常（负类）来说，正类远远小于负类，这时的精度度量指标可以用灵敏度（sensitivity）和特效性（specificity）度量
灵敏度：正确识别的正元组的百分比

$sensitivity=\frac{TP}{P}$

特效性：正确识别负元组的百分比

$specificity=\frac{TN}{N}$

$accuracy=sensitivity(\frac{P}{P+N})+specificity(\frac{N}{P+N})$

精度(precision)：标记为正类的元组实际为正类所占百分比

$precision=\frac{TP}{TP+FP}$

召回率(recall)：正元组标记为正的百分比

$recall=\frac{TP}{TP+FN}$

当类C的精度为1，仅能说明该分类器将所有标记为C的每个元组都正确地分为C，但对于其他分类而言，有没有其他类被划分为C仅仅从精度并不能检测出来，所以仅仅凭借精度并不能很好的度量分类器的性能，简单来说，就算类C的分类精度为1，也不能认为该分类器性能好；通常将精度和召回率联合在一起来进行评价，常用的有两种度量方法，F，F_β。

$F=\frac{2*precision*recall}{precision+recall}$

$F_{\beta }=\frac{(1+\beta ^{2})*precision*recall}{\beta ^{2}*precision+recall}$

2.2保持方法和随机二次抽样

保持法（holdout）：在这种方法中，给定数据随机划分为两个独立的集合：训练集和检验集，通常2/3为训练集，1/3为检验集；

随机二次抽样（random subsampling）：是保持方法的变形，将保持方法重复k次，总准确率估计取每次迭代准确率的平均值。

2.3交叉验证

在k-折交叉验证（k-flod cross-validation）中，初始数据集被划分为k个互不交叉的子集或“折”D₁,D₂,D₃,...D_k。每个折大小大致相等。训练集和检验进行k次。在第i次迭代，分区D_i为检验集，其余分区均为训练集，即在第一次迭代中，子集D₂,D₃,...D_k，一起作为训练集，得到一个模型，并在D₁对该模型进行检验；在第二次迭代中D₁,D₃,...D_k为训练集，得到一个模型，在D₂上进行检验，以此进行重复。对于分类，准确率估计是k次迭代正确分类的元组的总数除以初始数据中的元组总数。