首页 > 其他好文 > 详细

ROC曲线与AUC

时间：2019-01-16 16:52:15 阅读：393 评论：0 收藏：0 [点我收藏+]

标签：简介绘制比较 www. src receiver char 获得分布

一、ROC曲线

1、简介

ROC曲线全称是“受试者工作特征曲线 ”(Receiver Operating Characteristic curve)，又称为感受性曲线(Sensitivity curve)。
它源于二战中用于敌机检测的雷达信号分析技术，二十世纪六七十年代开始被用于一些心理学、医学检测中，此后被引入机器学习领域。
得此名的原因在于曲线上各点反映着相同的感受性，它们都是对同一信号刺激的反应，只不过是在两种不同的判定标准下所得的结果而已。

ROC曲线示意图如下图所示。

技术分享图片

ROC曲线的横轴是“假正例率”（False Positive Rate，简称FPR），纵轴是“真正例率”（True Positive Rate，简称TPR），两者定义如下，公式中符号含义参见 混淆矩阵 。
\begin{align}\notag
TPR=\frac{TP}{TP+FN}
\end{align}
\begin{align}\notag
FPR=\frac{FP}{TN+FP}
\end{align}

现实任务中通常是利用有限个样本来绘制ROC曲线，此时仅能获得有限个（真正例率、假正例率）坐标，无法产生上图光滑的ROC曲线，只能绘制出下图所示的近似的ROC曲线。

技术分享图片

2、绘制方法

很多机器学习是为测试样本产生一个实值或概率预测，然后将这个预测值与一个分类阈值（threshold）进行比较，若大于阈值则分为正类，小于阈值则为反类。

假设有m个正例和n个反例，根据预测结果对样例进行排序；
把分类阈值设为最大，即把所有样例均预测为反例，此时真正例率和假正例率均为0，即在坐标（0，0）处；
然后，将分类阈值依次设为每个样例的预测值，即依次将每个样例划分为正例，求出真正例率和假正例率，绘制出坐标。

3.优点

在实际的数据集中经常会出现类不平衡（class imbalance）现象，即负样本比正样本多很多（或者相反），而且测试数据中的正负样本的分布也可能随着时间变化。
但当测试集中的正负样本的分布变化的时候，ROC曲线能够保持不变。

二、AUC

AUC（Area Under Curve），即ROC曲线下的面积。
AUC越大，分类器效果越好。
假设按序连接成ROC曲线上点的坐标为

\begin{align}\notag
(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{m},y_{m})
\end{align}

则AUC可估算为

\begin{align}\notag
AUC=\frac{1}{2} \sum_{i=1}^{m-1}(x_{i+1}-x_{i})\cdot (y_{i}+y_{i+1})
\end{align}

梦不会逃走，逃走的一直都是自己。——《蜡笔小新》

ROC曲线与AUC

标签：简介绘制比较 www. src receiver char 获得分布

原文地址：https://www.cnblogs.com/dblsha/p/10277336.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！