机器学习二分类模型评估,用matplotlib绘制precision-recall曲线、ROC曲线
1.基础知识
TP(True Positive):指正确分类的正样本数,即预测为正样本,实际也是正样本。
FP(False Positive):指被错误的标记为正样本的负样本数,即实际为负样本而被预测为正样本,所以是False。
TN(True Negative):指正确分类的负样本数,即预测为负样本,实际也是负样本。
FN(False Negative):指被错误的标记为负样本的正样本数,即实际为正样本而被预测为负样本,所以是False。
TP+FP+TN+FN:样本总数。
TP+FN:实际正样本数。
TP+FP:预测结果为正样本的总数,包括预测正确的和错误的。
FP+TN:实际负样本数。
TN+FN:预测结果为负样本的总数,包括预测正确的和错误的。
这里面的概念有些绕,需要慢慢理解,/(ㄒoㄒ)/~~。
在ROC曲线中,以FPR为x轴,TPR为y轴。FPR指实际负样本中被错误预测为正样本的概率。TPR指实际正样本中被预测正确的概率。
在PR曲线中,以Recall(貌似翻译为召回率或者查全率)为x轴,Precision为y轴。Recall与TPR的意思相同,而Precision指正确分类的正样本数占总正样本的比例。
绘制ROC曲线和PR曲线都是选定不同阈值,从而得到不同的x轴和y轴的值,画出曲线。例如,一个分类算法,找出最优的分类效果,对应到ROC空间中的一个点。通常分类器输出的都是score,如SVM、神经网络等,有如下预测效果:
no. True Hyp(0.5) Hyp(0.6) Score
1 p Y Y 0.99999
2 p Y Y 0.99999
3 p Y Y 0.99993
4 p Y Y 0.99986
5 p Y Y 0.99964
6 p Y Y 0.99955
7 n Y Y 0.68139
8 n Y N 0.50961
9 n N N 0.48880
10 n N N 0.44951
True表示实际样本属性,Hyp表示预测结果样本属性,第4列即是Score,Hyp的结果通常是设定一个阈值,比如上表Hyp(0.5)和Hyp(0.6)就是阈值为0.5和0.6时的结果,Score>阈值为正样本,小于阈值为负样本,这样只能算出一个ROC值,
当阈值为0.5时,TPR=6/(6+0)=1,FPR=FP/(FP+TN)=2/(2+2)=0.5,得到ROC的一个坐标为(0.5,1);Recall=TPR=1,Precision=6/(6+2)=0.75,得到一个PR曲线坐标(1,0.75)。同理得到不同阈下的坐标,即可绘制出曲线。
阈值 TPR FPR Recall Precision ROC坐标 PR坐标
0.5 1 0.5 1 0.75 (0.5,1) (1,0.75)
0.6 1 0.25 1 0.86 (0.25,1) (1,0.86)
2.ROC曲线和PR曲线的关系
在ROC空间,ROC曲线越凸向左上方向效果越好。与ROC曲线左上凸不同的是,PR曲线是右上凸效果越好。
ROC和PR曲线都被用于评估机器学习算法对一个给定数据集的分类性能,每个数据集都包含固定数目的正样本和负样本。而ROC曲线和PR曲线之间有着很深的关系。
定理1:对于一个给定的包含正负样本的数据集,ROC空间和PR空间存在一一对应的关系,也就是说,如果recall不等于0,二者包含完全一致的混淆矩阵。我们可以将ROC曲线转化为PR曲线,反之亦然。
定理2:对于一个给定数目的正负样本数据集,一条曲线在ROC空间中比另一条曲线有优势,当且仅当第一条曲线在PR空间中也比第二条曲线有优势。(这里的“一条曲线比其他曲线有优势”是指其他曲线的所有部分与这条曲线重合或在这条曲线之下。)
证明过程见文章《The Relationship Between Precision-Recall and ROC Curves》
当正负样本差距不大的情况下,ROC和PR的趋势是差不多的,但是当负样本很多的时候,两者就截然不同了,ROC效果依然看似很好,但是PR上反映效果一般。解释起来也简单,假设就1个正例,100个负例,那么基本上TPR可能一直维持在100左右,然后突然降到0.如图,(a)(b)分别为正负样本1:1时的ROC曲线和PR曲线,二者比较接近。而(c)(d)的正负样本比例为1:1,这时ROC曲线效果依然很好,但是PR曲线则表现的比较差。这就说明PR曲线在正负样本比例悬殊较大时更能反映分类的性能。
3.AUC
AUC(Area Under Curve)即指曲线下面积占总方格的比例。有时不同分类算法的ROC曲线存在交叉,因此很多时候用AUC值作为算法好坏的评判标准。面积越大,表示分类性能越好。
画P-R曲线
[code]#coding:utf-8 import matplotlib #matplotlib.use("Agg") import numpy as np import matplotlib.pyplot as plt from sklearn.metrics import precision_recall_curve plt.figure(1) # 创建图表1 plt.title('Precision/Recall Curve')# give plot a title plt.xlabel('Recall')# make axis labels plt.ylabel('Precision') #y_true和y_scores分别是gt label和predict score y_true = np.array([0, 0, 1, 1]) y_scores = np.array([0.1, 0.4, 0.35, 0.8]) precision, recall, thresholds = precision_recall_curve(y_true, y_scores) plt.figure(1) plt.plot(precision, recall) plt.show() plt.savefig('p-r.png')
ROC曲线同样的道理,换成以FPR为x轴,TPR为y轴就行了
3.灵敏度和特异性
灵敏度=真阳性人数/(真阳性人数+假阴性人数)×100%。正确判断病人的率。
特异度=真阴性人数/(真阴性人数+假阳性人数)×100%。正确判断非病人的率。
临床灵敏度可用来衡量某种试验检测出有病者的能力,灵敏度是将实际有病的人正确地判定为真阳性的比例。
临床特异度是衡量试验正确地判定无病者的能力,特异度是将实际无病的人正确地判定为真阴性的比例。
转载:https://blog.csdn.net/u014568921/article/details/53843311
- 基于 matplotlib 的抽象网格和能量曲线绘制程序
- matplotlib绘制正弦和余弦曲线
- python绘制precision-recall曲线、ROC曲线
- 结合scipy与matplotlib来绘制曲线拟合图
- matplotlib basemap 绘制多边形区域曲线
- python matplotlib 绘制双Y轴曲线图
- [置顶] 机器学习实战python版决策树以及Matplotlib注解绘制决策树
- 机器学习精简教程之四——用matplotlib绘制精美的图表
- 用Matplotlib绘制股票每月最高收盘价曲线
- 机器学习-Matplotlib绘制决策树
- Python使用matplotlib绘制正弦和余弦曲线的方法示例
- pyqt中使用matplotlib绘制动态曲线
- 使用matplotlib绘制三维参数曲线
- pyqt中使用matplotlib绘制动态曲线 – pythonic
- 二分类模型评估之 ROC曲线和PR曲线
- Python使用matplotlib绘制三维曲线
- matplotlib学习—绘制简单自定义曲线
- matplotlib绘制sin、cos曲线
- python matplotlib 绘制双Y轴曲线图
- 机器学习性能评估指标---准确率(Accuracy), 精确率(Precision), 召回率(Recall)