分类算法中常用的评价指标
2017-11-10 18:43
453 查看
混淆矩阵
labeled as positive | labeled as negative | |
---|---|---|
predicted as positive | True Positive (TP) | False Positive (FP) |
predicted as negative | False Negative (FN) | True Negative (TN) |
TP:实际为正例,被预测为正例,预测正确
FP:实际为负例,被预测为正例,预测错误
FN:实际为正例,被预测为负例,预测错误
TN:实际为负例,被预测为正例,预测正确
由以上四种数据得到四种比率如下:
TPR(True Positive Rate,又称 灵敏度:sensitivity):TPR=TPTP+FN,即正例被正确预测为正例的数目实际正例的数目
FPR(False Positive Rate):FPR=FPFP+TN,即负例被错误预测为正例的数目实际负例的数目
FNR(False Negative Rate):FNR=FNTP+FN,即正例被错误预测为负例的数目实际正例的数目
TNR(True Negative Rate,又称 特指度:specificity):TNR=TNFP+TN,即负例被正确预测为负例的数目实际负例的数目
评价指标
Precision,即查准率:P=TPTP+FPRecall,即查全率:R=TPTP+FN
F-Score,即precision和recall的调和平均值,更接近precision和recall中较小的那一个值:F=2×P×RP+R
Accuracy,分类器对整体样本的分类能力,即正例分为正例,负例分为负例:A=TP+TNTP+FP+FN+TN
ROC,Receiver Operating Characteristic,主要用于画ROC曲线(横坐标为FPR,纵坐标为TPR)
ROC曲线中,关于四个关键点的解释:
(FPR=0,TPR=0):将全部正例分为负例,全部负例分为负例
(FPR=0,TPR=1):全部划分正确,即正例全部分为正例,负例全部分为负例
(FPR=1,TPR=1):将全部负例分为正例,全部正例分为正例
所以,ROC曲线越靠近左上角,说明分类器的效果越好。
AUC,Area Under ROC Curve
在实际的数据集中经常会出现类不平衡(class imbalance)现象,即负样本比正样本多很多(或者相反),而且测试数据中的正负样本的分布也可能随着时间变化,这样ROC曲线会出现加大的波动。
AUC的值就是处于ROC curve下方的那部分面积的大小。通常,AUC的值介于0.5到1.0之间,较大的AUC代表了较好的performance。如果模型是完美的,那么它的AUG = 1,如果模型是个简单的随机猜测模型,那么它的AUG = 0.5,如果一个模型好于另一个,则它的曲线下方面积相对较大。
参考文献:http://gim.unmc.edu/dxtests/roc3.htm
http://alexkong.net/2013/06/introduction-to-auc-and-roc/
相关文章推荐
- 机器学习分类算法常用评价指标
- 分类算法中常用的评价指标
- 分类算法中常用的评价指标
- 机器学习中评估算法的常用评价指标
- 数据挖掘分类算法的评价指标
- 数据挖掘分类算法评价指标
- 常用的一些算法模型评价指标
- 数据挖掘系列(5)分类算法评价
- 分类算法中的ROC与PR指标
- 算法性能评价指标+线性表
- 二值分类模型的评价指标
- 基于sklearn的常用分类任务指标Python实现
- 分类算法评价标准
- 各常用分类算法的优缺点总结:DT/ANN/KNN/SVM/GA/Bayes/Adaboosting/Rocchio
- Object Tracking Benchmark 目标跟踪中常用算法评价参数
- 【机器学习理论】分类问题中常用的性能评估指标
- 分类算法中的ROC与PR指标
- [转载] 大数据常用的算法(分类、回归分析、聚类、关联规则)
- 数据分析,信息检索,分类体系中常用指标简明解释——关于准确率、召回率、F1、AP、mAP、ROC和AUC
- 多标签分类的评价指标