对weka 度量分类模型优劣指标的说明
2013-12-06 11:53
260 查看
示例如下:
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class
0.93 0.002 0.989 0.93 0.959 0.997 体育
0.93 0.01 0.939 0.93 0.935 0.97 城市
0.92 0.023 0.868 0.92 0.893 0.978 娱乐
0.93 0.005 0.969 0.93 0.949 0.991 房产
0.84 0.043 0.764 0.84 0.8 0.954 新闻
0.84 0.018 0.884 0.84 0.862 0.95 科技
0.83 0.028 0.83 0.83 0.83 0.951 财经
指标说明(参考最下面给出的混淆矩阵):
1、TP Rate :true positive rate,TPR简称“真正率” ,即被模型预测为正的正样本比率。TPR
= TP /(TP + FN) 正样本预测结果数 / 正样本实际数。以体育类为例,TPR=93/100=
0.93.
2、FP Rate:false positive rate, FPR简称“假正率” ,即被模型预测为正的负样本比率。 FPR
= FP /(FP + TN) 被预测为正的负样本结果数 /负样本实际数。以体育类为例,FPR=1/600= 0.0017≈0.002。
3、Precision:精确度,即被模型正确预测的样本与所有被预测为正的样本的比率。以体育类为例,被模型正确预测的样本数
= 93,所有被预测为正的样本为94,所以Precision=93/94=0.98936≈0.989.
4、Recall:召回率,即所有该类样本被正确预测的比例。 以体育类为例,总样本数为100,正确预测93个,召回率=0.93.
5、 F-Measure:在weka中F-Measure被定义为(2*Precision*Recall)/(Precision*Recall). 以体育类为例,F-Measure=(2*0.989*0.93)/(0.989+0.93)=1.84/1.92=0.958.
6、ROC Area:ROC曲线下的面积,即Area Under roc Curve(AUC)。这个指标来自医学AUC值介于0.5到1之间,值越大表示分类器越好。该指标与Wilcoxon-Mann-Whitney test 统计指标等价。参见:http://longmans1985.blog.163.com/blog/static/7060547520128194220344/
Correctly Classified Instances 622 88.8571 %
Incorrectly Classified Instances 78 11.1429 %
Kappa statistic 0.87
Mean absolute error 0.2064
Root mean squared error 0.3049
Relative absolute error 84.2857 %
Root relative squared error 87.1311 %
Total Number of Instances 700
=== Confusion Matrix ===
a b c d e f g <-- classified as
93 0 1 0 5 1 0 | a = 体育
0 93 1 0 4 0 2 | b = 城市
0 0 92 0 6 2 0 | c = 娱乐
0 1 2 93 0 2 2 | d = 房产
0 2 7 0 84 1 6 | e = 新闻
1 1 2 0 5 84 7 | f = 科技
0 2 1 3 6 5 83 | g = 财经
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class
0.93 0.002 0.989 0.93 0.959 0.997 体育
0.93 0.01 0.939 0.93 0.935 0.97 城市
0.92 0.023 0.868 0.92 0.893 0.978 娱乐
0.93 0.005 0.969 0.93 0.949 0.991 房产
0.84 0.043 0.764 0.84 0.8 0.954 新闻
0.84 0.018 0.884 0.84 0.862 0.95 科技
0.83 0.028 0.83 0.83 0.83 0.951 财经
指标说明(参考最下面给出的混淆矩阵):
1、TP Rate :true positive rate,TPR简称“真正率” ,即被模型预测为正的正样本比率。TPR
= TP /(TP + FN) 正样本预测结果数 / 正样本实际数。以体育类为例,TPR=93/100=
0.93.
2、FP Rate:false positive rate, FPR简称“假正率” ,即被模型预测为正的负样本比率。 FPR
= FP /(FP + TN) 被预测为正的负样本结果数 /负样本实际数。以体育类为例,FPR=1/600= 0.0017≈0.002。
3、Precision:精确度,即被模型正确预测的样本与所有被预测为正的样本的比率。以体育类为例,被模型正确预测的样本数
= 93,所有被预测为正的样本为94,所以Precision=93/94=0.98936≈0.989.
4、Recall:召回率,即所有该类样本被正确预测的比例。 以体育类为例,总样本数为100,正确预测93个,召回率=0.93.
5、 F-Measure:在weka中F-Measure被定义为(2*Precision*Recall)/(Precision*Recall). 以体育类为例,F-Measure=(2*0.989*0.93)/(0.989+0.93)=1.84/1.92=0.958.
6、ROC Area:ROC曲线下的面积,即Area Under roc Curve(AUC)。这个指标来自医学AUC值介于0.5到1之间,值越大表示分类器越好。该指标与Wilcoxon-Mann-Whitney test 统计指标等价。参见:http://longmans1985.blog.163.com/blog/static/7060547520128194220344/
Correctly Classified Instances 622 88.8571 %
Incorrectly Classified Instances 78 11.1429 %
Kappa statistic 0.87
Mean absolute error 0.2064
Root mean squared error 0.3049
Relative absolute error 84.2857 %
Root relative squared error 87.1311 %
Total Number of Instances 700
=== Confusion Matrix ===
a b c d e f g <-- classified as
93 0 1 0 5 1 0 | a = 体育
0 93 1 0 4 0 2 | b = 城市
0 0 92 0 6 2 0 | c = 娱乐
0 1 2 93 0 2 2 | d = 房产
0 2 7 0 84 1 6 | e = 新闻
1 1 2 0 5 84 7 | f = 科技
0 2 1 3 6 5 83 | g = 财经
相关文章推荐
- 分类模型评估指标
- 二分类模型评价指标-AUC
- 机器学习实战笔记(Python实现)-07-模型评估与分类性能度量
- 【引用】Weka中分类器指标的说明
- 机器学习二分类问题模型效果度量方法
- 【AUC】二分类模型的评价指标ROC Curve
- weka实际操作--构建分类、回归模型(比较详细)
- MXNet 分类模型训练之采用多指标评价模型能力(accuracy,cross-entropy,top_k_accuracy)
- 【Caffe的C++接口使用说明(三)】Ubuntu14.04下Caffe利用训练好的模型进行分类的C++接口使用说明(三)
- weka实际操作--构建分类、回归模型
- 机器学习之分类性能度量指标 : ROC曲线、AUC值、正确率、召回率
- 机器学习之分类性能度量指标 : ROC曲线、AUC值、正确率、召回率
- 二分类模型评估指标的计算方法与代码实现
- 机器学习之分类模型的性能度量
- 图像分类中混淆矩阵精度验证法中的几个指标说明
- 分类算法属性选择度量--信息增益、增益率、Gini指标
- 【机器学习】分类性能度量指标 : ROC曲线、AUC值、正确率、召回率、敏感度、特异度
- 二分类问题模型指标
- 使用Weka进行数据挖掘(Weka教程七)Weka分类/预测模型构建与评价
- 机器学习之分类模型的性能度量