8. Establish a single-number evaluation metric for your team to optimize 建立一个单一数字的评估指标(MACHINE LE
2016-12-09 08:12
477 查看
为你的团队进行算法优化建立一个单一数字的评估指标
分类准确率是单一数字评估指标(single-number evaluation metric)的示例:你在开发集(或测试集)上运行运行一个分类器,然后得到一个正确分类的样本比例这样一个数字。根据给指标,如果分类器A获得97%的准确率,分类器B获得90%的准确率,则我们认为分类器A更好。相比之下,查准率(Precision)和查全率(Recall)【3】 就不是一个单一数字的评估指标:它给出了两个数字来评估你的分类器性能。具有多个数字 的评估指标使得比较算法更为困难。假设你的算法表现如下:
这里,两个分类器都没有显而易见地比另一个更优越,所以它不能马上引导你选择其中一个。
在开发期间,你的团队会尝试各种关于算法体系结构,模型参数,特征选择等方面的许多idea。使用单一数字的评估指标(single-number evaluation metric)(如精度),你可以根据其在这个指标上的效果快速对所有模型进行排序,从而快速决定哪一个work的最好。
如果你真的同时关心查准率(Precision)和查全率(Recall),我建议你使用一种方法将它们组合为单一的数字。例如,可以取Precision和Recall的平均值,最终得到单个数字。或者,你可以计算“F1度量(F1 score)”,它是一种基于其平均值的改善的方法,比简单地取平均值效果要好。【4】
当你面临在一大堆分类器中做出选择时,使用单一数字的评估指标可以加快你做出决策。它可以给出所有尝试的idea的明确的优先排名,从而给出一个清晰的前进方向。
作为最后一个例子,假如你分别得到了你的猫分类器在四个主要市场((i)美国,(ii)中国,(iii)印度和(iv)其他地区)的准确率。这里提供了四个指标。通过对这四个数据进行平均或加权平均,你将得到单个数字度量。取平均值或加权平均值是将多个指标合并为一个的最常见的方法之一。
————————————————————
【3】 一个猫的分类器的查准率(Precision)是指在开发集(或测试集)中检测出的所有有猫的图片中有多少比例是真正的有猫。它的查全率(Recall)指在开发集(或测试集)中所有真正有猫的图片有多少比例被检测出来了。在高查准率和高查全率之间通常存在权衡。
【4】 如果你想要了解更多关于F1度量(F1 score)的信息,请参阅https://en.wikipedia.org/wiki/F1_score 。它是基于Precision和Recall的”调和平均(harmonic mean)”定义的,其计算公式为2(1/Precision)+(1/Recall)。(译者注:个人认为原文中使用的是”geomentric mean”有误,故改为“harmonic mean”,如有错误欢迎指出。)
相关文章推荐
- MLY -- 8.Establish a single-number evaluation metric for your team to optimize
- 想做一个SSL代理的集群中,有很多问题需要解决,I am all grateful to you for your advice
- Your task is to find for a given phone number any of its divisions into groups of two or three digit
- 解决在MySQL中建立存储过程时报出【check the manual that corresponds to your MySQL server version for the right ……】
- SSD: how to optimize your Solid State Drive for Linux Mint 17.3, Ubuntu 16.04 and Debian
- [DeeplearningAI笔记]ML strategy_1_1正交化/单一数字评估指标
- 位运算-Single Number II(给定一个数组,除了一个数字出现一次,其他都出现三次,求出现一次的数)
- Coursera | Andrew Ng (03-week1-1.3)—单一数字评估指标
- 10 Tips for Leading Your Team to Peak Performance(ZT)
- 10 Tips for Leading Your Team to Peak Performance(ZT)
- 故障解决:Failure adding assembly to the cache: Access denied. You might not have administrative credentials to perform this task. Contact your system administrator for assistance.
- ArcSDE Data Preparation Techniques to Optimize Map Rendering for Time-Critical Applications
- The Windows SDK team is proud to announce that the RTM release of the Microsoft Windows SDK for Windows Server 2008 and .NET Fra
- oracle split for varchar to number
- How to optimize for the Pentium
- 一个建立线程时常见的问题:invalid conversion from `void*' to `void*(*)(void*)
- 我在DLL中建立了一个TImage,但调用时出现错误"Cannot assign a TFont to a TFont"
- ProBlogger: Secrets for Blogging Your Way to a Six-Figure Income
- jboss publishing 遇到的一个问题(waiting for virtual machine to exit)
- How to Build an Economic Model in Your Spare Time (如何利用业余时间建立经济模型)