您的位置:首页 > 其它

当我们说“分类”的时候,我们到底在说什么?

2017-03-22 23:14 405 查看
当我们说到机器学习时,一个很高频的词:“分类”,会经常出现,那当我们说“分类”的时候,我们到底在说什么?

我查了很多博客、书籍、资料,提到“分类”,马上就进入“分类算法”的介绍描述,又是KNN(K最近邻算法),又是朴素贝叶斯等等。当然,可能是因为“分类”太常见了,所以大家都不肖一提。但对我们自己来说,要建立宏伟的“机器学习”能力大厦,一些基础的概念就好似大厦的地基,是必须稳固坚实的。

我们看一看“分类”的原始定义,根据百度百科的定义:

分类是指按照种类、等级或性质分别归类。

这个定义其实隐含有“分类”的2个重要信息:一是“按照种类、等级或性质”,意思是我们事先已经知道了“种类、等级或性质”,即我们知道要分成几类,分成哪些类。例如我们要把收到的电子邮件分类,我们分类之前已经知道要分为2类,一类是“正常邮件”,另一类是“垃圾邮件”。二是分类是个过程,例如将100封电子邮件,分别归类到“正常邮件”和“垃圾邮件”这2个类别名下。

有了这个基本认识,我们再来看一个大家容易忽视的问题:

我们为什么要分类?

先看看如果我们“不分类”有什么问题。今天你上餐馆吃饭,老板问你要吃什么菜?你说吃蔬菜。吃什么蔬菜?老板一脸茫然!你去奥特莱斯,对服务员说,给我来一件衣服。什么衣服?服务员一脸懵逼。

看到没,没有“分类”我们是无法正常生活的。

那么我们分类的目的其实就是把大量的事物细分成不同的种类,使得我们对某一个具体的事物有共同的理解和认识。例如把蔬菜分类成菠菜、小白菜、大白菜、芹菜、胡萝卜、白萝卜等等,把衣服分成外套、内衣、衬衣、短裤、长裤等等,这样我们才有正常沟通交流的基础

当然,除了日常生活中的沟通交流,分类其实还有更多方面的考虑和应用。例如,垃圾的分类,既可以提高垃圾的回收利用水平,又可减少垃圾处理工作量。企业把客户分成大客户、优质客户、普通客户等,也是增强营销针对性、集中企业资源、发现市场机会,更好的提升企业竞争力和效益的重要手段和措施。银行把客户分成铂金用户、黄金用户、白银用户、黑名单用户等等,分别给予不同的贷款利率或理财产品,也是基于风险和利润的综合权衡。事实上,各行各业都有分类的需要和广阔的应用场景。那在机器学习中,“分类”一般用来干吗?应用场景也很多,垃圾邮件检测,人脸识别,文字识别,语音识别,医疗分析,客户分类,贷款审查等等

所以,分类很重要。这也是为什么“分类”是机器学习领域非常核心的内容。

那具体的分类过程是怎样开展的呢?我们来举个例子:假设你是一位超市的蔬菜采购员,今天到一位农户那里采购辣椒,农户的辣椒很多,给了你10箩筐,每框大约1000个,有好有坏。你先挑第1框,挑了10分钟,挑出来400个品相好的辣椒,剩下的600个是品相不好的辣椒。这就是一个“分类”应用,你把农户的辣椒分成了品相好的和品相不好的2个种类。



注意,这个实际例子中隐含着几个非常重要的信息。首先,你靠什么判断辣椒是品相好的,还是品相不好的?那就是辣椒的特征,例如大小、颜色、光泽、表面平整度等等,也就是说,这些特征已经存储在你的大脑中,那这些特征是怎样存储在你的大脑中的,是因为你以前挑选过无数的辣椒,经历过长期的选辣椒“训练”,那些好辣椒的特征已经存储在你的大脑中。其次,你挑出一个辣椒,按照这些特征与你大脑中的品相好的辣椒进行对比,类似的就是品相好的,不类似的就是品相不好的。这就是“相似度计算”,或者叫“距离计算”。计算方法就是根据辣椒的这些特征进行综合计算,可以简单加权,可以单项决策,看你自己的大脑怎样定了,这就是“相似度计算方法”或叫“距离计算方法”。最后,什么是类似,什么是不类似?靠什么标准判断?这个标准就是你大脑中设置的“阈值”,例如相似度大于50%这个阈值,你就归到品相好的一类,相似度低于50%的阈值,你就归到品相不好的一类。

看到这里,你应该明白了这个现实场景与“机器学习”的关系了。我们再延伸一步,假设今天你带了一位实习采购员,以前从来没有采购过辣椒。你在挑这第1框1000个辣椒的时候,他在旁边看着,哪个是好辣椒,哪个是不好的辣椒。然后这一箩筐你挑完了,农户那还有9箩筐呢,你告诉实习采购员,让他去挑剩下的9箩筐。他刚刚在一旁看你挑第1框的1000个辣椒,这就是“训练”,然后他去挑剩下的9箩筐,就是“预测”,最终的效果是将9箩筐的辣椒分成了2类。如果这个实习采购员是一个机器人或电脑,这就是“机器学习”的“分类”,也可以说是“机器学习”进行了一次“分类”方面的应用。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: