Stanford 机器学习笔记 Week6 Machine Learning System Design
2016-03-05 14:36
357 查看
Building a Spam Classifier
Prioritizing What to Work On
本节将会设计一个垃圾邮件分类器,具体方法是这样的:首先设定一些经常在垃圾邮件中出现的单词,比如buy, discount, deal等等,假如有m个。然后对于一封邮件,用一个长度为m的0/1向量表示这些单词是否在
这封邮件中出现过。
一般来说,这些单词不是人工设定的,而是从训练集中选择出现频率最高的。提高准确性的方法有:
1. 收集更多数据。
2. 关注隐含信息,如发送邮件的服务器等。
3. 注意字符替换,比如w4tch , med1cine等。
而具体选择哪个方法是需要策略的,下面将会介绍。
Error Analysis
改善算法一般可以这样:提出算法,并用cross validation集检验。
画出learning curve,看看增大数据集是否会有改善(是否过拟合/欠拟合)。
手动调查哪些数据会出现错误,并研究原因,看看能设置哪些新属性从而区分它们。
Handling Skewed Data
Error Metrics for Skewed Classes
有时不能用预测准确率来评估一个算法好坏。比如一个肿瘤良性/恶性分类器,数据集中只有0.5%的数据是恶性的(数据非常skewed),那么举一个极端的例子,如果你对于所有数据都预测良性,你的准确率是
99.5%,因此这不能反映出算法的优劣。
在这种情况下,可以使用Precision/Recall模型:
Precision = true positive / predicted positive = true positive / ( true positive + false positive)
Recall = true positive / actual positive = true positive / (true positive + false negative)
这两项都是越高越好,如果像上面一样对所有数据都预测为良性,那么这两项都会等于0。
注意要把出现频率极少的一项作为1。
accuracy = SUM(TruePositive,TrueNegative)/All (ALL为表格所有值之和)
Trading Off Precision and Recall
对于一个肿瘤分类算法,假设1表示良性,0表示恶性,正常的预测方法是hθ(x)< 0.5 预测为0,>0.5预测为1。如果我们想要预测为0(恶性)的预测尽量准确,一种方法是修改分类的参数值0.5为更小的数。这样的效
果是预测为0的结果正确性更高,但同时也有更多确实为0(恶性)的患者被预测为1了。直接的效果就是
precision上升同时recall下降。实际上,在调节分类参数时precision和recall是此消彼长的。
假设测出了各个算法的P,R值,如何确定哪个最好呢?平均数肯定是不合理的,一种合理的方法是计算:
2*P*R/(P+R)
Using Large Data Sets
Data For Machine Learning
对于大多数学习算法来说,给足够多的数据,最终都会有较好的结果“It’s not who has the best algorithm wins, it’s who has the most data.”
然而这需要满足一个条件,就是模型使用的属性包含了足够的信息,假如只给出房子的大小,而没有其他的
信息来预测房价,有再多的数据也不能保证准确性。检验模型是否有用的一个方法就是想想如果把模型中的
信息给一个人类专家,他可以准确预测吗?
因此一个好的算法一般是:
1由一个复杂的模型组成(linear/logistic regression中参数复杂或是神经网络中的网络结构复杂)
2用大量的数据来避免过拟合。
第一条保证low bias (Jtrain(θ) 非常小),第二条保证low varience(Jtrain(θ) 约等于 Jtest(θ)),因此这
种情况下 Jtest(θ)也会非常小。
相关文章推荐
- Android 编程中遇到的错误问题处理
- saiku 展示优化
- 如何在linux上定时执行程序
- Mysql----游标的嵌套循环
- matlab绘图 及基础笔记
- linux内核移植、配置及nfs文件系统挂载
- 解密qq
- 古罗马数字转十进制
- linux下定时运行打开网页url链接
- Linux(Centos)中tcpdump参数用法详解(转)
- 数组指针和指针数组以及二维数组的函数间传递与返回
- QT学习之QString的arg方法
- 百练1017:装箱问题
- 10Redis键空间通知(keyspace notifications)
- android 动画之Scroller
- 用例图中的extend和include
- Inverted Index
- shell脚本编写汇集
- JAVA编程指南 --继承
- eclipse默认编码为GBK,修改为UTF8的方法