机器学习实战——第五章:Logistic回归
2015-05-17 10:29
274 查看
本系列目的在于总结每一个分类器的特点(优点、缺点、使用数据类型、使用时的注意事项等)。相关代码自己搜。
python:建议使用2.7
python常用函数库:NumPy、scikit-learn等
python集成环境:anaconda
优点:
1、简单、易于理解
缺点:
1、容易欠拟合,效果不很好
2、要求error函数在当前点是有定义、并且可微
使用数据类型:
1、连续型(不用做离散化处理;但要做归一化)
2、离散型
使用时注意事项:
0、梯度只是方向,步长还要alpha控制,alpha控制不好,很容易造成不收敛
1、注意,我们关心的其实是error的梯度,希望让error尽快变小,所以使用梯度下降,而且方向为error的梯度(回想回归系数w的更新公式)。
2、梯度下降的改进:
基本的随机梯度下降:
来一个样本更新一次梯度
也是一种在线学习算法
改进的随机梯度下降:
alpha随迭代次数逐渐减小,但不要为零:alpha=4/(1.0 + i + j) + 0.01
随机的选择训练样本
使用随机梯度下降,一般需要多跑几遍程序,或使用交叉验证;因为样本选择是随机的,要避免偶然情况。
3、如何处理数据中的缺失值:
类别缺失,只能忽略该样本(此处只考虑有监督学习)
某些特征值缺失:
忽略该样本
用该特征的均值代替
用特殊值代替,如-1、0等
在LR中,特征缺失,我们采用0来替代,这样做有两个直觉:
不会影响系数的更新:we i g h t s = we i g h t s + alpha * e r r o r * d a t a M a t r i x [randIndex] = we i g h t s
不影响分类的结果:由于sigmoid(0) = 0.5,即它对结果的预测不具有任何倾向性
python:建议使用2.7
python常用函数库:NumPy、scikit-learn等
python集成环境:anaconda
优点:
1、简单、易于理解
缺点:
1、容易欠拟合,效果不很好
2、要求error函数在当前点是有定义、并且可微
使用数据类型:
1、连续型(不用做离散化处理;但要做归一化)
2、离散型
使用时注意事项:
0、梯度只是方向,步长还要alpha控制,alpha控制不好,很容易造成不收敛
1、注意,我们关心的其实是error的梯度,希望让error尽快变小,所以使用梯度下降,而且方向为error的梯度(回想回归系数w的更新公式)。
2、梯度下降的改进:
基本的随机梯度下降:
来一个样本更新一次梯度
也是一种在线学习算法
改进的随机梯度下降:
alpha随迭代次数逐渐减小,但不要为零:alpha=4/(1.0 + i + j) + 0.01
随机的选择训练样本
使用随机梯度下降,一般需要多跑几遍程序,或使用交叉验证;因为样本选择是随机的,要避免偶然情况。
3、如何处理数据中的缺失值:
类别缺失,只能忽略该样本(此处只考虑有监督学习)
某些特征值缺失:
忽略该样本
用该特征的均值代替
用特殊值代替,如-1、0等
在LR中,特征缺失,我们采用0来替代,这样做有两个直觉:
不会影响系数的更新:we i g h t s = we i g h t s + alpha * e r r o r * d a t a M a t r i x [randIndex] = we i g h t s
不影响分类的结果:由于sigmoid(0) = 0.5,即它对结果的预测不具有任何倾向性
相关文章推荐
- 机器学习实战第五章——Logistic回归
- 机器学习实战第五章Logistic回归的运行的小错误
- 机器学习实战第五章 - Logistic回归(包括GD和SGD的比较)
- 机器学习实战-logistic回归原理
- 机器学习实战之logistic回归
- 【机器学习实战】5.Logistic回归(1)
- 【机器学习实战】Logistic回归例程调试(1)
- 【机器学习实战】——第五章 神经网络
- 机器学习实战python版Logistic回归
- 机器学习实战(4) ——Logistic回归(python实现)
- 机器学习实战--笔记5(logistic回归)
- 机器学习实战第五章(Chapter5):Logistic回归-程序原理详解
- 机器学习实战 - Logistic回归
- 机器学习实战代码详解(五)Logistic回归
- Python学习-机器学习实战-ch05 Logistic回归
- 机器学习实战第5章 Logistic回归的weights
- 机器学习实战 第五章 logistic回归
- [机器学习实战] -Logistic回归
- [机器学习实战] Logistic回归
- 机器学习实战之logistic回归