Python数据分析与挖掘实战—挖掘建模
2017-05-02 23:10
696 查看
常用的分类与预测算法
1回归模型分类
1线性回归---自变量因变量线性关系,最小二乘法求解
2非线性回归--自变量因变量非线性关系,函数变换为线性关系,或非线性最小二乘方法求解
3logistic回归--因变量一般有1和0两种取值,将因变量的取值范围控制再0-1范围内
4岭回归--自变量之间具有多重共线性
5主成分回归--自变量之间具有多重共线性
一般自变量和因变量之间存在线性关系的时候,就可以用线性回归的方法,而两者之间呈现的是某种曲线特性时,就用非线性回归,当自变量之间出现多重共线时,用最小二乘估计的回归系数不准确,则主要用岭回归和主成分回归法。此处的logistics回归属于概率性非线性回归,对于二分类问题,y只有是否两个值,1和0,在自变量x1,x2,x3作用下y取值为是的概率为p,取值为否的概率为1-p。
logistics回归 p=P(y=1|X),取0概率是1-p,取1和取0的概率之比为p/1-p,成为事件的优势比odds,odds取对数得到Logistic变换Logit(p)=ln(p/1-p),再令Logit(p)=ln(p/1-p)=z ,则可以求出p=1/1+e^-z,则为Logistic函数。
p在0,1之间变换时,odds取值为0,+无穷,ln(p/1-p)的取值范围事-无穷,+无穷
logistics回归模型步骤
1根据挖掘目的设置特征,并筛选特征x1,x2...xp
使用sklearn中的feature_selection库,F检验来给出特征的F值和P值,筛选出F大的,p小的值。RFE(递归特征消除)和SS(稳定性选择)
2列出回归方程ln(p/1-p)=β0+β1x1+...+βpxp+e
3估计回归系数
4模型检验
5预测控制
随机逻辑回归进行特征筛选,逻辑回归进行模型训练评估
1回归模型分类
1线性回归---自变量因变量线性关系,最小二乘法求解
2非线性回归--自变量因变量非线性关系,函数变换为线性关系,或非线性最小二乘方法求解
3logistic回归--因变量一般有1和0两种取值,将因变量的取值范围控制再0-1范围内
4岭回归--自变量之间具有多重共线性
5主成分回归--自变量之间具有多重共线性
一般自变量和因变量之间存在线性关系的时候,就可以用线性回归的方法,而两者之间呈现的是某种曲线特性时,就用非线性回归,当自变量之间出现多重共线时,用最小二乘估计的回归系数不准确,则主要用岭回归和主成分回归法。此处的logistics回归属于概率性非线性回归,对于二分类问题,y只有是否两个值,1和0,在自变量x1,x2,x3作用下y取值为是的概率为p,取值为否的概率为1-p。
logistics回归 p=P(y=1|X),取0概率是1-p,取1和取0的概率之比为p/1-p,成为事件的优势比odds,odds取对数得到Logistic变换Logit(p)=ln(p/1-p),再令Logit(p)=ln(p/1-p)=z ,则可以求出p=1/1+e^-z,则为Logistic函数。
p在0,1之间变换时,odds取值为0,+无穷,ln(p/1-p)的取值范围事-无穷,+无穷
logistics回归模型步骤
1根据挖掘目的设置特征,并筛选特征x1,x2...xp
使用sklearn中的feature_selection库,F检验来给出特征的F值和P值,筛选出F大的,p小的值。RFE(递归特征消除)和SS(稳定性选择)
2列出回归方程ln(p/1-p)=β0+β1x1+...+βpxp+e
3估计回归系数
4模型检验
5预测控制
随机逻辑回归进行特征筛选,逻辑回归进行模型训练评估
#-*-coding:utf-8-*-
import pandas as pd filename='bankloan.xls' data = pd.read_excel(filename) x=data.iloc[:,:8].as_matrix() y=data.iloc[:,8].as_matrix() from sklearn.linear_model import LogisticRegression as LR from sklearn.linear_model import RandomizedLogisticRegression as RLR rlr = RLR() rlr.fit(x,y)#训练模型 print rlr.get_support()#获取筛选结果 print rlr.scores_#获取评分 print ','.join(data.columns[rlr.get_support()])#有效特征为 x=data[data.columns[rlr.get_support()]].as_matrix() #筛选好特征 print x lr = LR() lr.fit(x,y)#训练模型 print(lr.score(x,y))#模型的平均正确率,使用训练样本测试
相关文章推荐
- 『Python数据分析与挖掘实战』第五章:挖掘建模
- Python数据分析与挖掘实战(数据预处理)
- python 数据分析与挖掘实战
- Python数据分析实战 | 数据挖掘人门
- Python数据分析与实战挖掘
- python数据分析与挖掘学习笔记(6)-电商网站数据分析及商品自动推荐实战与关联规则算法
- 用Python 爬取淘宝商品数据挖掘分析实战
- Python数据分析与挖掘实战学习笔记(一)
- Python数据分析与挖掘实战学习笔记(二)
- python数据挖掘与分析实战—1、2、3
- python数据分析与挖掘学习笔记(7)-交通路标自动识别实战与神经网络算法
- Python数据分析与挖掘实战代码纠错 代码3-3
- python数据分析与挖掘实战-第六章拓展偷漏税用户识别
- Python数据分析与挖掘实战(开发流程及常用库安装)
- Python数据挖掘建模 chapter_6 主成分分析(简)
- Python数据分析与挖掘实战代码纠错 代码3-1
- python数据分析与挖掘实战 第六章 拓展思考
- 利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程
- Python数据分析与挖掘实战pdf
- 【Python数据分析】2nd-挖掘建模